laion400m, laion400m

  • Açıklama :

LAION-400M veri kümesi tamamen açık ve serbestçe erişilebilir.

Bu veri kümesinin tam açıklaması için https://laion.ai/laion-400-open-dataset/ adresini kontrol edin.

LAION-400M veri setindeki tüm resimler ve metinler, metin ve resim yerleştirmeleri arasındaki kosinüs benzerliği hesaplanarak ve benzerliği 0,3'ün altına düşürülerek OpenAI'nin CLIP'i ile filtrelenmiştir. 0.3 eşiği, insan değerlendirmeleriyle belirlenmişti ve semantik görüntü-metin-içerik eşleşmesini tahmin etmek için iyi bir buluşsal yöntem gibi görünüyordu.

Resim-metin çiftleri, Common Crawl web veri dökümünden çıkarıldı ve 2014 ile 2021 arasında taranan rastgele web sayfalarından alındı.

Bölmek örnekler
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/resimler (varsayılan yapılandırma)

  • Özellik yapısı :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım Değer aralığı
ÖzelliklerDict
altyazı Metin sicim HTML alternatif metin özelliği
görüntü resim (Yok, Yok, 3) uint8 görüntü
lisans Metin sicim Creative Commons lisansının türü (varsa)
nsfw SınıfEtiketi int64 NSFW etiketi (CLIP ile algılanır). Tutarsız ve eksik etiketler UNTAGGED ile değiştirilir
orijinal_yükseklik skaler int32 görüntünün orijinal yüksekliği
orijinal_genişlik skaler int32 görüntünün orijinal genişliği
benzerlik skaler şamandıra64 metin ve görüntü gömme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır [0,0, 1,0]
url Metin sicim resim URL'si

laion400m/yerleştirmeler

  • Özellik yapısı :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım Değer aralığı
ÖzelliklerDict
altyazı Metin sicim HTML alternatif metin özelliği
image_embedding tensör (512,) şamandıra16 CLIP görüntü gömme
lisans Metin sicim Creative Commons lisansının türü (varsa)
nsfw SınıfEtiketi int64 NSFW etiketi (CLIP ile algılanır). Tutarsız ve eksik etiketler UNTAGGED ile değiştirilir
orijinal_yükseklik skaler int32 görüntünün orijinal yüksekliği
orijinal_genişlik skaler int32 görüntünün orijinal genişliği
benzerlik skaler şamandıra64 metin ve görüntü gömme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır [0,0, 1,0]
metin_gömme tensör (512,) şamandıra16 CLIP metin gömme
url Metin sicim resim URL'si