- Açıklama :
LAION-400M veri kümesi tamamen açık ve serbestçe erişilebilir.
Bu veri kümesinin tam açıklaması için https://laion.ai/laion-400-open-dataset/ adresini kontrol edin.
LAION-400M veri setindeki tüm resimler ve metinler, metin ve resim yerleştirmeleri arasındaki kosinüs benzerliği hesaplanarak ve benzerliği 0,3'ün altına düşürülerek OpenAI'nin CLIP'i ile filtrelenmiştir. 0.3 eşiği, insan değerlendirmeleriyle belirlenmişti ve semantik görüntü-metin-içerik eşleşmesini tahmin etmek için iyi bir buluşsal yöntem gibi görünüyordu.
Resim-metin çiftleri, Common Crawl web veri dökümünden çıkarıldı ve 2014 ile 2021 arasında taranan rastgele web sayfalarından alındı.
Ana Sayfa : https://laion.ai/blog/laion-400-open-dataset/
Kaynak kodu :
tfds.vision_language.laion400m.Laion400m
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak
download_config.manual_dir
içine indirmenizi gerektirir (varsayılan olarak~/tensorflow_datasets/downloads/manual/
şeklindedir):
https://laion.ai/blog/laion-400-open-dataset/ adresindeki "Bilgileri İndir" bölümüne bakın.Otomatik önbelleğe alınmış ( belgeler ): Bilinmiyor
bölmeler :
Bölmek | örnekler |
---|
Denetlenen anahtarlar (Bkz.
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ): Eksik.
Alıntı :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/resimler (varsayılan yapılandırma)
- Özellik yapısı :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'url': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım | Değer aralığı |
---|---|---|---|---|---|
ÖzelliklerDict | |||||
altyazı | Metin | sicim | HTML alternatif metin özelliği | ||
görüntü | resim | (Yok, Yok, 3) | uint8 | görüntü | |
lisans | Metin | sicim | Creative Commons lisansının türü (varsa) | ||
nsfw | SınıfEtiketi | int64 | NSFW etiketi (CLIP ile algılanır). Tutarsız ve eksik etiketler UNTAGGED ile değiştirilir | ||
orijinal_yükseklik | skaler | int32 | görüntünün orijinal yüksekliği | ||
orijinal_genişlik | skaler | int32 | görüntünün orijinal genişliği | ||
benzerlik | skaler | şamandıra64 | metin ve görüntü gömme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır | [0,0, 1,0] | |
url | Metin | sicim | resim URL'si |
laion400m/yerleştirmeler
- Özellik yapısı :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32),
'original_width': Scalar(shape=(), dtype=int32),
'similarity': Scalar(shape=(), dtype=float64),
'text_embedding': Tensor(shape=(512,), dtype=float16),
'url': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım | Değer aralığı |
---|---|---|---|---|---|
ÖzelliklerDict | |||||
altyazı | Metin | sicim | HTML alternatif metin özelliği | ||
image_embedding | tensör | (512,) | şamandıra16 | CLIP görüntü gömme | |
lisans | Metin | sicim | Creative Commons lisansının türü (varsa) | ||
nsfw | SınıfEtiketi | int64 | NSFW etiketi (CLIP ile algılanır). Tutarsız ve eksik etiketler UNTAGGED ile değiştirilir | ||
orijinal_yükseklik | skaler | int32 | görüntünün orijinal yüksekliği | ||
orijinal_genişlik | skaler | int32 | görüntünün orijinal genişliği | ||
benzerlik | skaler | şamandıra64 | metin ve görüntü gömme arasındaki kosinüs benzerlik puanı. Eksik değerler varsayılan olarak -1,0'dır | [0,0, 1,0] | |
metin_gömme | tensör | (512,) | şamandıra16 | CLIP metin gömme | |
url | Metin | sicim | resim URL'si |