laion400m

Description :

L’ensemble de données LAION-400M est totalement ouvert et librement accessible.

Consultez https://laion.ai/laion-400-open-dataset/ pour la description complète de cet ensemble de données.

Toutes les images et textes de l'ensemble de données LAION-400M ont été filtrés avec le CLIP d'OpenAI en calculant la similarité cosinus entre les intégrations de texte et d'image et en supprimant ceux dont la similarité est inférieure à 0,3. Le seuil de 0,3 avait été déterminé par des évaluations humaines et semblait être une bonne heuristique pour estimer la correspondance sémantique image-texte-contenu.

Les paires image-texte ont été extraites du vidage de données Web Common Crawl et proviennent de pages Web aléatoires explorées entre 2014 et 2021.

Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://laion.ai/blog/laion-400-open-dataset/
Code source : tfds.vision_language.laion400m.Laion400m
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : Unknown size
Taille du jeu de données : Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez les données sources manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Reportez-vous à la section « Informations de téléchargement » sur https://laion.ai/blog/laion-400-open-dataset/
Mise en cache automatique ( documentation ) : Inconnu
Divisions :

Diviser	Exemples

Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) : Manquant.
Citation :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuration par défaut)

Structure des fonctionnalités :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D	Description	Plage de valeurs
	FonctionnalitésDict
légende	Texte		chaîne	Attribut de texte alternatif HTML
image	Image	(Aucun, Aucun, 3)	uint8	image
licence	Texte		chaîne	type de licence Creative Commons (le cas échéant)
nsfw	Étiquette de classe		int64	Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_originale	Scalaire		int32	hauteur originale de l'image
largeur_originale	Scalaire		int32	largeur originale de l'image
similarité	Scalaire		flotteur64	score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0	[0,0, 1,0]
URL	Texte		chaîne	URL de l'image

laion400m/encastrements

Structure des fonctionnalités :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D	Description	Plage de valeurs
	FonctionnalitésDict
légende	Texte		chaîne	Attribut de texte alternatif HTML
image_embedding	Tenseur	(512,)	flotteur16	Intégration d'images CLIP
licence	Texte		chaîne	type de licence Creative Commons (le cas échéant)
nsfw	Étiquette de classe		int64	Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_originale	Scalaire		int32	hauteur originale de l'image
largeur_originale	Scalaire		int32	largeur originale de l'image
similarité	Scalaire		flotteur64	score de similarité cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut -1,0	[0,0, 1,0]
text_embedding	Tenseur	(512,)	flotteur16	Intégration de texte CLIP
URL	Texte		chaîne	URL de l'image

laion400m Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

laion400m/images (configuration par défaut)

laion400m/encastrements

laion400m