laion400m,laion400m

  • Descriptif :

L'ensemble de données LAION-400M est totalement ouvert et librement accessible.

Consultez https://laion.ai/laion-400-open-dataset/ pour la description complète de cet ensemble de données.

Toutes les images et tous les textes de l'ensemble de données LAION-400M ont été filtrés avec le CLIP d'OpenAI en calculant la similarité cosinusoïdale entre les incorporations de texte et d'image et en supprimant ceux dont la similarité est inférieure à 0,3. Le seuil de 0,3 avait été déterminé par des évaluations humaines et semblait être une bonne heuristique pour estimer la correspondance sémantique image-texte-contenu.

Les paires image-texte ont été extraites du vidage de données Web de Common Crawl et proviennent de pages Web aléatoires explorées entre 2014 et 2021.

Diviser Exemples
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuration par défaut)

  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description Plage de valeurs
FonctionnalitésDict
légende Texte chaîne Attribut de texte alternatif HTML
image Image (Aucun, Aucun, 3) uint8 image
Licence Texte chaîne type de licence Creative Commons (le cas échéant)
nsfw Étiquette de classe int64 Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_d'origine Scalaire int32 hauteur d'origine de l'image
largeur_originale Scalaire int32 largeur d'origine de l'image
similarité Scalaire float64 score de similarité en cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut à -1,0 [0.0, 1.0]
URL Texte chaîne URL de l'image

laion400m/encastrements

  • Structure des fonctionnalités :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description Plage de valeurs
FonctionnalitésDict
légende Texte chaîne Attribut de texte alternatif HTML
image_embedding Tenseur (512,) float16 Incorporation d'images CLIP
Licence Texte chaîne type de licence Creative Commons (le cas échéant)
nsfw Étiquette de classe int64 Balise NSFW (détectée avec CLIP). Les balises incohésives et manquantes sont remplacées par UNTAGGED
hauteur_d'origine Scalaire int32 hauteur d'origine de l'image
largeur_originale Scalaire int32 largeur d'origine de l'image
similarité Scalaire float64 score de similarité en cosinus entre l'intégration du texte et de l'image. Les valeurs manquantes sont par défaut à -1,0 [0.0, 1.0]
text_embedding Tenseur (512,) float16 Incorporation de texte CLIP
URL Texte chaîne URL de l'image