laion400m,laion400m

  • Descripción :

El conjunto de datos LAION-400M es completamente abierto y de libre acceso.

Consulte https://laion.ai/laion-400-open-dataset/ para obtener la descripción completa de este conjunto de datos.

Todas las imágenes y textos en el conjunto de datos LAION-400M se filtraron con CLIP de OpenAI calculando la similitud del coseno entre las incrustaciones de texto e imagen y descartando aquellas con una similitud por debajo de 0.3. El umbral de 0,3 se había determinado a través de evaluaciones humanas y parecía ser una buena heurística para estimar la coincidencia semántica de imagen-texto-contenido.

Los pares de imagen y texto se extrajeron del volcado de datos web de Common Crawl y provienen de páginas web aleatorias rastreadas entre 2014 y 2021.

Dividir Ejemplos
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (configuración predeterminada)

  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción Rango de valores
CaracterísticasDict
subtítulo Texto cadena Atributo de texto alternativo HTML
imagen Imagen (Ninguno, Ninguno, 3) uint8 imagen
licencia Texto cadena tipo de licencia Creative Commons (si aplica)
nsfw Etiqueta de clase int64 Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan con SIN ETIQUETAR
altura_original Escalar int32 altura original de la imagen
ancho_original Escalar int32 ancho original de la imagen
semejanza Escalar flotar64 puntuación de similitud de coseno entre el texto y la imagen incrustada. Los valores faltantes predeterminados son -1.0 [0.0, 1.0]
URL Texto cadena URL de la imagen

laion400m/incrustaciones

  • Estructura de características :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción Rango de valores
CaracterísticasDict
subtítulo Texto cadena Atributo de texto alternativo HTML
imagen_incrustación Tensor (512,) flotar16 Incrustación de imágenes CLIP
licencia Texto cadena tipo de licencia Creative Commons (si aplica)
nsfw Etiqueta de clase int64 Etiqueta NSFW (detectada con CLIP). Las etiquetas incohesivas y faltantes se reemplazan con SIN ETIQUETAR
altura_original Escalar int32 altura original de la imagen
ancho_original Escalar int32 ancho original de la imagen
semejanza Escalar flotar64 puntuación de similitud de coseno entre el texto y la imagen incrustada. Los valores faltantes predeterminados son -1.0 [0.0, 1.0]
incrustación de texto Tensor (512,) flotar16 Incrustación de texto CLIP
URL Texto cadena URL de la imagen