laion400m, laion400m

  • opis :

Zbiór danych LAION-400M jest całkowicie otwarty i swobodnie dostępny.

Sprawdź https://laion.ai/laion-400-open-dataset/ , aby uzyskać pełny opis tego zestawu danych.

Wszystkie obrazy i teksty w zbiorze danych LAION-400M zostały przefiltrowane za pomocą funkcji CLIP OpenAI poprzez obliczenie cosinusowego podobieństwa między osadzonym tekstem a obrazem i usunięcie tych, które mają podobieństwo poniżej 0,3. Próg 0,3 został określony przez ludzkie oceny i wydawał się być dobrą heurystyką do szacowania semantycznego dopasowania obraz-tekst-treść.

Pary obraz-tekst zostały wyodrębnione ze zrzutu danych sieci Web Common Crawl i pochodzą z losowych stron internetowych przeszukanych w latach 2014–2021.

Podział Przykłady
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (domyślna konfiguracja)

  • Struktura funkcji :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis Zakres wartości
FunkcjeDict
podpis Tekst strunowy Atrybut tekstu alternatywnego HTML
obraz Obraz (Brak, Brak, 3) uint8 obraz
licencja Tekst strunowy rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw Etykieta klasy int64 Znacznik NSFW (wykryty przez CLIP). Niespójne i brakujące tagi są zastępowane przez NIETAGGED
oryginalna_wysokość Skalarny int32 oryginalna wysokość obrazu
oryginalna_szerokość Skalarny int32 Oryginalna szerokość obrazu
podobieństwo Skalarny pływak64 cosinusowy wynik podobieństwa między osadzonym tekstem a obrazem. Brakujące wartości to domyślnie -1,0 [0,0, 1,0]
adres URL Tekst strunowy URL obrazu

laion400m/osadzenia

  • Struktura funkcji :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis Zakres wartości
FunkcjeDict
podpis Tekst strunowy Atrybut tekstu alternatywnego HTML
osadzanie_obrazu Napinacz (512,) pływak16 Osadzanie obrazu CLIP
licencja Tekst strunowy rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw Etykieta klasy int64 Znacznik NSFW (wykryty przez CLIP). Niespójne i brakujące tagi są zastępowane przez NIETAGGED
oryginalna_wysokość Skalarny int32 oryginalna wysokość obrazu
oryginalna_szerokość Skalarny int32 Oryginalna szerokość obrazu
podobieństwo Skalarny pływak64 cosinusowy wynik podobieństwa między osadzonym tekstem a obrazem. Brakujące wartości to domyślnie -1,0 [0,0, 1,0]
osadzanie_tekstu Napinacz (512,) pływak16 Osadzanie tekstu CLIP
adres URL Tekst strunowy URL obrazu