laion400m

Opis :

Zbiór danych LAION-400M jest całkowicie otwarty i swobodnie dostępny.

Pełny opis tego zbioru danych znajdziesz na https://laion.ai/laion-400-open-dataset/ .

Wszystkie obrazy i teksty w zbiorze danych LAION-400M zostały przefiltrowane za pomocą CLIP OpenAI poprzez obliczenie podobieństwa cosinus między tekstem i osadzonymi obrazami i usunięcie tych z podobieństwem poniżej 0,3. Próg 0,3 został określony na podstawie ocen przeprowadzanych przez ludzi i wydawał się być dobrą heurystyką do szacowania semantycznego dopasowania obrazu, tekstu i treści.

Pary obraz-tekst zostały wyodrębnione ze zrzutu danych sieciowych Common Crawl i pochodzą z losowych stron internetowych przeszukanych w latach 2014–2021.

Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : https://laion.ai/blog/laion-400-open-dataset/
Kod źródłowy : tfds.vision_language.laion400m.Laion400m
Wersje :
- 1.0.0 (domyślnie): Wersja pierwsza.
Rozmiar pobierania : Unknown size
Rozmiar zbioru danych : Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie jest to ~/tensorflow_datasets/downloads/manual/ ):
Zapoznaj się z sekcją „Informacje o pobieraniu” na stronie https://laion.ai/blog/laion-400-open-dataset/
Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :

Podział	Przykłady

Klucze nadzorowane (zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (konfiguracja domyślna)

Struktura funkcji :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D	Opis	Zakres wartości
	FunkcjeDykt
podpis	Tekst		smyczkowy	Atrybut tekstu alternatywnego HTML
obraz	Obraz	(Brak, Brak, 3)	uint8	obraz
licencja	Tekst		smyczkowy	rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw	Etykieta klasy		int64	Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED
wysokość_oryginalna	Skalarny		int32	pierwotna wysokość obrazu
oryginalna_szerokość	Skalarny		int32	pierwotna szerokość obrazu
podobieństwo	Skalarny		pływak64	cosinusowy wynik podobieństwa pomiędzy osadzeniem tekstu i obrazu. Brakujące wartości mają domyślnie wartość -1,0	[0,0, 1,0]
adres URL	Tekst		smyczkowy	adres URL obrazu

laion400m/osadzenia

Struktura funkcji :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D	Opis	Zakres wartości
	FunkcjeDykt
podpis	Tekst		smyczkowy	Atrybut tekstu alternatywnego HTML
osadzanie_obrazu	Napinacz	(512,)	pływak16	Osadzanie obrazu CLIP
licencja	Tekst		smyczkowy	rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw	Etykieta klasy		int64	Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED
wysokość_oryginalna	Skalarny		int32	pierwotna wysokość obrazu
oryginalna_szerokość	Skalarny		int32	pierwotna szerokość obrazu
podobieństwo	Skalarny		pływak64	cosinusowy wynik podobieństwa między osadzeniem tekstu i obrazu. Brakujące wartości domyślnie wynoszą -1,0	[0,0, 1,0]
osadzanie tekstu	Napinacz	(512,)	pływak16	Osadzanie tekstu CLIP
adres URL	Tekst		smyczkowy	adres URL obrazu

laion400m Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

laion400m/images (konfiguracja domyślna)

laion400m/osadzenia

laion400m