wit_kaggle

opis :

Wikipedia - Konkurs na dopasowanie obrazu/podpisu Kaggle.

Konkurs ten jest organizowany przez zespół badawczy Fundacji Wikimedia we współpracy z Google Research i kilkoma zewnętrznymi współpracownikami. Ten konkurs opiera się na zbiorze danych WIT opublikowanym przez Google Research, jak opisano szczegółowo w tym dokumencie SIGIR .

W tym konkursie zbudujesz model, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności wytrenujesz swój model, aby kojarzył dane obrazy z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii. Jeśli się powiedzie, przyczynisz się do zwiększenia dostępności największej encyklopedii online. Miliony czytelników i redaktorów Wikipedii będą mogły łatwiej zrozumieć, przeszukiwać i opisywać media na dużą skalę. W rezultacie przyczynisz się do otwartego modelu, aby poprawić uczenie się dla wszystkich.

Strona główna : https://www.kaggle.com/c/wikipedia-image-caption/code
Kod źródłowy : tfds.vision_language.wit_kaggle.WitKaggle
Wersje :
- 1.0.0 : Pierwsza wersja. Zapewnia pociągi i testy zestawów danych z konkursu Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).
  Celem konkursu jest zbudowanie modelu, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności model powinien zostać przeszkolony w kojarzeniu danych obrazów z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii.
  Należy zauważyć, że to wydanie nie zapewnia podstawowej prawdy dla zestawu testowego, ponieważ nie została jeszcze dostarczona przez konkurencję Kaggle.
  Należy zauważyć, że nie wszystkie obserwacje treningowe mają odpowiednie dane obrazowe. Opublikowane obrazy wykluczają wszystkie obrazy przedstawiające ludzi. W przypadku próbek, które nie są powiązane z danymi obrazu, stosowane są następujące cechy obrazu: image jest pustym obrazem zakodowanym w bajcie 64, embedding jest wektorem złożonym z 2048 zer.
  Próbki dopuszczone do konkursu można wczytać jako: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")
- 1.0.1 : Zoptymalizuj potok Beam, aby uniknąć problemów, ignorując wiersze bez adresu URL obrazu. Dodano także więcej liczników promieni.
- 1.0.2 (domyślnie): Naprawia parsowanie pól boolowskich.
Rozmiar pliku do pobrania : Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
W zależności od wywołanej konfiguracji katalog_ręczny powinien zawierać niektóre z następujących podkatalogów:
- pociąg
- pociąg-{0000x}-of-00005.tsv.zip
- image_data_train/
  - piksele_obrazu/
  - train_image_pixels_part-00{000-199}.csv.gz
  - resnet_embeddings/
  - train_resnet_embeddings_part-00{000-214}.csv.gz
- test
- test.tsv.zip
- image_data_test/
  - piksele_obrazu/
  - test_image_pixels_part-0000{0-4}.csv
  - resnet_embeddings/
  - test_resnet_embeddings_part-0000{0-9}.csv

Rejestracja na stronie https://www.kaggle.com/c/wikipedia-image-caption/data jest wymagana, aby uzyskać linki do pobrania zestawu danych.

Automatyczne buforowanie ( dokumentacja ): Nie
Nadzorowane klucze (Zobacz as_supervised doc ): ('image_url', 'caption_title_and_reference_description')
Cytat :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (domyślna konfiguracja)

Opis konfiguracji : Przykłady treningowe do konkursu Wikipedia-Image/Caption Matching.
Rozmiar zestawu danych : 1.16 TiB
Podziały :

Podział	Przykłady
`'train_with_extended_features'`	37 046 386

Struktura funkcji :

FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształtować się	Typ D
	FunkcjeDict
attribution_passes_lang_id	Napinacz		bool
caption_alt_text_description	Tekst		strunowy
caption_attribution_description	Tekst		strunowy
caption_reference_description	Tekst		strunowy
caption_title_and_reference_description	Tekst		strunowy
context_page_description	Tekst		strunowy
opis_kontekstu_sekcji	Tekst		strunowy
osadzanie	Napinacz	(2048,)	pływak32
hierarchiczny_tytuł_sekcji	Tekst		strunowy
obraz	Obraz	(Brak, Brak, 3)	uint8
obraz_url	Tekst		strunowy
is_main_image	Napinacz		bool
język	Tekst		strunowy
adres_adresu_metadanych	Tekst		strunowy
typ_mima	Tekst		strunowy
oryginalna_wysokość	Napinacz		int32
oryginalna_szerokość	Napinacz		int32
ostatnio zmieniona_strona	Napinacz		bool
tytuł strony	Tekst		strunowy
Strona URL	Tekst		strunowy
Tytuł sekcji	Tekst		strunowy

Rysunek ( tfds.show_examples ):

Wyobrażanie sobie

Przykłady ( tfds.as_dataframe ):

wit_kaggle/test_without_gold

Opis konfiguracji : Próbki testowe (bez złotych odpowiedzi) do konkursu Wikipedia-Image/Caption Matching.
Rozmiar zestawu danych : 3.37 GiB
Podziały :

Podział	Przykłady
`'test_without_gold'`	92366

Struktura funkcji :

FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształtować się	Typ D
	FunkcjeDict
caption_title_and_reference_description	Tekst		strunowy
osadzanie	Napinacz	(2048,)	pływak32
ID	Tekst		strunowy
obraz	Obraz	(Brak, Brak, 3)	uint8
obraz_url	Tekst		strunowy
adres_adresu_metadanych	Tekst		strunowy

Rysunek ( tfds.show_examples ):

Wyobrażanie sobie

Przykłady ( tfds.as_dataframe ):