wit_kaggle

  • opis :

Wikipedia - Konkurs na dopasowanie obrazu/podpisu Kaggle.

Konkurs ten jest organizowany przez zespół badawczy Fundacji Wikimedia we współpracy z Google Research i kilkoma zewnętrznymi współpracownikami. Ten konkurs opiera się na zbiorze danych WIT opublikowanym przez Google Research, jak opisano szczegółowo w tym dokumencie SIGIR .

W tym konkursie zbudujesz model, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności wytrenujesz swój model, aby kojarzył dane obrazy z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii. Jeśli się powiedzie, przyczynisz się do zwiększenia dostępności największej encyklopedii online. Miliony czytelników i redaktorów Wikipedii będą mogły łatwiej zrozumieć, przeszukiwać i opisywać media na dużą skalę. W rezultacie przyczynisz się do otwartego modelu, aby poprawić uczenie się dla wszystkich.

  • Strona główna : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Kod źródłowy : tfds.vision_language.wit_kaggle.WitKaggle

  • Wersje :

    • 1.0.0 : Pierwsza wersja. Zapewnia pociągi i testy zestawów danych z konkursu Wikipedia - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Celem konkursu jest zbudowanie modelu, który automatycznie pobiera tekst najbliższy obrazowi. W szczególności model powinien zostać przeszkolony w kojarzeniu danych obrazów z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględnią semantyczną ziarnistość obrazów Wikipedii.

      Należy zauważyć, że to wydanie nie zapewnia podstawowej prawdy dla zestawu testowego, ponieważ nie została jeszcze dostarczona przez konkurencję Kaggle.

      Należy zauważyć, że nie wszystkie obserwacje treningowe mają odpowiednie dane obrazowe. Opublikowane obrazy wykluczają wszystkie obrazy przedstawiające ludzi. W przypadku próbek, które nie są powiązane z danymi obrazu, stosowane są następujące cechy obrazu: image jest pustym obrazem zakodowanym w bajcie 64, embedding jest wektorem złożonym z 2048 zer.

      Próbki dopuszczone do konkursu można wczytać jako: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Zoptymalizuj potok Beam, aby uniknąć problemów, ignorując wiersze bez adresu URL obrazu. Dodano także więcej liczników promieni.

    • 1.0.2 (domyślnie): Naprawia parsowanie pól boolowskich.

  • Rozmiar pliku do pobrania : Unknown size

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    W zależności od wywołanej konfiguracji katalog_ręczny powinien zawierać niektóre z następujących podkatalogów:

    • pociąg
    • pociąg-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • piksele_obrazu/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • test
    • test.tsv.zip
    • image_data_test/
      • piksele_obrazu/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Rejestracja na stronie https://www.kaggle.com/c/wikipedia-image-caption/data jest wymagana, aby uzyskać linki do pobrania zestawu danych.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Nadzorowane klucze (Zobacz as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Cytat :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (domyślna konfiguracja)

  • Opis konfiguracji : Przykłady treningowe do konkursu Wikipedia-Image/Caption Matching.

  • Rozmiar zestawu danych : 1.16 TiB

  • Podziały :

Podział Przykłady
'train_with_extended_features' 37 046 386
  • Struktura funkcji :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
attribution_passes_lang_id Napinacz bool
caption_alt_text_description Tekst strunowy
caption_attribution_description Tekst strunowy
caption_reference_description Tekst strunowy
caption_title_and_reference_description Tekst strunowy
context_page_description Tekst strunowy
opis_kontekstu_sekcji Tekst strunowy
osadzanie Napinacz (2048,) pływak32
hierarchiczny_tytuł_sekcji Tekst strunowy
obraz Obraz (Brak, Brak, 3) uint8
obraz_url Tekst strunowy
is_main_image Napinacz bool
język Tekst strunowy
adres_adresu_metadanych Tekst strunowy
typ_mima Tekst strunowy
oryginalna_wysokość Napinacz int32
oryginalna_szerokość Napinacz int32
ostatnio zmieniona_strona Napinacz bool
tytuł strony Tekst strunowy
Strona URL Tekst strunowy
Tytuł sekcji Tekst strunowy

Wyobrażanie sobie

wit_kaggle/test_without_gold

  • Opis konfiguracji : Próbki testowe (bez złotych odpowiedzi) do konkursu Wikipedia-Image/Caption Matching.

  • Rozmiar zestawu danych : 3.37 GiB

  • Podziały :

Podział Przykłady
'test_without_gold' 92366
  • Struktura funkcji :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
caption_title_and_reference_description Tekst strunowy
osadzanie Napinacz (2048,) pływak32
ID Tekst strunowy
obraz Obraz (Brak, Brak, 3) uint8
obraz_url Tekst strunowy
adres_adresu_metadanych Tekst strunowy

Wyobrażanie sobie