Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

wit_kaggle

  • opis:

Wikipedia — Konkurs dopasowujący obraz/podpis Kaggle.

Konkurs organizowany jest przez zespół badawczy w Wikimedia Foundation we współpracy z Google Badań i kilku współpracowników zewnętrznych. Konkurs ten jest oparty na zbiorze WIT opublikowanego przez firmę Research Google w sposób opisany w tym artykule SIGIR .

W tym konkursie zbudujesz model, który automatycznie pobierze tekst najbliższy obrazowi. W szczególności nauczysz swój model, aby kojarzył dane obrazy z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględniają ziarnistość semantyczną obrazów Wikipedii. Jeśli się powiedzie, przyczynisz się do zwiększenia dostępności największej encyklopedii internetowej. Miliony czytelników i redaktorów Wikipedii będą mogły łatwiej zrozumieć, przeszukiwać i opisywać media na dużą skalę. W rezultacie przyczynisz się do otwartego modelu poprawy uczenia się dla wszystkich.

  • Strona domowa: https://www.kaggle.com/c/wikipedia-image-caption/code

  • Kod źródłowy: tfds.vision_language.wit_kaggle.WitKaggle

  • wersje:

    • 1.0.0 : początkowe uwalnianie. Zapewnia pociągu i zestawów danych testowych z Wikipedii - Obraz / Dopasowanie Kaggle konkurencja Tytuł ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Celem konkursu jest zbudowanie modelu, który automatycznie wyszukuje tekst najbliższy obrazowi. W szczególności model powinien być wyszkolony tak, aby kojarzyć dane obrazy z tytułami artykułów lub złożonymi podpisami w wielu językach. Najlepsze modele uwzględniają ziarnistość semantyczną obrazów Wikipedii.

      Zwróć uwagę, że to wydanie nie dostarcza podstaw do zestawu testowego, ponieważ nie zostało ono jeszcze dostarczone przez konkurencję Kaggle.

      Zauważ, że nie wszystkie obserwacje treningowe mają odpowiednie dane obrazu. Udostępnione obrazy wykluczają wszystkie obrazy zawierające ludzi. W przypadku próbek, które nie są związane z danymi obrazu, wykorzystuje się następujące cechy obrazu: image jest zakodowany bajt 64 puste obrazu, embedding jest wektorem 2048 zerami.

      Próbki dopuszczone do konkursu mogą być ładowane jako: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (domyślnie): Optymalizacja Beam rurociąg aby uniknąć Strugglers, ignorując wiersze bez adresu URL obrazu. Dodano również więcej liczników wiązki.

  • Wielkość pliku: Unknown size

  • Ręczne pobieranie instrukcje: Ten zestaw danych wymaga, aby ręcznie pobrać dane źródłowe do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ )
    W zależności od wywołanej konfiguracji, manual_dir powinien zawierać niektóre z następujących podkatalogów:

    • pociąg
    • pociąg-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • obraz_piksele/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • test
    • test.tsv.zip
    • test_danych_obrazu/
      • obraz_piksele/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Rejestracja w https://www.kaggle.com/c/wikipedia-image-caption/data jest potrzebne, aby uzyskać linki do pobrania zestawu danych.

  • Klucze nadzorowane (patrz as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • cytat:

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (konfiguracja domyślna)

  • Opis config: próbki szkoleniowe dla Wikipedia-Image / Caption Matching konkurencji.

  • Zbiór danych rozmiar: Unknown size

  • Auto-buforowane ( dokumentacja ): Nieznany

  • dzieli:

Podział Przykłady
  • Cechy:
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle/test_without_gold

  • Opis config: Badane próbki (bez złota odpowiedzi) na Wikipedia-Image / Caption Matching konkurencji.

  • Zestaw danych rozmiar: 3.37 GiB

  • Auto-buforowane ( dokumentacja ): Nie

  • dzieli:

Podział Przykłady
'test_without_gold' 92,366
  • Cechy:
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

Wyobrażanie sobie