Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

wit_kaggle

  • Описание :

Википедия — Соревнование Kaggle по подбору изображений и подписей.

Этот конкурс организован исследовательской группой Фонда Викимедиа в сотрудничестве с Google Research и несколькими внешними сотрудниками. Это соревнование основано на наборе данных WIT , опубликованном Google Research, как подробно описано в этой статье SIGIR .

В этом соревновании вы создадите модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, вы научите свою модель связывать заданные изображения с заголовками статей или сложными подписями на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии. В случае успеха вы будете способствовать доступности крупнейшей онлайн-энциклопедии. Миллионы читателей и редакторов Википедии смогут легче понимать, искать и описывать медиа в любом масштабе. В результате вы внесете свой вклад в открытую модель повышения качества обучения для всех.

  • Домашняя страница : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Исходный код : tfds.vision_language.wit_kaggle.WitKaggle

  • Версии :

    • 1.0.0 : Первоначальный выпуск. Он предоставляет обучающие и тестовые наборы данных из конкурса Wikipedia — Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      Цель конкурса — построить модель, которая автоматически извлекает текст, наиболее близкий к изображению. В частности, модель должна быть обучена связывать заданные изображения с заголовками статей или сложными заголовками на нескольких языках. Лучшие модели будут учитывать семантическую детализацию изображений Википедии.

      Обратите внимание, что этот релиз не предоставляет достоверной информации для тестового набора, поскольку он еще не был предоставлен конкурсом Kaggle.

      Обратите внимание, что не все обучающие наблюдения имеют соответствующие данные изображения. Выпущенные изображения исключают все изображения, содержащие людей. Для образцов, которые не связаны с данными изображения, используются следующие характеристики изображения: image представляет собой пустое изображение, закодированное в 64 байта, embedding представляет собой вектор из 2048 нулей.

      Образцы, выпущенные для конкурса, можно загрузить как: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (по умолчанию): оптимизация конвейера Beam, чтобы избежать проблем, игнорируя строки без URL-адреса изображения. Также добавлено больше счетчиков лучей.

  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    В зависимости от вызываемой конфигурации, manual_dir должен содержать некоторые из следующих подкаталогов:

    • тренироваться
    • поезд-{0000x}-из-00005.tsv.zip
    • image_data_train/
      • изображение_пикселей/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • контрольная работа
    • test.tsv.zip
    • image_data_test/
      • изображение_пикселей/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Регистрация на https://www.kaggle.com/c/wikipedia-image-caption/data необходима, чтобы получить ссылки для загрузки набора данных.

  • Контролируемые ключи (см. as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • Цитата :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (конфигурация по умолчанию)

  • Описание конфигурации : обучающие образцы для конкурса сопоставления изображений и подписей Википедии.

  • Размер набора данных : Unknown size

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
  • Особенности :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle/test_without_gold

  • Описание конфигурации : Тестовые образцы (без золотых ответов) для конкурса «Википедия-изображение/подпись».

  • Размер набора данных : 3.37 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test_without_gold' 92 366
  • Особенности :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

Визуализация