ingenio_kaggle

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

  • Descripción :

Wikipedia - Competición Kaggle de coincidencia de imagen/leyenda.

Este concurso está organizado por el equipo de Investigación de la Fundación Wikimedia en colaboración con Google Research y algunos colaboradores externos. Esta competencia se basa en el conjunto de datos WIT publicado por Google Research como se detalla en este documento SIGIR .

En esta competencia, construirá un modelo que recupera automáticamente el texto más cercano a una imagen. Específicamente, entrenará su modelo para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia. Si tiene éxito, contribuirá a la accesibilidad de la enciclopedia en línea más grande. Los millones de lectores y editores de Wikipedia podrán comprender, buscar y describir más fácilmente los medios a escala. Como resultado, contribuirá a un modelo abierto para mejorar el aprendizaje para todos.

  • Página de inicio: https://www.kaggle.com/c/wikipedia-image-caption/code

  • Código fuente : tfds.vision_language.wit_kaggle.WitKaggle

  • Versiones :

    • 1.0.0 : Versión inicial. Proporciona los conjuntos de datos de entrenamiento y prueba de la competencia de Kaggle Wikipedia - Image/Caption Matching ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      El objetivo de la competencia es construir un modelo que recupere automáticamente el texto más cercano a una imagen. Específicamente, el modelo debe entrenarse para asociar imágenes dadas con títulos de artículos o subtítulos complejos, en varios idiomas. Los mejores modelos tendrán en cuenta la granularidad semántica de las imágenes de Wikipedia.

      Tenga en cuenta que esta versión no proporciona la verdad básica para el conjunto de prueba, ya que la competencia Kaggle aún no la ha proporcionado.

      Tenga en cuenta que no todas las observaciones de entrenamiento tienen datos de imagen correspondientes. Las imágenes publicadas excluyen todas las imágenes que contienen seres humanos. Para muestras que no están asociadas con datos de imagen, se utilizan las siguientes características de imagen: image es una imagen en blanco codificada en bytes de 64, la embedding es un vector de 2048 ceros.

      Las muestras lanzadas para la competencia se pueden cargar como: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (predeterminado): Optimice la canalización de Beam para evitar problemas, ignorando las filas sin una URL de imagen. También se agregaron más contadores de haz.

  • Tamaño de descarga : Unknown size

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Dependiendo de la configuración llamada, manual_dir debe contener algunos de los siguientes subdirectorios:

    • tren
    • tren-{0000x}-de-00005.tsv.zip
    • image_data_train/
      • imagen_pixeles/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_incrustaciones/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • prueba
    • prueba.tsv.zip
    • imagen_datos_prueba/
      • imagen_pixeles/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_incrustaciones/
      • test_resnet_embeddings_part-0000{0-9}.csv

Es necesario registrarse en https://www.kaggle.com/c/wikipedia-image-caption/data para obtener los enlaces para descargar el conjunto de datos.

  • Claves supervisadas (ver as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • Cita :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (configuración predeterminada)

  • Descripción de la configuración : Ejemplos de entrenamiento para la competencia Wikipedia-Image/Caption Matching.

  • Tamaño del conjunto de datos : Unknown size

  • Auto-caché ( documentación ): Desconocido

  • Divisiones :

Separar Ejemplos
  • Características :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

ingenio_kaggle/prueba_sin_oro

  • Descripción de la configuración : Muestras de prueba (sin respuestas doradas) para la competencia Wikipedia-Imagen/Caption Matching.

  • Tamaño del conjunto de datos : 3.37 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test_without_gold' 92,366
  • Características :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

Visualización