ingenio

  • Descripción :

El conjunto de datos de texto de imagen (WIT) basado en Wikipedia es un gran conjunto de datos multilingüe multimodal. WIT se compone de un conjunto seleccionado de 37,6 millones de ejemplos de texto de imágenes ricos en entidades con 11,5 millones de imágenes únicas en 108 idiomas de Wikipedia. Su tamaño permite que WIT se use como un conjunto de datos de preentrenamiento para modelos de aprendizaje automático multimodal.

Separar Ejemplos
'test' 210,166
'train' 37,046,386
'val' 261,024
  • Estructura de características :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
attribution_passes_lang_id Tensor tf.bool
caption_alt_text_descripción Texto tf.cadena
caption_attribution_description Texto tf.cadena
caption_reference_description Texto tf.cadena
descripción_página_contexto Texto tf.cadena
contexto_sección_descripción Texto tf.cadena
título_de_la_sección_jerárquica Texto tf.cadena
URL de la imagen Texto tf.cadena
es_imagen_principal Tensor tf.bool
idioma Texto tf.cadena
tipo de Mimica Texto tf.cadena
altura_original Tensor tf.int32
ancho_original Tensor tf.int32
página_cambiada_recientemente Tensor tf.bool
Título de la página Texto tf.cadena
URL de la página Texto tf.cadena
sección de título Texto tf.cadena
  • Cita :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}