spirito

  • Descrizione :

Il set di dati WIT (Image Text) basato su Wikipedia è un grande set di dati multilingue multimodale. WIT è composto da un set curato di 37,6 milioni di esempi di immagini-testo ricchi di entità con 11,5 milioni di immagini uniche in 108 lingue di Wikipedia. Le sue dimensioni consentono a WIT di essere utilizzato come set di dati di pre-addestramento per modelli di machine learning multimodali.

Diviso Esempi
'test' 210.166
'train' 37.046.386
'val' 261.024
  • Struttura delle caratteristiche :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
attribution_passes_lang_id Tensore bool
caption_alt_text_description Testo corda
caption_attribution_description Testo corda
caption_reference_description Testo corda
descrizione_pagina_di_contesto Testo corda
descrizione_sezione_contesto Testo corda
hierarchical_section_title Testo corda
URL dell'immagine Testo corda
è_immagine_principale Tensore bool
linguaggio Testo corda
tipo_mimo Testo corda
altezza_originale Tensore int32
original_width Tensore int32
page_changed_recently Tensore bool
titolo della pagina Testo corda
page_url Testo corda
titolo_sezione Testo corda
  • Citazione :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}