שְׁנִינוּת

  • תיאור :

סט נתונים מבוסס ויקיפדיה (WIT) הוא מערך נתונים רב-לשוני רב-מודאלי. WIT מורכבת מקבוצה אוצרת של 37.6 מיליון דוגמאות טקסט עשירות בתמונה עם 11.5 מיליון תמונות ייחודיות ב-108 שפות ויקיפדיה. גודלו מאפשר להשתמש ב-WIT כמערך אימון מקדים עבור מודלים של למידת מכונה רב-מודאלית.

לְפַצֵל דוגמאות
'test' 210,166
'train' 37,046,386
'val' 261,024
  • מבנה תכונה :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
attribution_passes_lang_id מוֹתֵחַ tf.bool
caption_alt_text_description טֶקסט tf.string
caption_attribution_description טֶקסט tf.string
caption_reference_description טֶקסט tf.string
context_page_description טֶקסט tf.string
context_section_description טֶקסט tf.string
hierarchical_section_title טֶקסט tf.string
כתובת אתר של תמונה טֶקסט tf.string
is_main_image מוֹתֵחַ tf.bool
שפה טֶקסט tf.string
סוג_מימה טֶקסט tf.string
גובה_מקורי מוֹתֵחַ tf.int32
רוחב_מקורי מוֹתֵחַ tf.int32
דף_שונה_לאחרונה מוֹתֵחַ tf.bool
כותרת העמוד טֶקסט tf.string
page_url טֶקסט tf.string
section_title טֶקסט tf.string
  • ציטוט :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}