ذكاء

  • الوصف :

مجموعة بيانات نص الصورة (WIT) المستندة إلى ويكيبيديا هي مجموعة بيانات كبيرة متعددة الوسائط متعددة اللغات. يتكون برنامج WIT من مجموعة منسقة من 37.6 مليون أمثلة نصية غنية بالصور مع 11.5 مليون صورة فريدة عبر 108 لغات ويكيبيديا. يتيح حجمها إمكانية استخدام WIT كمجموعة بيانات قبل التدريب لنماذج التعلم الآلي متعددة الوسائط.

انشق، مزق أمثلة
'test' 210166
'train' 37،046،386
'val' 261،024
  • هيكل الميزة :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
attribution_passes_lang_id موتر منطقي
caption_alt_text_description نص سلسلة
caption_attribution_description نص سلسلة
caption_reference_description نص سلسلة
وصف_الصفحة_السياقية نص سلسلة
وصف_السياق نص سلسلة
hierarchical_section_title نص سلسلة
رابط الصورة نص سلسلة
الصورة_الرئيسية موتر منطقي
لغة نص سلسلة
نوع التمثيل الصامت نص سلسلة
original_height موتر int32
original_width موتر int32
page_changed_recently موتر منطقي
عنوان الصفحة نص سلسلة
رابط الصفحة نص سلسلة
عنوان القسم نص سلسلة
  • الاقتباس :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}