बुद्धि

  • विवरण :

विकिपीडिया-आधारित इमेज टेक्स्ट (WIT) डेटासेट एक बड़ा मल्टीमॉडल बहुभाषी डेटासेट है। WIT 108 विकिपीडिया भाषाओं में 11.5 मिलियन अद्वितीय छवियों के साथ 37.6 मिलियन इकाई समृद्ध छवि-पाठ उदाहरणों के क्यूरेटेड सेट से बना है। इसका आकार WIT को मल्टीमॉडल मशीन लर्निंग मॉडल के लिए पूर्व-प्रशिक्षण डेटासेट के रूप में उपयोग करने में सक्षम बनाता है।

विभाजित करना उदाहरण
'test' 210,166
'train' 37,046,386
'val' 261,024
  • फ़ीचर संरचना :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
एट्रिब्यूशन_पास_लैंग_आईडी टेन्सर बूल
कैप्शन_alt_text_description मूलपाठ डोरी
कैप्शन_एट्रिब्यूशन_डिस्क्रिप्शन मूलपाठ डोरी
कैप्शन_संदर्भ_विवरण मूलपाठ डोरी
प्रसंग_पृष्ठ_विवरण मूलपाठ डोरी
संदर्भ_अनुभाग_विवरण मूलपाठ डोरी
श्रेणीबद्ध_अनुभाग_शीर्षक मूलपाठ डोरी
छवि यूआरएल मूलपाठ डोरी
is_main_image टेन्सर बूल
भाषा: हिन्दी मूलपाठ डोरी
माइम प्रकार मूलपाठ डोरी
मूल_ऊंचाई टेन्सर int32
मूल_चौड़ाई टेन्सर int32
page_changed_recently टेन्सर बूल
पृष्ठ का शीर्षक मूलपाठ डोरी
पेज का पता मूलपाठ डोरी
अनुभाग शीर्षक मूलपाठ डोरी
  • उद्धरण :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}