mưu mẹo

  • Mô tả :

Bộ dữ liệu Văn bản Hình ảnh (WIT) dựa trên Wikipedia là một bộ dữ liệu đa ngôn ngữ đa phương thức lớn. WIT bao gồm một tập hợp được tuyển chọn gồm 37,6 triệu ví dụ văn bản hình ảnh giàu thực thể với 11,5 triệu hình ảnh độc đáo trên 108 ngôn ngữ của Wikipedia. Kích thước của nó cho phép WIT được sử dụng làm bộ dữ liệu đào tạo trước cho các mô hình máy học đa phương thức.

Tách ra ví dụ
'test' 210,166
'train' 37.046.386
'val' 261,024
  • Cấu trúc tính năng :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
attribution_passes_lang_id tenxơ bool
chú thích_alt_text_description Chữ sợi dây
caption_attribution_description Chữ sợi dây
caption_reference_description Chữ sợi dây
context_page_description Chữ sợi dây
bối cảnh_phần_mô tả Chữ sợi dây
hierarchical_section_title Chữ sợi dây
URL hình ảnh Chữ sợi dây
is_main_image tenxơ bool
ngôn ngữ Chữ sợi dây
mime_type Chữ sợi dây
original_height tenxơ int32
original_width tenxơ int32
page_changed_recently tenxơ bool
trang_title Chữ sợi dây
trang_url Chữ sợi dây
phần_tiêu đề Chữ sợi dây
  • trích dẫn :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}