재치

  • 설명 :

Wikipedia 기반 이미지 텍스트(WIT) 데이터 세트는 대규모 다중 모달 다국어 데이터 세트입니다. WIT는 108개의 Wikipedia 언어에 걸쳐 1,150만 개의 고유한 이미지가 포함된 3,760만 개의 엔터티 리치 이미지-텍스트 예제의 큐레이팅된 세트로 구성됩니다. 그 크기 덕분에 WIT는 다중 모달 기계 학습 모델을 위한 사전 교육 데이터 세트로 사용할 수 있습니다.

나뉘다
'test' 210,166
'train' 37,046,386
'val' 261,024
  • 기능 구조 :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
attribution_passes_lang_id 텐서 부울
caption_alt_text_description 텍스트
caption_attribution_description 텍스트
caption_reference_description 텍스트
context_page_description 텍스트
context_section_description 텍스트
hierarchical_section_title 텍스트
이미지 URL 텍스트
is_main_image 텐서 부울
언어 텍스트
mime_type 텍스트
original_height 텐서 int32
original_width 텐서 int32
page_changed_recently 텐서 부울
page_title 텍스트
page_url 텍스트
section_title 텍스트
  • 인용 :
@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}