wit_kaggle

  • 설명 :

Wikipedia - 이미지/캡션 일치 Kaggle 경쟁.

이 대회는 Wikimedia Foundation연구팀 이 Google Research 및 몇몇 외부 공동 작업자와 협력하여 조직합니다. 이 경쟁은 이 SIGIR 백서 에 자세히 설명된 대로 Google Research에서 게시한 WIT 데이터 세트 를 기반으로 합니다.

이 대회에서는 이미지에 가장 가까운 텍스트를 자동으로 검색하는 모델을 구축하게 됩니다. 특히 주어진 이미지를 기사 제목이나 복잡한 캡션과 여러 언어로 연결하도록 모델을 훈련합니다. 최고의 모델은 Wikipedia 이미지의 의미론적 세분성을 설명합니다. 성공하면 가장 큰 온라인 백과사전의 접근성에 기여하게 됩니다. 수백만 명의 Wikipedia 독자와 편집자는 규모에 맞게 미디어를 더 쉽게 이해하고, 검색하고, 설명할 수 있습니다. 결과적으로 여러분은 모두를 위한 학습을 ​​개선하는 개방형 모델에 기여하게 될 것입니다.

  • 홈페이지 : https://www.kaggle.com/c/wikipedia-image-caption/code

  • 소스 코드 : tfds.vision_language.wit_kaggle.WitKaggle

  • 버전 :

    • 1.0.0 : 최초 릴리스. Wikipedia - Image/Caption Matching Kaggle 대회( https://www.kaggle.com/c/wikipedia-image-caption/data )의 훈련 및 테스트 데이터 세트를 제공합니다.

      경쟁의 목표는 이미지에 가장 가까운 텍스트를 자동으로 검색하는 모델을 구축하는 것입니다. 특히, 주어진 이미지를 기사 제목이나 복잡한 캡션과 여러 언어로 연결하도록 모델을 훈련해야 합니다. 최고의 모델은 Wikipedia 이미지의 의미론적 세분성을 설명합니다.

      이 릴리스는 아직 Kaggle 경쟁에서 제공하지 않았기 때문에 테스트 세트에 대한 실측 정보를 제공하지 않습니다.

      모든 학습 관찰에 해당하는 이미지 데이터가 있는 것은 아닙니다. 공개된 이미지에는 사람이 포함된 이미지는 모두 제외됐다. 이미지 데이터와 연결되지 않은 샘플의 경우 다음 이미지 기능이 사용됩니다. image 는 64바이트로 인코딩된 빈 이미지이고 embedding 은 2048개의 0으로 구성된 벡터입니다.

      대회를 위해 출시된 샘플은 다음과 같이 로드할 수 있습니다. tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Beam 파이프라인을 최적화하여 이미지 URL이 없는 행을 무시하고 어려움을 방지합니다. 또한 더 많은 빔 카운터를 추가했습니다.

    • 1.0.2 (기본값): 부울 필드의 구문 분석을 수정합니다.

  • 다운로드 크기 : Unknown size

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    호출된 구성에 따라 manual_dir에는 다음 하위 디렉토리 중 일부가 포함되어야 합니다.

    • 기차
    • 기차-{0000x}-of-00005.tsv.zip
    • 이미지_데이터_트레인/
      • 이미지_픽셀/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • 테스트
    • test.tsv.zip
    • 이미지_데이터_테스트/
      • 이미지_픽셀/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

데이터 세트를 다운로드할 수 있는 링크를 얻으려면 https://www.kaggle.com/c/wikipedia-image-caption/data 에서 등록해야 합니다.

  • 자동 캐시 ( 문서 ): 아니요

  • 감독 키 ( as_supervised 문서 참조): ('image_url', 'caption_title_and_reference_description')

  • 인용 :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features(기본 구성)

  • 구성 설명 : Wikipedia-Image/Caption Matching 경쟁을 위한 교육 샘플입니다.

  • 데이터세트 크기 : 1.16 TiB

  • 분할 :

나뉘다
'train_with_extended_features' 37,046,386
  • 기능 구조 :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
attribution_passes_lang_id 텐서 부울
caption_alt_text_description 텍스트
caption_attribution_description 텍스트
caption_reference_description 텍스트
caption_title_and_reference_description 텍스트
context_page_description 텍스트
context_section_description 텍스트
임베딩 텐서 (2048,) float32
hierarchical_section_title 텍스트
영상 영상 (없음, 없음, 3) uint8
이미지 URL 텍스트
is_main_image 텐서 부울
언어 텍스트
metadata_url 텍스트
mime_type 텍스트
original_height 텐서 int32
original_width 텐서 int32
page_changed_recently 텐서 부울
page_title 텍스트
page_url 텍스트
section_title 텍스트

심상

wit_kaggle/test_without_gold

  • 구성 설명 : Wikipedia-Image/Caption Matching 경쟁을 위한 테스트 샘플(골드 답변 없음).

  • 데이터세트 크기 : 3.37 GiB

  • 분할 :

나뉘다
'test_without_gold' 92,366
  • 기능 구조 :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
caption_title_and_reference_description 텍스트
임베딩 텐서 (2048,) float32
ID 텍스트
영상 영상 (없음, 없음, 3) uint8
이미지 URL 텍스트
metadata_url 텍스트

심상

,

  • 설명 :

Wikipedia - 이미지/캡션 일치 Kaggle 경쟁.

이 대회는 Wikimedia Foundation연구팀 이 Google Research 및 몇몇 외부 공동 작업자와 협력하여 조직합니다. 이 경쟁은 이 SIGIR 백서 에 자세히 설명된 대로 Google Research에서 게시한 WIT 데이터 세트 를 기반으로 합니다.

이 대회에서는 이미지에 가장 가까운 텍스트를 자동으로 검색하는 모델을 구축하게 됩니다. 특히 주어진 이미지를 기사 제목이나 복잡한 캡션과 여러 언어로 연결하도록 모델을 훈련합니다. 최고의 모델은 Wikipedia 이미지의 의미론적 세분성을 설명합니다. 성공하면 가장 큰 온라인 백과사전의 접근성에 기여하게 됩니다. 수백만 명의 Wikipedia 독자와 편집자는 규모에 맞게 미디어를 더 쉽게 이해하고, 검색하고, 설명할 수 있습니다. 결과적으로 여러분은 모두를 위한 학습을 ​​개선하는 개방형 모델에 기여하게 될 것입니다.

  • 홈페이지 : https://www.kaggle.com/c/wikipedia-image-caption/code

  • 소스 코드 : tfds.vision_language.wit_kaggle.WitKaggle

  • 버전 :

    • 1.0.0 : 최초 릴리스. Wikipedia - Image/Caption Matching Kaggle 대회( https://www.kaggle.com/c/wikipedia-image-caption/data )의 훈련 및 테스트 데이터 세트를 제공합니다.

      경쟁의 목표는 이미지에 가장 가까운 텍스트를 자동으로 검색하는 모델을 구축하는 것입니다. 특히, 주어진 이미지를 기사 제목이나 복잡한 캡션과 여러 언어로 연결하도록 모델을 훈련해야 합니다. 최고의 모델은 Wikipedia 이미지의 의미론적 세분성을 설명합니다.

      이 릴리스는 아직 Kaggle 경쟁에서 제공하지 않았기 때문에 테스트 세트에 대한 실측 정보를 제공하지 않습니다.

      모든 학습 관찰에 해당하는 이미지 데이터가 있는 것은 아닙니다. 공개된 이미지에는 사람이 포함된 이미지는 모두 제외됐다. 이미지 데이터와 연결되지 않은 샘플의 경우 다음 이미지 기능이 사용됩니다. image 는 64바이트로 인코딩된 빈 이미지이고 embedding 은 2048개의 0으로 구성된 벡터입니다.

      대회를 위해 출시된 샘플은 다음과 같이 로드할 수 있습니다. tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 : Beam 파이프라인을 최적화하여 이미지 URL이 없는 행을 무시하고 어려움을 방지합니다. 또한 더 많은 빔 카운터를 추가했습니다.

    • 1.0.2 (기본값): 부울 필드의 구문 분석을 수정합니다.

  • 다운로드 크기 : Unknown size

  • 수동 다운로드 지침 : 이 데이터 세트는 원본 데이터를 download_config.manual_dir에 수동으로 download_config.manual_dir 해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    호출된 구성에 따라 manual_dir에는 다음 하위 디렉토리 중 일부가 포함되어야 합니다.

    • 기차
    • 기차-{0000x}-of-00005.tsv.zip
    • 이미지_데이터_트레인/
      • 이미지_픽셀/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • 테스트
    • test.tsv.zip
    • 이미지_데이터_테스트/
      • 이미지_픽셀/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

데이터 세트를 다운로드할 수 있는 링크를 얻으려면 https://www.kaggle.com/c/wikipedia-image-caption/data 에서 등록해야 합니다.

  • 자동 캐시 ( 문서 ): 아니요

  • 감독 키 ( as_supervised 문서 참조): ('image_url', 'caption_title_and_reference_description')

  • 인용 :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features(기본 구성)

  • 구성 설명 : Wikipedia-Image/Caption Matching 경쟁을 위한 교육 샘플입니다.

  • 데이터세트 크기 : 1.16 TiB

  • 분할 :

나뉘다
'train_with_extended_features' 37,046,386
  • 기능 구조 :
FeaturesDict({
    'attribution_passes_lang_id': bool,
    'caption_alt_text_description': Text(shape=(), dtype=string),
    'caption_attribution_description': Text(shape=(), dtype=string),
    'caption_reference_description': Text(shape=(), dtype=string),
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'context_page_description': Text(shape=(), dtype=string),
    'context_section_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'hierarchical_section_title': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'is_main_image': bool,
    'language': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
    'mime_type': Text(shape=(), dtype=string),
    'original_height': int32,
    'original_width': int32,
    'page_changed_recently': bool,
    'page_title': Text(shape=(), dtype=string),
    'page_url': Text(shape=(), dtype=string),
    'section_title': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
attribution_passes_lang_id 텐서 부울
caption_alt_text_description 텍스트
caption_attribution_description 텍스트
caption_reference_description 텍스트
caption_title_and_reference_description 텍스트
context_page_description 텍스트
context_section_description 텍스트
임베딩 텐서 (2048,) float32
hierarchical_section_title 텍스트
영상 영상 (없음, 없음, 3) uint8
이미지 URL 텍스트
is_main_image 텐서 부울
언어 텍스트
metadata_url 텍스트
mime_type 텍스트
original_height 텐서 int32
original_width 텐서 int32
page_changed_recently 텐서 부울
page_title 텍스트
page_url 텍스트
section_title 텍스트

심상

wit_kaggle/test_without_gold

  • 구성 설명 : Wikipedia-Image/Caption Matching 경쟁을 위한 테스트 샘플(골드 답변 없음).

  • 데이터세트 크기 : 3.37 GiB

  • 분할 :

나뉘다
'test_without_gold' 92,366
  • 기능 구조 :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=string),
    'embedding': Tensor(shape=(2048,), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image_url': Text(shape=(), dtype=string),
    'metadata_url': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
caption_title_and_reference_description 텍스트
임베딩 텐서 (2048,) float32
ID 텍스트
영상 영상 (없음, 없음, 3) uint8
이미지 URL 텍스트
metadata_url 텍스트

심상