wit_kaggle

  • Açıklama :

Wikipedia - Resim/Altyazı Eşleşen Kaggle Yarışması.

Bu yarışma, Wikimedia Foundation'daki Araştırma ekibi tarafından Google Research ve birkaç harici ortak çalışanın işbirliğiyle düzenlenmektedir. Bu yarışma, bu SIGIR belgesinde ayrıntılı olarak açıklandığı üzere Google Research tarafından yayınlanan WIT veri kümesine dayanmaktadır.

Bu yarışmada, bir resme en yakın metni otomatik olarak alan bir model oluşturacaksınız. Spesifik olarak, modelinizi, verilen görüntüleri birden çok dilde makale başlıkları veya karmaşık altyazılarla ilişkilendirmek için eğiteceksiniz. En iyi modeller, Wikipedia görüntülerinin anlamsal ayrıntı düzeyini hesaba katacaktır. Başarılı olursanız, en büyük çevrimiçi ansiklopedinin erişilebilirliğine katkıda bulunacaksınız. Milyonlarca Wikipedia okuyucusu ve editörü, medyayı geniş ölçekte daha kolay anlayabilecek, araştırabilecek ve tanımlayabilecek. Sonuç olarak, herkes için öğrenmeyi geliştirmek için açık bir modele katkıda bulunacaksınız.

  • Ana sayfa : https://www.kaggle.com/c/wikipedia-image-caption/code

  • Kaynak kodu : tfds.vision_language.wit_kaggle.WitKaggle

  • Sürümler :

    • 1.0.0 : İlk sürüm. Wikipedia - Image/Caption Matching Kaggle yarışmasından ( https://www.kaggle.com/c/wikipedia-image-caption/data ) tren ve test veri kümelerini sağlar.

      Yarışmanın amacı, bir resme en yakın metni otomatik olarak alan bir model oluşturmaktır. Spesifik olarak, model, verilen görüntüleri birden çok dilde makale başlıkları veya karmaşık altyazılarla ilişkilendirmek için eğitilmelidir. En iyi modeller, Wikipedia görüntülerinin anlamsal ayrıntı düzeyini hesaba katacaktır.

      Bu sürümün, henüz Kaggle yarışması tarafından sağlanmadığı için test seti için temel gerçeği sağlamadığını unutmayın.

      Tüm eğitim gözlemlerinin karşılık gelen görüntü verilerine sahip olmadığını unutmayın. Yayınlanan görüntüler, insanları içeren tüm görüntüleri içermez. Görüntü verileriyle ilişkili olmayan örnekler için aşağıdaki görüntü özellikleri kullanılır: image bayt-64 kodlu boş görüntüdür, embedding 2048 sıfır vektörüdür.

      Yarışma için yayınlanan örnekler şu şekilde yüklenebilir: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (varsayılan): Bir resim URL'si olmayan satırları yok sayarak zorlayıcılardan kaçınmak için Işın ardışık düzenini optimize edin. Ayrıca daha fazla Işın sayacı eklendi.

  • İndirme boyutu : Unknown size

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak download_config.manual_dir gerektirir (varsayılanı ~/tensorflow_datasets/downloads/manual/ ):
    Çağrılan yapılandırmaya bağlı olarak, manual_dir aşağıdaki alt dizinlerden bazılarını içermelidir:

    • tren
    • tren-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • image_pixels/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • Ölçek
    • test.tsv.zip
    • image_data_test/
      • image_pixels/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

Veri kümesini indirmek için bağlantıları almak için https://www.kaggle.com/c/wikipedia-image-caption/data adresinde kayıt yapılması gerekir.

  • Denetlenen anahtarlar (bkz as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • alıntı :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Wikipedia-Resim/Altyazı Eşleştirme yarışması için eğitim örnekleri.

  • Veri kümesi boyutu : Unknown size

  • Otomatik önbelleğe alındı ( belgeler ): Bilinmiyor

  • Bölmeler :

Bölmek Örnekler
  • Özellikler :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle/test_without_gold

  • Yapılandırma açıklaması : Wikipedia-Resim/Altyazı Eşleştirme yarışması için test örnekleri (altın yanıtlar olmadan).

  • Veri kümesi boyutu : 3.37 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'test_without_gold' 92.366
  • Özellikler :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

görselleştirme