ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

wit_kaggle

  • รายละเอียด:

Wikipedia - การแข่งขัน Kaggle จับคู่รูปภาพ/คำบรรยาย

การแข่งขันครั้งนี้จัดโดย ทีมงานวิจัย ที่ มูลนิธิวิกิมีเดีย ในความร่วมมือกับการวิจัยของ Google และทำงานร่วมกันไม่กี่ภายนอก การแข่งขันนี้จะขึ้นอยู่กับ ชุด WIT เผยแพร่โดยการวิจัยของ Google ตามรายละเอียดในนี้ กระดาษ SIGIR

ในการแข่งขันนี้ คุณจะต้องสร้างแบบจำลองที่ดึงข้อความที่ใกล้เคียงที่สุดกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง คุณจะฝึกโมเดลของคุณเพื่อเชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำอธิบายภาพที่ซับซ้อนในหลายภาษา โมเดลที่ดีที่สุดจะพิจารณาความละเอียดของภาพวิกิพีเดีย หากประสบความสำเร็จ คุณจะมีส่วนสนับสนุนการเข้าถึงสารานุกรมออนไลน์ที่ใหญ่ที่สุด ผู้อ่านและบรรณาธิการวิกิพีเดียหลายล้านคนจะสามารถเข้าใจ ค้นหา และอธิบายสื่อในวงกว้างได้ง่ายขึ้น ด้วยเหตุนี้ คุณจะมีส่วนร่วมในรูปแบบเปิดเพื่อปรับปรุงการเรียนรู้สำหรับทุกคน

  • โฮมเพจ: https://www.kaggle.com/c/wikipedia-image-caption/code

  • รหัสที่มา: tfds.vision_language.wit_kaggle.WitKaggle

  • รุ่น:

    • 1.0.0 : เริ่มต้นปล่อย จะให้การรถไฟและการทดสอบชุดข้อมูลจากวิกิพีเดีย - ภาพ / คำบรรยายภาพการจับคู่การแข่งขัน Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data )

      เป้าหมายของการแข่งขันคือการสร้างแบบจำลองที่ดึงข้อความที่ใกล้เคียงที่สุดกับรูปภาพโดยอัตโนมัติ โดยเฉพาะอย่างยิ่ง โมเดลควรได้รับการฝึกอบรมให้เชื่อมโยงรูปภาพที่กำหนดกับชื่อบทความหรือคำอธิบายภาพที่ซับซ้อนในหลายภาษา โมเดลที่ดีที่สุดจะพิจารณาความละเอียดของภาพวิกิพีเดีย

      โปรดทราบว่ารุ่นนี้ไม่ได้ให้ข้อมูลพื้นฐานสำหรับชุดทดสอบ เนื่องจากยังไม่มีการจัดการแข่งขัน Kaggle

      โปรดทราบว่าการสังเกตการฝึกอบรมทั้งหมดไม่ได้มีข้อมูลภาพที่สอดคล้องกัน รูปภาพที่เผยแพร่ไม่รวมรูปภาพทั้งหมดที่มีมนุษย์ สำหรับกลุ่มตัวอย่างที่ไม่ได้เกี่ยวข้องกับข้อมูลภาพคุณสมบัติภาพต่อไปนี้มีการใช้ image เป็นไบต์ 64 เข้ารหัสภาพว่าง embedding เป็นเวกเตอร์ 2048 ศูนย์

      กลุ่มตัวอย่างที่ปล่อยออกมาสำหรับการแข่งขันสามารถโหลดเป็น: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (เริ่มต้น): เพิ่มประสิทธิภาพ Beam ท่อที่จะดิ้นรนหลีกเลี่ยงไม่สนใจแถวโดยไม่ต้อง URL ของรูปภาพ ยังเพิ่มเคาน์เตอร์บีมเพิ่มเติม

  • ขนาดการดาวน์โหลด: Unknown size

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):
    ขึ้นอยู่กับการกำหนดค่าที่เรียก manual_dir ควรมีไดเร็กทอรีย่อยต่อไปนี้:

    • รถไฟ
    • รถไฟ-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • ภาพ_พิกเซล/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • ทดสอบ
    • test.tsv.zip
    • image_data_test/
      • ภาพ_พิกเซล/
      • test_image_pixels_part-0000{-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

ลงทะเบียนที่ https://www.kaggle.com/c/wikipedia-image-caption/data เป็นสิ่งจำเป็นที่จะได้รับการเชื่อมโยงในการดาวน์โหลดชุดข้อมูล

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('image_url', 'caption_title_and_reference_description')

  • อ้างอิง:

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (การกำหนดค่าเริ่มต้น)

  • Config คำอธิบาย: การฝึกอบรมตัวอย่างสำหรับวิกิพีเดียภาพ / การแข่งขันจับคู่คำบรรยายภาพ

  • ขนาดชุด: Unknown size

  • ออโต้แคช ( เอกสาร ): ไม่ทราบ

  • แยก:

แยก ตัวอย่าง
  • คุณสมบัติ:
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle/test_without_gold

  • คำอธิบาย Config: ตัวอย่างการทดสอบ (ไม่มีคำตอบทอง) สำหรับวิกิพีเดียภาพ / การแข่งขันจับคู่คำบรรยายภาพ

  • ขนาดชุด: 3.37 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'test_without_gold' 92,366
  • คุณสมบัติ:
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

การสร้างภาพ