wit_kaggle

  • תיאור :

ויקיפדיה - תחרות התאמת קאגל לתמונה/כיתוב.

תחרות זו מאורגנת על ידי צוות המחקר בקרן ויקימדיה בשיתוף עם Google Research וכמה משתפי פעולה חיצוניים. תחרות זו מבוססת על מערך הנתונים של WIT שפורסם על ידי Google Research כמפורט במאמר SIGIR זה.

בתחרות זו, תבנה מודל שמחזיר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, תלמד את המודל שלך לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה. אם תצליח, אתה תתרום לנגישות של האנציקלופדיה המקוונת הגדולה ביותר. מיליוני הקוראים והעורכים של ויקיפדיה יוכלו להבין, לחפש ולתאר מדיה בקלות רבה יותר. כתוצאה מכך, תתרום למודל פתוח לשיפור הלמידה לכולם.

  • דף הבית : https://www.kaggle.com/c/wikipedia-image-caption/code

  • קוד מקור : tfds.vision_language.wit_kaggle.WitKaggle

  • גרסאות :

    • 1.0.0 : שחרור ראשוני. הוא מספק את מערכי הרכבות והמבחן מהתחרות של ויקיפדיה - Image/Caption Matching Kaggle ( https://www.kaggle.com/c/wikipedia-image-caption/data ).

      מטרת התחרות היא לבנות מודל שאחזר אוטומטית את הטקסט הקרוב לתמונה. באופן ספציפי, המודל צריך להיות מאומן לשייך תמונות נתונות לכותרות מאמרים או כיתובים מורכבים, במספר שפות. הדגמים הטובים ביותר יתייחסו לפירוט הסמנטי של תמונות ויקיפדיה.

      שים לב שהמהדורה הזו אינה מספקת את האמת הבסיסית לסט המבחן, מכיוון שהיא עדיין לא סופקה על ידי תחרות Kaggle.

      שימו לב שלא לכל תצפיות האימון יש נתוני תמונה מתאימים. התמונות שפורסמו אינן כוללות את כל התמונות המכילות בני אדם. עבור דוגמאות שאינן משויכות לנתוני תמונה, נעשה שימוש בתכונות התמונה הבאות: image היא תמונה ריקה מקודדת בתים-64, embedding היא וקטור של 2048 אפסים.

      ניתן לטעון את הדוגמאות ששוחררו לתחרות בתור: tfds.load("wit_kaggle/train_with_extended_features") tfds.load("wit_kaggle/test_without_gold")

    • 1.0.1 (ברירת מחדל): בצע אופטימיזציה של צינור Beam כדי להימנע מתקשים, תוך התעלמות משורות ללא כתובת אתר של תמונה. הוסיפו גם מונים נוספים של Beam.

  • גודל הורדה : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    בהתאם לתצורה שנקראת, manual_dir אמור להכיל כמה מתיקיות המשנה הבאות:

    • רכבת
    • train-{0000x}-of-00005.tsv.zip
    • image_data_train/
      • תמונה_פיקסלים/
      • train_image_pixels_part-00{000-199}.csv.gz
      • resnet_embeddings/
      • train_resnet_embeddings_part-00{000-214}.csv.gz
    • מִבְחָן
    • test.tsv.zip
    • image_data_test/
      • תמונה_פיקסלים/
      • test_image_pixels_part-0000{0-4}.csv
      • resnet_embeddings/
      • test_resnet_embeddings_part-0000{0-9}.csv

יש צורך בהרשמה בכתובת https://www.kaggle.com/c/wikipedia-image-caption/data כדי לקבל את הקישורים להורדת מערך הנתונים.

  • מפתחות בפיקוח (ראה as_supervised ): ('image_url', 'caption_title_and_reference_description')

  • ציטוט :

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

wit_kaggle/train_with_extended_features (תצורת ברירת המחדל)

  • תיאור תצורה : דוגמאות הדרכה לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל ערכת נתונים : Unknown size

  • שמור אוטומטי במטמון ( תיעוד ): לא ידוע

  • פיצולים :

לְפַצֵל דוגמאות
  • תכונות :
FeaturesDict({
    'attribution_passes_lang_id': tf.bool,
    'caption_alt_text_description': Text(shape=(), dtype=tf.string),
    'caption_attribution_description': Text(shape=(), dtype=tf.string),
    'caption_reference_description': Text(shape=(), dtype=tf.string),
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'context_page_description': Text(shape=(), dtype=tf.string),
    'context_section_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'hierarchical_section_title': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'is_main_image': tf.bool,
    'language': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
    'mime_type': Text(shape=(), dtype=tf.string),
    'original_height': tf.int32,
    'original_width': tf.int32,
    'page_changed_recently': tf.bool,
    'page_title': Text(shape=(), dtype=tf.string),
    'page_url': Text(shape=(), dtype=tf.string),
    'section_title': Text(shape=(), dtype=tf.string),
})

wit_kaggle/test_without_gold

  • תיאור תצורה : דוגמאות מבחן (ללא תשובות זהב) לתחרות התאמת ויקיפדיה-תמונה/כתוביות.

  • גודל מערך נתונים : 3.37 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test_without_gold' 92,366
  • תכונות :
FeaturesDict({
    'caption_title_and_reference_description': Text(shape=(), dtype=tf.string),
    'embedding': Tensor(shape=(2048,), dtype=tf.float32),
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image_url': Text(shape=(), dtype=tf.string),
    'metadata_url': Text(shape=(), dtype=tf.string),
})

רְאִיָה