ref_coco

  • תיאור:

אוסף של 3 מערכי ביטוי מפנים המבוססים על תמונות במערך הנתונים של COCO. ביטוי מפנה הוא פיסת טקסט המתארת ​​אובייקט ייחודי בתמונה. מערכי נתונים אלה נאספים על ידי כך שהם מבקשים ממעריכי אנוש להפריד באופן חד משמעי לאובייקטים המפורטים בתיבות מגבילות במערך הנתונים של COCO.

RefCoco ו- RefCoco+ הם מ- Kazemzadeh et al. 2014. ביטויי RefCoco+ הם תיאורים המבוססים על מראה חיצוני בלבד, אותם הם נאכפו על ידי מניעת הדירוגים להשתמש בתיאורים מבוססי מיקום (למשל, "אדם מימין" אינו תיאור תקף עבור RefCoco+). RefCocoG הוא מ- Ma et al. 2016, ויש לו תיאור עשיר יותר של אובייקטים בהשוואה ל- RefCoco עקב הבדלים בתהליך ההערה. בפרט, RefCoco נאספה במסגרת משחק אינטראקטיבית, בעוד RefCocoG נאספה במסגרת שאינה אינטראקטיבית. בממוצע, ל- RefCocoG יש 8.4 מילים לביטוי ואילו ל- RefCoco יש 3.5 מילים.

לכל מערך נתונים יש הקצאות פיצול שונות שבדרך כלל כולן מדווחות במסמכים. מערכי "testA" ו- "testB" ב- RefCoco ו- RefCoco+ מכילים רק אנשים ורק אנשים שאינם בהתאמה. תמונות מחולקות לפיצולים השונים. בפיצול ה"גוגל ", אובייקטים, לא תמונות, מחולקים בין הרכבת לחלוקה שאינה רכבת. המשמעות היא שאותו תמונה יכולה להופיע הן ברכבת והן בפיצול האימות, אך האובייקטים שאליהן מתייחסים בתמונה יהיו שונים בין שתי הסטים. לעומת זאת, ה- "unc" ו- "umd" מפצל תמונות מחיצה בין הרכבת, אימות ומבחן פיצול. ב- RefCocoG, לפיצול "גוגל" אינו כולל מערך בדיקה קנוני, ומערכת האימות בדרך כלל מדווחת במסמכים כ- "val*".

נתונים סטטיסטיים עבור כל מערך נתונים ופיצול ("refs" הוא מספר הביטויים המפנים, ו"תמונות "הוא מספר התמונות):

מערך נתונים חֲלוּקָה לְפַצֵל שופטים תמונות
refcoco גוגל רכבת 40000 19213
refcoco גוגל val 5000 4559
refcoco גוגל מִבְחָן 5000 4527
refcoco unc רכבת 42404 16994
refcoco unc val 3811 1500
refcoco unc testA 1975 750
refcoco unc מבחן ב 1810 750
refcoco+ unc רכבת 42278 16992
refcoco+ unc val 3805 1500
refcoco+ unc testA 1975 750
refcoco+ unc מבחן ב 1798 750
ריפוקוג גוגל רכבת 44822 24698
ריפוקוג גוגל val 5000 4650
ריפוקוג אמד רכבת 42226 21899
ריפוקוג אמד val 2573 1300
ריפוקוג אמד מִבְחָן 5023 2600
  • דף הבית: https://github.com/lichengunc/refer

  • קוד מקור: tfds.vision_language.refcoco.RefCoco

  • גרסאות:

    • 1.0.0 (ברירת המחדל): מהדורה ראשונית.
  • גודל ההורדה: Unknown size

  • הוראות הורדה ידנית: מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני לתוך download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):

  • בצע את הוראות https://github.com/lichengunc/refer ולהוריד את ההסברים ואת התמונות, התאמת הנתונים / הספרייה מצוינת ריפה.

  1. פעל על פי ההוראות של PythonAPI ב https://github.com/cocodataset/cocoapi לקבל pycocotools ואת ההסברים instances_train2014 קובץ https://cocodataset.org/#download

  2. הוסף הן refer.py מ (1) והן pycocotools מ (2) ל- PYTHONPATH שלך.

  3. הפעל manual_download_process.py ליצור refcoco.json, החלפת ref_data_root , coco_annotations_file , ו out_file עם הערכים המתאימים איפה שהורדת / רוצה לשמור את הקבצים הללו. שים לב שניתן למצוא manual_download_process.py במאגר TFDS.

  4. הורד את ערכת ההדרכה COCO מן https://cocodataset.org/#download ולתקוע אותו לתוך תיקייה בשם coco_train2014/ . הזז refcoco.json לאותה רמה כמו coco_train2014 .

  5. פעל בהתאם להוראות ההורדה הסטנדרטיות של הורדה ידנית.

  • Auto-במטמון ( תיעוד ): אין

  • מאפיינים:

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (הגדרת ברירת מחדל)

  • גודל בסיס הנתונים: 3.24 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

רְאִיָה

ref_coco/refcoco_google

  • גודל בסיס הנתונים: 4.60 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 4,527
'train' 19,213
'validation' 4,559

רְאִיָה

ref_coco/refcocoplus_unc

  • גודל בסיס הנתונים: 3.24 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

רְאִיָה

ref_coco/refcocog_google

  • גודל בסיס הנתונים: 4.59 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'train' 24,698
'validation' 4,650

רְאִיָה

ref_coco/refcocog_umd

  • גודל בסיס הנתונים: 4.04 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 2,600
'train' 21,899
'validation' 1,300

רְאִיָה