ref_coco

  • תיאור :

אוסף של 3 מערכי נתונים מפנים המבוססים על תמונות במערך הנתונים של COCO. ביטוי מפנה הוא קטע טקסט המתאר אובייקט ייחודי בתמונה. מערכי נתונים אלה נאספים על ידי בקשת מדרגים אנושיים לבלבל אובייקטים המתוחמים על ידי תיבות תוחמות במערך הנתונים של COCO.

RefCoco ו-RefCoco+ הם מ-Kazemzadeh et al. 2014. ביטויי RefCoco+ הם אך ורק תיאורים מבוססי מראה, שאותם הם אכפו על ידי מניעת מדרגים להשתמש בתיאורים מבוססי מיקום (למשל, "אדם מימין" אינו תיאור חוקי עבור RefCoco+). RefCocoG הוא מ-Mao et al. 2016, ויש לו תיאור עשיר יותר של אובייקטים בהשוואה ל-RefCoco עקב הבדלים בתהליך ההערה. במיוחד, RefCoco נאסף בסביבה מבוססת משחק אינטראקטיבית, בעוד RefCocoG נאסף בסביבה לא אינטראקטיבית. בממוצע, ל-RefCocoG יש 8.4 מילים לכל ביטוי ואילו ל-RefCoco יש 3.5 מילים.

לכל מערך נתונים יש הקצאות מפוצלות שונות שבדרך כלל כולן מדווחות בעיתונים. ערכות "testA" ו-"testB" ב-RefCoco ו-RefCoco+ מכילות רק אנשים ורק לא אנשים בהתאמה. התמונות מחולקות לפיצולים השונים. בפיצול "גוגל", אובייקטים, לא תמונות, מחולקים בין פיצול הרכבת לחלק שאינו רכבת. המשמעות היא שאותה תמונה יכולה להופיע גם בפיצול הרכבת וגם בחלוקת האימות, אבל האובייקטים שאליהם מתייחסים בתמונה יהיו שונים בין שתי הקבוצות. לעומת זאת, ה-"unc" ו-"umd" מפצלים תמונות מחיצה בין הרכבת, האימות ופיצול הבדיקה. ב-RefCocoG, לפיצול "google" אין ערכת בדיקות קנונית, וערכת האימות מדווחת בדרך כלל במסמכים כ"val*".

נתונים סטטיסטיים עבור כל מערך נתונים ופיצול ("refs" הוא מספר הביטויים המפנים, ו"תמונות" הוא מספר התמונות):

מערך נתונים חֲלוּקָה לְפַצֵל שופטים תמונות
רקוקו גוגל רכבת 40000 19213
רקוקו גוגל val 5000 4559
רקוקו גוגל מִבְחָן 5000 4527
רקוקו unc רכבת 42404 16994
רקוקו unc val 3811 1500
רקוקו unc testA 1975 750
רקוקו unc מבחן ב 1810 750
refcoco+ unc רכבת 42278 16992
refcoco+ unc val 3805 1500
refcoco+ unc testA 1975 750
refcoco+ unc מבחן ב 1798 750
refcocog גוגל רכבת 44822 24698
refcocog גוגל val 5000 4650
refcocog אום רכבת 42226 21899
refcocog אום val 2573 1300
refcocog אום מִבְחָן 5023 2600
  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://github.com/lichengunc/refer

  • קוד מקור : tfds.datasets.ref_coco.Builder

  • גרסאות :

    • 1.0.0 : שחרור ראשוני.
    • 1.1.0 (ברירת מחדל) : נוספו מסיכות.
  • גודל הורדה : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):

  • עקוב אחר ההוראות ב- https://github.com/lichengunc/refer והורד את ההערות והתמונות, התואמות את הנתונים/ספריה שצוין ב-repo.

  1. עקוב אחר ההוראות של PythonAPI ב- https://github.com/cocodataset/cocoapi כדי לקבל את pycocotools ואת קובץ ההערות instances_train2014 מ- https://cocodataset.org/#download

  2. הוסף גם refer.py מ-(1) וגם pycocotools מ-(2) ל-PYTHONPATH שלך.

  3. הפעל את manual_download_process.py כדי ליצור refcoco.json, החלפת ref_data_root , coco_annotations_file ו- out_file בערכים התואמים למקום שבו הורדת/רוצה לשמור את הקבצים האלה. שים לב שניתן למצוא את manual_download_process.py במאגר TFDS.

  4. הורד את ערכת האימונים של COCO מאתר https://cocodataset.org/#download והצמד אותו לתיקיה בשם coco_train2014/ . העבר refcoco.json לאותה רמה כמו coco_train2014 .

  5. פעל לפי הוראות ההורדה הידניות הסטנדרטיות.

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מבנה תכונה :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הערות_קוקו סדר פעולות
הערות_קוקו/אזור מוֹתֵחַ int64
coco_annotations/bbox BBoxFeature (4,) לצוף32
coco_annotations/id מוֹתֵחַ int64
coco_annotations/label מוֹתֵחַ int64
תמונה תמונה (אין, אין, 3) uint8
תמונה/מזהה מוֹתֵחַ int64
חפצים סדר פעולות
חפצים/שטח מוֹתֵחַ int64
אובייקטים/bbox BBoxFeature (4,) לצוף32
objects/gt_box_index מוֹתֵחַ int64
אובייקטים/מזהה מוֹתֵחַ int64
חפצים/תווית מוֹתֵחַ int64
חפצים/מסכה תמונה (אין, אין, 3) uint8
אובייקטים / refexp סדר פעולות
objects/refexp/raw טֶקסט חוּט
objects/refexp/refexp_id מוֹתֵחַ int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (תצורת ברירת המחדל)

  • גודל מערך נתונים : 3.29 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

רְאִיָה

ref_coco/refcoco_google

  • גודל מערך נתונים : 4.65 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 4,527
'train' 19,213
'validation' 4,559

רְאִיָה

ref_coco/refcocoplus_unc

  • גודל מערך נתונים : 3.29 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

רְאִיָה

ref_coco/refcocog_google

  • גודל מערך נתונים : 4.64 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 24,698
'validation' 4,650

רְאִיָה

ref_coco/refcocog_umd

  • גודל מערך נתונים : 4.08 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,600
'train' 21,899
'validation' 1,300

רְאִיָה