- תיאור :
אוסף של 3 מערכי נתונים מפנים המבוססים על תמונות במערך הנתונים של COCO. ביטוי מפנה הוא קטע טקסט המתאר אובייקט ייחודי בתמונה. מערכי נתונים אלה נאספים על ידי בקשת מדרגים אנושיים לבלבל אובייקטים המתוחמים על ידי תיבות תוחמות במערך הנתונים של COCO.
RefCoco ו-RefCoco+ הם מ-Kazemzadeh et al. 2014. ביטויי RefCoco+ הם אך ורק תיאורים מבוססי מראה, שאותם הם אכפו על ידי מניעת מדרגים להשתמש בתיאורים מבוססי מיקום (למשל, "אדם מימין" אינו תיאור חוקי עבור RefCoco+). RefCocoG הוא מ-Mao et al. 2016, ויש לו תיאור עשיר יותר של אובייקטים בהשוואה ל-RefCoco עקב הבדלים בתהליך ההערה. במיוחד, RefCoco נאסף בסביבה מבוססת משחק אינטראקטיבית, בעוד RefCocoG נאסף בסביבה לא אינטראקטיבית. בממוצע, ל-RefCocoG יש 8.4 מילים לכל ביטוי ואילו ל-RefCoco יש 3.5 מילים.
לכל מערך נתונים יש הקצאות מפוצלות שונות שבדרך כלל כולן מדווחות בעיתונים. ערכות "testA" ו-"testB" ב-RefCoco ו-RefCoco+ מכילות רק אנשים ורק לא אנשים בהתאמה. התמונות מחולקות לפיצולים השונים. בפיצול "גוגל", אובייקטים, לא תמונות, מחולקים בין פיצול הרכבת לחלק שאינו רכבת. המשמעות היא שאותה תמונה יכולה להופיע גם בפיצול הרכבת וגם בחלוקת האימות, אבל האובייקטים שאליהם מתייחסים בתמונה יהיו שונים בין שתי הקבוצות. לעומת זאת, ה-"unc" ו-"umd" מפצלות תמונות מחיצה בין הרכבת, האימות ופיצול הבדיקה. ב-RefCocoG, לפיצול "google" אין ערכת בדיקות קנונית, וערכת האימות מדווחת בדרך כלל במסמכים כ"val*".
נתונים סטטיסטיים עבור כל מערך נתונים ופיצול ("refs" הוא מספר הביטויים המפנים, ו"תמונות" הוא מספר התמונות):
מערך נתונים | חֲלוּקָה | לְפַצֵל | שופטים | תמונות |
---|---|---|---|---|
רקוקו | גוגל | רכבת | 40000 | 19213 |
רקוקו | גוגל | val | 5000 | 4559 |
רקוקו | גוגל | מִבְחָן | 5000 | 4527 |
רקוקו | unc | רכבת | 42404 | 16994 |
רקוקו | unc | val | 3811 | 1500 |
רקוקו | unc | testA | 1975 | 750 |
רקוקו | unc | מבחן ב | 1810 | 750 |
refcoco+ | unc | רכבת | 42278 | 16992 |
refcoco+ | unc | val | 3805 | 1500 |
refcoco+ | unc | testA | 1975 | 750 |
refcoco+ | unc | מבחן ב | 1798 | 750 |
refcocog | גוגל | רכבת | 44822 | 24698 |
refcocog | גוגל | val | 5000 | 4650 |
refcocog | אום | רכבת | 42226 | 21899 |
refcocog | אום | val | 2573 | 1300 |
refcocog | אום | מִבְחָן | 5023 | 2600 |
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/lichengunc/refer
קוד מקור :
tfds.datasets.ref_coco.Builder
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.1.0
(ברירת מחדל): נוספו מסיכות.
-
גודל הורדה :
Unknown size
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):עקוב אחר ההוראות ב- https://github.com/lichengunc/refer והורד את ההערות והתמונות, התואמות את הנתונים/ספריה שצוין ב-repo.
עקוב אחר ההוראות של PythonAPI ב- https://github.com/cocodataset/cocoapi כדי לקבל את pycocotools ואת קובץ ההערות instances_train2014 מ- https://cocodataset.org/#download
הוסף גם refer.py מ-(1) וגם pycocotools מ-(2) ל-PYTHONPATH שלך.
הפעל את manual_download_process.py כדי ליצור refcoco.json, החלפת
ref_data_root
,coco_annotations_file
ו-out_file
בערכים התואמים למקום שבו הורדת/רוצה לשמור את הקבצים האלה. שימו לב שניתן למצוא את manual_download_process.py במאגר TFDS.הורד את ערכת ההדרכה של COCO מאתר https://cocodataset.org/#download והצמד אותו לתיקיה בשם
coco_train2014/
. העברrefcoco.json
לאותה רמה כמוcoco_train2014
.פעל לפי הוראות ההורדה הידניות הסטנדרטיות.
שמור אוטומטי במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
הערות_קוקו | סדר פעולות | |||
coco_הערות/אזור | מוֹתֵחַ | int64 | ||
coco_annotations/bbox | BBoxFeature | (4,) | לצוף32 | |
coco_annotations/id | מוֹתֵחַ | int64 | ||
coco_annotations/label | מוֹתֵחַ | int64 | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
תמונה/מזהה | מוֹתֵחַ | int64 | ||
חפצים | סדר פעולות | |||
חפצים/שטח | מוֹתֵחַ | int64 | ||
אובייקטים/bbox | BBoxFeature | (4,) | לצוף32 | |
objects/gt_box_index | מוֹתֵחַ | int64 | ||
אובייקטים/מזהה | מוֹתֵחַ | int64 | ||
חפצים/תווית | מוֹתֵחַ | int64 | ||
חפצים/מסכה | תמונה | (אין, אין, 3) | uint8 | |
אובייקטים / refexp | סדר פעולות | |||
objects/refexp/raw | טֶקסט | חוּט | ||
objects/refexp/refexp_id | מוֹתֵחַ | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
ציטוט :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (תצורת ברירת המחדל)
גודל מערך נתונים :
3.29 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
ref_coco/refcoco_google
גודל מערך נתונים :
4.65 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
גודל מערך נתונים :
3.29 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
ref_coco/refcocog_google
גודל ערכת נתונים :
4.64 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
ref_coco/refcocog_umd
גודל מערך נתונים :
4.08 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):