ref_coco

  • وصف :

مجموعة من 3 مجموعات بيانات تعبيرية مرجعية تعتمد على الصور في مجموعة بيانات COCO. التعبير المرجعي هو جزء من النص يصف كائنًا فريدًا في الصورة. يتم جمع مجموعات البيانات هذه من خلال مطالبة المقيمين البشريين بإزالة الغموض عن الكائنات المحددة بواسطة المربعات المحيطة في مجموعة بيانات COCO.

RefCoco وRefCoco+ من كاظم زاده وآخرون. 2014. تعبيرات RefCoco+ هي أوصاف تعتمد على المظهر بشكل صارم، والتي يتم فرضها عن طريق منع المقيمين من استخدام الأوصاف المستندة إلى الموقع (على سبيل المثال، "الشخص الموجود على اليمين" ليس وصفًا صالحًا لـ RefCoco+). RefCocoG من ماو وآخرون. 2016، ويحتوي على وصف أكثر ثراءً للكائنات مقارنة بـ RefCoco بسبب الاختلافات في عملية التعليق التوضيحي. على وجه الخصوص، تم جمع RefCoco في بيئة تفاعلية تعتمد على الألعاب، بينما تم جمع RefCocoG في بيئة غير تفاعلية. في المتوسط، يحتوي RefCocoG على 8.4 كلمة لكل تعبير بينما يحتوي RefCoco على 3.5 كلمة.

تحتوي كل مجموعة بيانات على مخصصات مقسمة مختلفة والتي يتم عادةً الإبلاغ عنها جميعًا في الأوراق. تحتوي مجموعات "testA" و"testB" في RefCoco وRefCoco+ على أشخاص فقط وغير أشخاص فقط على التوالي. يتم تقسيم الصور إلى أقسام مختلفة. في تقسيم "google"، يتم تقسيم الكائنات، وليس الصور، بين تقسيمات القطار وغير القطارات. وهذا يعني أن نفس الصورة يمكن أن تظهر في كل من قسمي التدريب والتحقق من الصحة، ولكن الكائنات المشار إليها في الصورة ستكون مختلفة بين المجموعتين. في المقابل، يقوم "unc" و"umd" بتقسيم الصور بين القطار والتحقق من الصحة وتقسيم الاختبار. في RefCocoG، لا يحتوي قسم "google" على مجموعة اختبار أساسية، وعادةً ما يتم الإبلاغ عن مجموعة التحقق من الصحة في الأوراق باسم "val*".

إحصائيات لكل مجموعة بيانات وتقسيم ("المراجع" هو عدد التعبيرات المرجعية، و"الصور" هي عدد الصور):

dataset تقسيم ينقسم المراجع الصور
com.refcoco جوجل يدرب 40000 19213
com.refcoco جوجل فال 5000 4559
com.refcoco جوجل امتحان 5000 4527
com.refcoco unc يدرب 42404 16994
com.refcoco unc فال 3811 1500
com.refcoco unc اختبارأ 1975 750
com.refcoco unc اختبار ب 1810 750
ريفيكوكو+ unc يدرب 42278 16992
ريفيكوكو+ unc فال 3805 1500
ريفيكوكو+ unc اختبارأ 1975 750
ريفيكوكو+ unc اختبار ب 1798 750
com.refcocog جوجل يدرب 44822 24698
com.refcocog جوجل فال 5000 4650
com.refcocog أمد يدرب 42226 21899
com.refcocog أمد فال 2573 1300
com.refcocog أمد امتحان 5023 2600
  • وثائق إضافية : استكشاف الأوراق باستخدام الكود

  • الصفحة الرئيسية : https://github.com/lichengunc/refer

  • كود المصدر : tfds.datasets.ref_coco.Builder

  • الإصدارات :

    • 1.0.0 : الإصدار الأولي.
    • 1.1.0 (افتراضي) : تمت إضافة الأقنعة.
  • حجم التحميل : Unknown size

  • تعليمات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل البيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية هي ~/tensorflow_datasets/downloads/manual/ ):

  • اتبع الإرشادات الموجودة في https://github.com/lichengunc/refer وقم بتنزيل التعليقات التوضيحية والصور، بما يتوافق مع دليل البيانات/ المحدد في الريبو.

  1. اتبع تعليمات PythonAPI في https://github.com/cocodataset/cocoapi للحصول على pycocotools وملف التعليقات التوضيحيةins_train2014 من https://cocodataset.org/#download

  2. أضف كلا من Refer.py من (1) وpycocotools من (2) إلى PYTHONPATH الخاص بك.

  3. قم بتشغيل manual_download_process.py لإنشاء refcoco.json، واستبدال ref_data_root و coco_annotations_file و out_file بالقيم المقابلة للمكان الذي قمت بتنزيله/تريد حفظ هذه الملفات فيه. لاحظ أنه يمكن العثور على manual_download_process.py في مستودع TFDS.

  4. قم بتنزيل مجموعة تدريب COCO من https://cocodataset.org/#download وألصقها في مجلد يسمى coco_train2014/ . انقل refcoco.json إلى نفس مستوى coco_train2014 .

  5. اتبع تعليمات التنزيل اليدوية القياسية.

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • هيكل الميزة :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
coco_annotations تسلسل
coco_annotations/area الموتر int64
coco_annotations/bbox ميزة BBox (4،) float32
coco_annotations/id الموتر int64
coco_annotations/label الموتر int64
صورة صورة (لا شيء، لا شيء، 3) uint8
الصورة/المعرف الموتر int64
أشياء تسلسل
الكائنات / المنطقة الموتر int64
الكائنات/bbox ميزة BBox (4،) float32
objects/gt_box_index الموتر int64
الكائنات/المعرف الموتر int64
الكائنات/التسمية الموتر int64
الأشياء/القناع صورة (لا شيء، لا شيء، 3) uint8
الكائنات/refexp تسلسل
الكائنات/refexp/raw نص خيط
الكائنات/refexp/refexp_id الموتر int64
  • المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None

  • الاقتباس :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (التكوين الافتراضي)

  • حجم مجموعة البيانات : 3.29 GiB

  • الإنشقاقات :

ينقسم أمثلة
'testA' 750
'testB' 750
'train' 16,994
'validation' 1500

التصور

ref_coco/refcoco_google

  • حجم مجموعة البيانات : 4.65 GiB

  • الإنشقاقات :

ينقسم أمثلة
'test' 4,527
'train' 19,213
'validation' 4,559

التصور

ref_coco/refcocoplus_unc

  • حجم مجموعة البيانات : 3.29 GiB

  • الإنشقاقات :

ينقسم أمثلة
'testA' 750
'testB' 750
'train' 16,992
'validation' 1500

التصور

ref_coco/refcocog_google

  • حجم مجموعة البيانات : 4.64 GiB

  • الإنشقاقات :

ينقسم أمثلة
'train' 24,698
'validation' 4,650

التصور

ref_coco/refcocog_umd

  • حجم مجموعة البيانات : 4.08 GiB

  • الإنشقاقات :

ينقسم أمثلة
'test' 2600
'train' 21,899
'validation' 1300

التصور