ref_coco

  • Açıklama:

COCO veri setindeki görüntülere dayalı 3 referans ifade veri setinden oluşan bir koleksiyon. Yönlendiren ifade, bir görüntüdeki benzersiz bir nesneyi tanımlayan bir metin parçasıdır. Bu veri kümeleri, insan değerlendiricilerden COCO veri kümesindeki sınırlayıcı kutularla tanımlanan nesnelerin belirsizliğini gidermeleri istenerek toplanır.

RefCoco ve RefCoco+, Kazemzadeh et al. 2014. RefCoco+ ifadeleri kesinlikle görünüşe dayalı tanımlardır ve değerlendiricilerin konum bazlı tanımlamaları kullanmasını engelleyerek uyguladıkları tanımlamalardır (örn. "sağdaki kişi" RefCoco+ için geçerli bir tanımlama değildir). RefCocoG, Mao ve diğerlerine aittir. 2016 ve açıklama sürecindeki farklılıklar nedeniyle RefCoco'ya kıyasla daha zengin nesne açıklamasına sahiptir. Özellikle, RefCoco etkileşimli oyun tabanlı bir ortamda toplanırken, RefCocoG etkileşimli olmayan bir ortamda toplandı. Ortalama olarak, RefCocoG'de ifade başına 8,4 kelime bulunurken, RefCoco 3,5 kelimeye sahiptir.

Her veri kümesi, tipik olarak tümü kağıtlarda rapor edilen farklı bölünmüş tahsislere sahiptir. RefCoco ve RefCoco+'daki "testA" ve "testB" kümeleri sırasıyla yalnızca insanları ve yalnızca insan olmayanları içerir. Görüntüler çeşitli bölmelere bölünür. "google" bölümünde, görüntüler değil, nesneler tren ve tren olmayan bölümler arasında bölünür. Bu, aynı görüntünün hem trend hem de doğrulama bölümünde görünebileceği, ancak görüntüde atıfta bulunulan nesnelerin iki küme arasında farklı olacağı anlamına gelir. Buna karşılık, "unc" ve "umd", bölümleri tren, doğrulama ve test bölümü arasında böler. RefCocoG'da "google" ayrımının kanonik bir test seti yoktur ve doğrulama seti genellikle makalelerde "val*" olarak rapor edilir.

Her veri kümesi ve bölme için istatistikler ("refs", başvuran ifadelerin sayısıdır ve "images", görüntülerin sayısıdır):

veri seti bölme bölmek referanslar Görüntüler
refkoko Google tren 40000 19213
refkoko Google val 5000 4559
refkoko Google Ölçek 5000 4527
refkoko amca tren 42404 16994
refkoko amca val 3811 1500
refkoko amca testA 1975 750
refkoko amca testB 1810 750
refcoco+ amca tren 42278 16992
refcoco+ amca val 3805 1500
refcoco+ amca testA 1975 750
refcoco+ amca testB 1798 750
refcocog Google tren 44822 24698
refcocog Google val 5000 4650
refcocog umd tren 42226 21899
refcocog umd val 2573 1300
refcocog umd Ölçek 5023 2600
  1. İçinde PythonAPI talimatlarını uygulayın https://github.com/cocodataset/cocoapi gelen pycocotools ve instances_train2014 ek açıklamaları dosyası almak için https://cocodataset.org/#download

  2. PYTHONPATH'inize hem refer.py'den (1) hem de pycocotools'dan (2)'yi ekleyin.

  3. Yerine refcoco.json üretmek için manual_download_process.py çalıştırın ref_data_root , coco_annotations_file ve out_file değerleri indirdiğiniz yere karşılık gelen / bu dosyaları kurtarmak istiyorum. manual_download_process.py dosyasının TFDS deposunda bulunabileceğini unutmayın.

  4. Dan COCO eğitim seti indir https://cocodataset.org/#download ve adında bir klasörün içine sopa coco_train2014/ . Taşı refcoco.json aynı düzeye coco_train2014 .

  5. Standart manuel indirme talimatlarını izleyin.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (varsayılan yapılandırma)

  • Veri kümesi boyutu: 3.24 GiB

  • Splits:

Bölmek Örnekler
'testA' 750
'testB' 750
'train' 16.994
'validation' 1500

görselleştirme

ref_coco/refcoco_google

  • Veri kümesi boyutu: 4.60 GiB

  • Splits:

Bölmek Örnekler
'test' 4,527
'train' 19.213
'validation' 4,559

görselleştirme

ref_coco/refcocoplus_unc

  • Veri kümesi boyutu: 3.24 GiB

  • Splits:

Bölmek Örnekler
'testA' 750
'testB' 750
'train' 16.992
'validation' 1500

görselleştirme

ref_coco/refcocog_google

  • Veri kümesi boyutu: 4.59 GiB

  • Splits:

Bölmek Örnekler
'train' 24.698
'validation' 4.650

görselleştirme

ref_coco/refcocog_umd

  • Veri kümesi boyutu: 4.04 GiB

  • Splits:

Bölmek Örnekler
'test' 2.600
'train' 21.899
'validation' 1.300

görselleştirme