एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

ref_coco

  • विवरण:

COCO डेटासेट में छवियों के आधार पर 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। एक रेफ़रिंग एक्सप्रेशन टेक्स्ट का एक टुकड़ा है जो एक छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव चूहे को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को स्पष्ट करने के लिए कहकर एकत्र किए जाते हैं।

RefCoco और RefCoco+, Kazemzadeh et al से हैं। 2014. RefCoco+ एक्सप्रेशन सख्ती से उपस्थिति आधारित विवरण हैं, जिन्हें उन्होंने रैटर्स को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर व्यक्ति" RefCoco+ के लिए मान्य विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण RefCoco की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरैक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-संवादात्मक सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।

प्रत्येक डेटासेट में अलग-अलग विभाजन आवंटन होते हैं जो आम तौर पर सभी कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग होते हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "गूगल" विभाजन में, वस्तुओं, छवियों को नहीं, ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दो सेटों के बीच भिन्न होंगी। इसके विपरीत, "अन" और "यूएमडी" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करता है। RefCocoG में, "google" स्प्लिट में एक विहित परीक्षण सेट नहीं होता है, और सत्यापन सेट को आमतौर पर "वैल *" के रूप में पेपर में रिपोर्ट किया जाता है।

प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफरी" रेफ़रिंग एक्सप्रेशन की संख्या है, और "इमेज" छवियों की संख्या है):

डाटासेट PARTITION विभाजित करना रेफरी इमेजिस
रेफकोको गूगल रेल गाडी 40000 १९२१३
रेफकोको गूगल वैल 5000 4559
रेफकोको गूगल परीक्षण 5000 4527
रेफकोको यूएनसी रेल गाडी 42404 १६९९४
रेफकोको यूएनसी वैल 3811 1500
रेफकोको यूएनसी टेस्टए १९७५ 750
रेफकोको यूएनसी टेस्टबी १८१० 750
रेफकोको+ यूएनसी रेल गाडी 42278 १६९९२
रेफकोको+ यूएनसी वैल 3805 1500
रेफकोको+ यूएनसी टेस्टए १९७५ 750
रेफकोको+ यूएनसी टेस्टबी १७९८ 750
रेफकोकोग गूगल रेल गाडी 44822 24698
रेफकोकोग गूगल वैल 5000 4650
रेफकोकोग उमदा रेल गाडी 42226 २१८९९
रेफकोकोग उमदा वैल २५७३ 1300
रेफकोकोग उमदा परीक्षण 5023 2600
  • होमपेज: https://github.com/lichengunc/refer

  • स्रोत कोड: tfds.vision_language.refcoco.RefCoco

  • संस्करण:

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड का आकार: Unknown size

  • मैनुअल डाउनलोड के निर्देश: यह डेटासेट आप में मैन्युअल रूप से स्रोत डेटा डाउनलोड करने के लिए की आवश्यकता है download_config.manual_dir (करने के लिए डिफ़ॉल्ट ~/tensorflow_datasets/downloads/manual/ ):

  • के निर्देशों का पालन https://github.com/lichengunc/refer और एनोटेशन और छवियों डाउनलोड, डेटा / निर्देशिका रेपो में निर्दिष्ट मिलान।

  1. में PythonAPI के निर्देशों का पालन https://github.com/cocodataset/cocoapi से pycocotools और instances_train2014 एनोटेशन फ़ाइल पाने के लिए https://cocodataset.org/#download

  2. अपने PYTHONPATH में (1) और (2) से pycocotools दोनों को Refer.py जोड़ें।

  3. Refcoco.json उत्पन्न करने के लिए manual_download_process.py भागो, जगह ref_data_root , coco_annotations_file , और out_file मूल्यों जहां डाउनलोड किया है के लिए इसी के साथ / इन फ़ाइलों को सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py TFDS रिपॉजिटरी में पाया जा सकता है।

  4. से कोको प्रशिक्षण सेट डाउनलोड https://cocodataset.org/#download और यह नामक फ़ोल्डर में रहना coco_train2014/ । ले जाएँ refcoco.json के स्तर पर ही coco_train2014

  5. मानक मैनुअल डाउनलोड निर्देशों का पालन करें।

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • प्रशस्ति पत्र:

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार: 3.24 GiB

  • विभाजन:

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' १६,९९४
'validation' १,५००

VISUALIZATION

ref_coco/refcoco_google

  • डेटासेट का आकार: 4.60 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 4,527
'train' 19,213
'validation' 4,559

VISUALIZATION

ref_coco/refcocoplus_unc

  • डेटासेट का आकार: 3.24 GiB

  • विभाजन:

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' १६,९९२
'validation' १,५००

VISUALIZATION

ref_coco/refcocog_google

  • डेटासेट का आकार: 4.59 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 24,698
'validation' 4,650

VISUALIZATION

ref_coco/refcocog_umd

  • डेटासेट का आकार: 4.04 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 2,600
'train' २१,८९९
'validation' 1,300

VISUALIZATION