ref_coco

  • विवरण :

COCO डेटासेट में छवियों के आधार पर 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। एक रेफ़रिंग एक्सप्रेशन टेक्स्ट का एक टुकड़ा है जो एक छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव रेटर्स को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को अलग करने के लिए कहकर एकत्र किए जाते हैं।

RefCoco और RefCoco+ काज़ेमज़ादेह और अन्य से हैं। 2014. RefCoco+ अभिव्यक्ति पूरी तरह से उपस्थिति आधारित विवरण हैं, जिसे उन्होंने रैटर्स को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर वाला व्यक्ति" RefCoco+ के लिए मान्य विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण RefCoco की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरएक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-इंटरैक्टिव सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।

प्रत्येक डेटासेट में अलग-अलग विभाजन आवंटन होते हैं जो आम तौर पर सभी कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग होते हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "गूगल" विभाजन में, वस्तुओं, छवियों को नहीं, को ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब यह है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दो सेटों के बीच भिन्न होंगी। इसके विपरीत, "अन" और "उमद" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करते हैं। RefCocoG में, "google" विभाजन में एक प्रामाणिक परीक्षण सेट नहीं है, और सत्यापन सेट को आम तौर पर कागजात में "वैल *" के रूप में रिपोर्ट किया जाता है।

प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफरी" संदर्भित अभिव्यक्तियों की संख्या है, और "छवियाँ" छवियों की संख्या है):

डाटासेट PARTITION विभाजित करना संदर्भ इमेजिस
refcoco गूगल रेल गाडी 40000 19213
refcoco गूगल वैल 5000 4559
refcoco गूगल परीक्षण 5000 4527
refcoco यूएनसी रेल गाडी 42404 16994
refcoco यूएनसी वैल 3811 1500
refcoco यूएनसी टेस्ट ए 1975 750
refcoco यूएनसी testB 1810 750
रेफकोको+ यूएनसी रेल गाडी 42278 16992
रेफकोको+ यूएनसी वैल 3805 1500
रेफकोको+ यूएनसी टेस्ट ए 1975 750
रेफकोको+ यूएनसी testB 1798 750
refcocog गूगल रेल गाडी 44822 24698
refcocog गूगल वैल 5000 4650
refcocog उम्मद रेल गाडी 42226 21899
refcocog उम्मद वैल 2573 1300
refcocog उम्मद परीक्षण 5023 2600
  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/lichengunc/refer

  • स्रोत कोड : tfds.datasets.ref_coco.Builder

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:

  • https://github.com/lichengunc/ में दिए गए निर्देशों का पालन करें और एनोटेशन और छवियों को डाउनलोड करें, रेपो में निर्दिष्ट डेटा/निर्देशिका से मिलान करें।

  1. https://cocodataset.org/#download से pycocotools और इंस्टेंस_ट्रेन2014 एनोटेशन फ़ाइल प्राप्त करने के लिए https://github.com/cocodataset/cocoapi में PythonAPI के निर्देशों का पालन करें

  2. अपने PYTHONPATH में (1) से रेफर.py और (2) से पाइकोकोटूल दोनों जोड़ें।

  3. refcoco.json उत्पन्न करने के लिए मैन्युअल_डाउनलोड_प्रोसेस चलाएँ, ref_data_root , coco_annotations_file , और out_file को उन मानों से बदलें जहाँ आपने इन फ़ाइलों को डाउनलोड किया है / सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py को TFDS रिपॉजिटरी में पाया जा सकता है।

  4. https://cocodataset.org/#download से COCO प्रशिक्षण सेट डाउनलोड करें और इसे coco_train2014/ नामक फ़ोल्डर में चिपका दें। Refcoco.json को refcoco.json के समान स्तर पर ले coco_train2014

  5. मानक मैनुअल डाउनलोड निर्देशों का पालन करें।

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
coco_annotations क्रम
कोको_एनोटेशन/एरिया टेन्सर int64
कोको_एनोटेशन/बीबॉक्स बीबॉक्स फीचर (4,) फ्लोट32
कोको_एनोटेशन/आईडी टेन्सर int64
कोको_एनोटेशन/लेबल टेन्सर int64
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि/आईडी टेन्सर int64
वस्तुओं क्रम
वस्तुओं / क्षेत्र टेन्सर int64
ऑब्जेक्ट्स/बीबॉक्स बीबॉक्स फीचर (4,) फ्लोट32
ऑब्जेक्ट्स/gt_box_index टेन्सर int64
वस्तुओं/आईडी टेन्सर int64
ऑब्जेक्ट्स / लेबल टेन्सर int64
ऑब्जेक्ट्स/रेफेक्स क्रम
ऑब्जेक्ट्स/रेफएक्सपी/रॉ मूलपाठ डोरी
ऑब्जेक्ट्स/रेफएक्सपी/refexp_id टेन्सर int64
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • उद्धरण :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 3.24 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

VISUALIZATION

रेफ_कोको/रेफकोको_गूगल

  • डेटासेट का आकार : 4.60 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,527
'train' 19,213
'validation' 4,559

VISUALIZATION

ref_coco/refcocoplus_unc

  • डेटासेट का आकार : 3.24 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

VISUALIZATION

रेफ_कोको/रेफकोकोग_गूगल

  • डेटासेट का आकार : 4.59 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 24,698
'validation' 4,650

VISUALIZATION

ref_coco/refcocog_umd

  • डेटासेट का आकार : 4.04 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,600
'train' 21,899
'validation' 1,300

VISUALIZATION

,

  • विवरण :

COCO डेटासेट में छवियों के आधार पर 3 रेफ़रिंग एक्सप्रेशन डेटासेट का संग्रह। एक रेफ़रिंग एक्सप्रेशन टेक्स्ट का एक टुकड़ा है जो एक छवि में एक अद्वितीय वस्तु का वर्णन करता है। ये डेटासेट मानव रेटर्स को COCO डेटासेट में बाउंडिंग बॉक्स द्वारा चित्रित वस्तुओं को अलग करने के लिए कहकर एकत्र किए जाते हैं।

RefCoco और RefCoco+ काज़ेमज़ादेह और अन्य से हैं। 2014. RefCoco+ अभिव्यक्ति पूरी तरह से उपस्थिति आधारित विवरण हैं, जिसे उन्होंने रैटर्स को स्थान आधारित विवरणों का उपयोग करने से रोककर लागू किया है (उदाहरण के लिए, "दाईं ओर वाला व्यक्ति" RefCoco+ के लिए मान्य विवरण नहीं है)। RefCocoG माओ एट अल से है। 2016, और एनोटेशन प्रक्रिया में अंतर के कारण RefCoco की तुलना में वस्तुओं का अधिक समृद्ध विवरण है। विशेष रूप से, RefCoco को एक इंटरएक्टिव गेम-आधारित सेटिंग में एकत्र किया गया था, जबकि RefCocoG को एक गैर-इंटरैक्टिव सेटिंग में एकत्र किया गया था। औसतन, RefCocoG में प्रति अभिव्यक्ति 8.4 शब्द हैं जबकि RefCoco में 3.5 शब्द हैं।

प्रत्येक डेटासेट में अलग-अलग विभाजन आवंटन होते हैं जो आम तौर पर सभी कागजात में रिपोर्ट किए जाते हैं। RefCoco और RefCoco+ में "testA" और "testB" सेट में क्रमशः केवल लोग और केवल गैर-लोग होते हैं। छवियों को विभिन्न विभाजनों में विभाजित किया गया है। "गूगल" विभाजन में, वस्तुओं, छवियों को नहीं, को ट्रेन और गैर-ट्रेन विभाजन के बीच विभाजित किया जाता है। इसका मतलब यह है कि एक ही छवि ट्रेन और सत्यापन विभाजन दोनों में दिखाई दे सकती है, लेकिन छवि में संदर्भित वस्तुएं दो सेटों के बीच भिन्न होंगी। इसके विपरीत, "अन" और "उमद" ट्रेन, सत्यापन और परीक्षण विभाजन के बीच विभाजन छवियों को विभाजित करते हैं। RefCocoG में, "google" विभाजन में एक प्रामाणिक परीक्षण सेट नहीं है, और सत्यापन सेट को आम तौर पर कागजात में "वैल *" के रूप में रिपोर्ट किया जाता है।

प्रत्येक डेटासेट और विभाजन के लिए आँकड़े ("रेफरी" संदर्भित अभिव्यक्तियों की संख्या है, और "छवियाँ" छवियों की संख्या है):

डाटासेट PARTITION विभाजित करना संदर्भ इमेजिस
refcoco गूगल रेल गाडी 40000 19213
refcoco गूगल वैल 5000 4559
refcoco गूगल परीक्षण 5000 4527
refcoco यूएनसी रेल गाडी 42404 16994
refcoco यूएनसी वैल 3811 1500
refcoco यूएनसी टेस्ट ए 1975 750
refcoco यूएनसी testB 1810 750
रेफकोको+ यूएनसी रेल गाडी 42278 16992
रेफकोको+ यूएनसी वैल 3805 1500
रेफकोको+ यूएनसी टेस्ट ए 1975 750
रेफकोको+ यूएनसी testB 1798 750
refcocog गूगल रेल गाडी 44822 24698
refcocog गूगल वैल 5000 4650
refcocog उम्मद रेल गाडी 42226 21899
refcocog उम्मद वैल 2573 1300
refcocog उम्मद परीक्षण 5023 2600
  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://github.com/lichengunc/refer

  • स्रोत कोड : tfds.datasets.ref_coco.Builder

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : Unknown size

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:

  • https://github.com/lichengunc/ में दिए गए निर्देशों का पालन करें और एनोटेशन और छवियों को डाउनलोड करें, रेपो में निर्दिष्ट डेटा/निर्देशिका से मिलान करें।

  1. https://cocodataset.org/#download से pycocotools और इंस्टेंस_ट्रेन2014 एनोटेशन फ़ाइल प्राप्त करने के लिए https://github.com/cocodataset/cocoapi में PythonAPI के निर्देशों का पालन करें

  2. अपने PYTHONPATH में (1) से रेफर.py और (2) से पाइकोकोटूल दोनों जोड़ें।

  3. refcoco.json उत्पन्न करने के लिए मैन्युअल_डाउनलोड_प्रोसेस चलाएँ, ref_data_root , coco_annotations_file , और out_file को उन मानों से बदलें जहाँ आपने इन फ़ाइलों को डाउनलोड किया है / सहेजना चाहते हैं। ध्यान दें कि मैन्युअल_डाउनलोड_प्रोसेस.py को TFDS रिपॉजिटरी में पाया जा सकता है।

  4. https://cocodataset.org/#download से COCO प्रशिक्षण सेट डाउनलोड करें और इसे coco_train2014/ नामक फ़ोल्डर में चिपका दें। Refcoco.json को refcoco.json के समान स्तर पर ले coco_train2014

  5. मानक मैनुअल डाउनलोड निर्देशों का पालन करें।

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
coco_annotations क्रम
कोको_एनोटेशन/एरिया टेन्सर int64
कोको_एनोटेशन/बीबॉक्स बीबॉक्स फीचर (4,) फ्लोट32
कोको_एनोटेशन/आईडी टेन्सर int64
कोको_एनोटेशन/लेबल टेन्सर int64
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि/आईडी टेन्सर int64
वस्तुओं क्रम
वस्तुओं / क्षेत्र टेन्सर int64
ऑब्जेक्ट्स/बीबॉक्स बीबॉक्स फीचर (4,) फ्लोट32
ऑब्जेक्ट्स/gt_box_index टेन्सर int64
वस्तुओं/आईडी टेन्सर int64
ऑब्जेक्ट्स / लेबल टेन्सर int64
ऑब्जेक्ट्स/रेफेक्स क्रम
ऑब्जेक्ट्स/रेफएक्सपी/रॉ मूलपाठ डोरी
ऑब्जेक्ट्स/रेफएक्सपी/refexp_id टेन्सर int64
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • उद्धरण :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 3.24 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

VISUALIZATION

रेफ_कोको/रेफकोको_गूगल

  • डेटासेट का आकार : 4.60 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,527
'train' 19,213
'validation' 4,559

VISUALIZATION

ref_coco/refcocoplus_unc

  • डेटासेट का आकार : 3.24 GiB

  • विभाजन :

विभाजित करना उदाहरण
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

VISUALIZATION

रेफ_कोको/रेफकोकोग_गूगल

  • डेटासेट का आकार : 4.59 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 24,698
'validation' 4,650

VISUALIZATION

ref_coco/refcocog_umd

  • डेटासेट का आकार : 4.04 GiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,600
'train' 21,899
'validation' 1,300

VISUALIZATION