gref

  • বর্ণনা :

Google RefExp ডেটাসেট হল ইমেজে বস্তুর পাঠ্য বিবরণের একটি সংগ্রহ যা সর্বজনীনভাবে উপলব্ধ MS-COCO ডেটাসেটের উপর তৈরি করে। যেখানে MS-COCO-তে ছবির ক্যাপশনগুলি সম্পূর্ণ চিত্রের জন্য প্রযোজ্য, এই ডেটাসেটটি পাঠ্যের বর্ণনাগুলিতে ফোকাস করে যা একটি চিত্রের মধ্যে একটি একক বস্তু বা অঞ্চলকে অনন্যভাবে সনাক্ত করতে দেয়। এই কাগজে আরও বিশদ দেখুন: দ্ব্যর্থহীন বস্তুর বিবরণের জেনারেশন এবং কম্প্রিহেনশন।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://github.com/mjhucla/Google_Refexp_toolbox

  • সোর্স কোড : tfds.vision_language.gref.Gref

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড আকার : Unknown size

  • ডেটাসেটের আকার : 4.60 GiB

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    COCO এর সাথে সারিবদ্ধ বিন্যাসে ডেটা ডাউনলোড এবং প্রি-প্রসেস করতে https://github.com/mjhucla/Google_Refexp_toolbox- এ নির্দেশাবলী অনুসরণ করুন। ডিরেক্টরিটিতে 2টি ফাইল এবং একটি ফোল্ডার রয়েছে:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

coco_train2014 ফোল্ডারে COCO 2014 প্রশিক্ষণের সমস্ত ছবি রয়েছে৷

বিভক্ত উদাহরণ
'train' 24,698
'validation' 4,650
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ইমেজ ছবি (কোনটিই নয়, 3) uint8
ছবি/আইডি টেনসর int64
বস্তু ক্রম
বস্তু/ক্ষেত্র টেনসর int64
বস্তু/bbox বিবক্স ফিচার (৪,) float32
বস্তু/আইডি টেনসর int64
বস্তু/লেবেল টেনসর int64
বস্তু/লেবেল_নাম ক্লাসলেবেল int64
অবজেক্ট/রিফেক্স ক্রম
অবজেক্ট/রিফেক্স/কাচা পাঠ্য স্ট্রিং
অবজেক্ট/রিফেক্স/রেফারেন্ট পাঠ্য স্ট্রিং
objects/refexp/refexp_id টেনসর int64
অবজেক্ট/রিফেক্স/টোকেন ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং

ভিজ্যুয়ালাইজেশন

  • উদ্ধৃতি :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}