گرف

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

مجموعه داده Google RefExp مجموعه ای از توصیفات متنی اشیاء در تصاویر است که بر اساس مجموعه داده MS-COCO در دسترس عموم است. در حالی که زیرنویس‌های تصویر در MS-COCO برای کل تصویر اعمال می‌شوند، این مجموعه داده بر روی توضیحات متنی تمرکز دارد که به فرد امکان می‌دهد به طور منحصربه‌فردی یک شی یا منطقه را در یک تصویر شناسایی کند. جزئیات بیشتر را در این مقاله ببینید: تولید و درک توضیحات اشیاء بدون ابهام.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/mjhucla/Google_Refexp_toolbox

  • کد منبع : tfds.vision_language.gref.Gref

  • نسخه ها :

    • 1.0.0 (پیش فرض): انتشار اولیه.
  • اندازه دانلود : Unknown size

  • حجم مجموعه داده : 4.60 GiB

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    دستورالعمل‌های https://github.com/mjhucla/Google_Refexp_toolbox را برای دانلود و پیش پردازش داده‌ها در قالب تراز با COCO دنبال کنید. دایرکتوری شامل 2 فایل و یک پوشه است:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

پوشه coco_train2014 شامل تمامی تصاویر آموزشی COCO 2014 می باشد.

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 24698
'validation' 4650
  • ساختار ویژگی :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تصویر تصویر (هیچ، هیچ، 3) uint8
تصویر / شناسه تانسور int64
اشیاء توالی
اشیاء/منطقه تانسور int64
اشیاء/bbox ویژگی BBox (4،) float32
اشیاء / شناسه تانسور int64
اشیاء/برچسب تانسور int64
اشیاء/label_name ClassLabel int64
اشیاء/refexp توالی
اشیاء/refexp/raw متن رشته
اشیاء/refexp/مرجع متن رشته
objects/refexp/refexp_id تانسور int64
اشیاء/refexp/tokens دنباله (متن) (هیچ یک،) رشته

تجسم

  • نقل قول :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}