coco_captions

COCO یک مجموعه داده شناسایی، تقسیم بندی و زیرنویس در مقیاس بزرگ است. این نسخه شامل تصاویر، جعبه‌های محدودکننده، برچسب‌ها و شرح‌ها از COCO 2014 است که به زیر مجموعه‌های تعریف‌شده توسط Karpathy و Li (2015) تقسیم شده‌اند. این به طور موثر داده های اعتبارسنجی COCO 2014 اصلی را به مجموعه های آزمایشی و اعتبارسنجی 5000 تصویری جدید، به علاوه یک مجموعه "بازنشانی" حاوی 30 هزار تصویر باقی مانده تقسیم می کند. همه تقسیم‌بندی‌ها حاشیه‌نویسی دارند.

شکاف مثال ها
'restval' 30,504
'test' 5000
'train' 82783
'val' 5000
  • ساختار ویژگی :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
زیرنویس ها توالی
زیرنویس / شناسه تانسور int64
زیرنویس / متن تانسور رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
تصویر/نام فایل متن رشته
تصویر / شناسه تانسور int64
اشیاء توالی
اشیاء/منطقه تانسور int64
اشیاء/bbox ویژگی BBox (4،) float32
اشیاء / شناسه تانسور int64
اشیاء/is_crowd تانسور بوول
اشیاء/برچسب ClassLabel int64

تجسم

  • نقل قول :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (پیکربندی پیش فرض)