coco_captions

COCO, büyük ölçekli bir nesne algılama, segmentasyon ve resim yazısı veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere bölünmüş COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini yeni 5000 görüntü doğrulama ve test setlerine ve ayrıca kalan ~ 30k görüntüyü içeren bir "dinlenme" grubuna etkili bir şekilde böler. Tüm bölmelerde altyazı ek açıklamaları bulunur.

  • Yapılandırma açıklaması : Bu sürüm, 2014 sürümü için resimler, sınırlayıcı kutular ve etiketler içerir.

  • Ana sayfa : http://cocodataset.org/#home

  • Kaynak kodu : tfds.object_detection.CocoCaptions

  • Sürümler :

    • 1.1.0 (varsayılan): Sürüm notu yok.
  • İndirme boyutu : 37.61 GiB

  • Veri kümesi boyutu : 18.83 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'restval' 30.504
'test' 5.000
'train' 82.783
'val' 5.000
  • Özellik yapısı :
FeaturesDict({
    'captions': Sequence({
        'id': tf.int64,
        'text': tf.string,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/filename': Text(shape=(), dtype=tf.string),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'is_crowd': tf.bool,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
altyazılar Sekans
başlıklar/kimlik tensör tf.int64
başlıklar/metin tensör tf.string
resim resim (Yok, Yok, 3) tf.uint8
resim/dosya adı Metin tf.string
resim/kimlik tensör tf.int64
nesneler Sekans
nesneler/alan tensör tf.int64
nesneler/bbox BBoxÖzelliği (4,) tf.float32
nesneler/kimlik tensör tf.int64
nesneler/kalabalık tensör tf.bool
nesneler/etiket sınıf etiketi tf.int64
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (varsayılan yapılandırma)