coco_légendes

COCO est un ensemble de données de détection, de segmentation et de sous-titrage d'objets à grande échelle. Cette version contient des images, des cadres de délimitation, des étiquettes et des légendes de COCO 2014, divisés en sous-ensembles définis par Karpathy et Li (2015). Cela divise efficacement les données de validation COCO 2014 d'origine en de nouveaux ensembles de validation et de test de 5000 images, plus un ensemble "restval" contenant les ~30 000 images restantes. Toutes les divisions ont des annotations de légende.

Diviser Exemples
'restval' 30 504
'test' 5 000
'train' 82 783
'val' 5 000
  • Structure des fonctionnalités :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
légendes Séquence
légendes/identifiant Tenseur int64
légendes/texte Tenseur chaîne de caractères
image Image (Aucun, Aucun, 3) uint8
image/nom de fichier Texte chaîne de caractères
image/identifiant Tenseur int64
objets Séquence
objets/zone Tenseur int64
objets/bbox BBoxFeature (4,) float32
objets/identifiant Tenseur int64
objets/is_crowd Tenseur bourdonner
objets/étiquette Étiquette de classe int64

Visualisation

  • Citation :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (configuration par défaut)