TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

ref_coco

Description :

Une collection de 3 ensembles de données d'expressions de référence basées sur des images de l'ensemble de données COCO. Une expression référente est un morceau de texte qui décrit un objet unique dans une image. Ces ensembles de données sont collectés en demandant aux évaluateurs humains de lever l'ambiguïté des objets délimités par des cadres de délimitation dans l'ensemble de données COCO.

RefCoco et RefCoco+ proviennent de Kazemzadeh et al. 2014. Les expressions RefCoco+ sont des descriptions strictement basées sur l'apparence, qu'elles appliquent en empêchant les évaluateurs d'utiliser des descriptions basées sur la localisation (par exemple, « personne à droite » n'est pas une description valide pour RefCoco+). RefCocoG vient de Mao et al. 2016, et a une description plus riche des objets par rapport à RefCoco en raison des différences dans le processus d'annotation. En particulier, RefCoco a été collecté dans un environnement de jeu interactif, tandis que RefCocoG a été collecté dans un environnement non interactif. En moyenne, RefCocoG compte 8,4 mots par expression tandis que RefCoco compte 3,5 mots.

Chaque ensemble de données comporte différentes allocations fractionnées qui sont généralement toutes rapportées dans des articles. Les ensembles « testA » et « testB » dans RefCoco et RefCoco+ contiennent respectivement uniquement des personnes et uniquement des non-personnes. Les images sont divisées en différentes divisions. Dans la division « Google », les objets, et non les images, sont répartis entre les divisions train et non-train. Cela signifie que la même image peut apparaître à la fois dans la division de train et dans la division de validation, mais les objets auxquels il est fait référence dans l'image seront différents entre les deux ensembles. En revanche, "unc" et "umd" divisent les images de partition entre le train, la validation et le test. Dans RefCocoG, la division « google » n'a pas d'ensemble de test canonique, et l'ensemble de validation est généralement signalé dans les articles comme « val* ».

Statistiques pour chaque ensemble de données et division ("refs" est le nombre d'expressions de référence et "images" est le nombre d'images) :

base de données	cloison	diviser	références	images
refcoco	Google	former	40000	19213
refcoco	Google	Val	5000	4559
refcoco	Google	test	5000	4527
refcoco	unc	former	42404	16994
refcoco	unc	Val	3811	1500
refcoco	unc	testA	1975	750
refcoco	unc	testB	1810	750
refcoco+	unc	former	42278	16992
refcoco+	unc	Val	3805	1500
refcoco+	unc	testA	1975	750
refcoco+	unc	testB	1798	750
refcocog	Google	former	44822	24698
refcocog	Google	Val	5000	4650
refcocog	euh	former	42226	21899
refcocog	euh	Val	2573	1300
refcocog	euh	test	5023	2600

Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://github.com/lichengunc/refer
Code source : tfds.datasets.ref_coco.Builder
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 (par défaut) : Masques ajoutés.
Taille du téléchargement : Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez les données sources manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Suivez les instructions sur https://github.com/lichengunc/refer et téléchargez les annotations et les images, correspondant au répertoire data/ spécifié dans le dépôt.

Suivez les instructions de PythonAPI sur https://github.com/cocodataset/cocoapi pour obtenir pycocotools et le fichier d'annotations instances_train2014 à partir de https://cocodataset.org/#download
Ajoutez à la fois refer.py de (1) et pycocotools de (2) à votre PYTHONPATH.
Exécutez manual_download_process.py pour générer refcoco.json, en remplaçant ref_data_root , coco_annotations_file et out_file par les valeurs correspondant à l'endroit où vous avez téléchargé/souhaitez enregistrer ces fichiers. Notez que manual_download_process.py se trouve dans le référentiel TFDS.
Téléchargez l'ensemble de formation COCO depuis https://cocodataset.org/#download et collez-le dans un dossier appelé coco_train2014/ . Déplacez refcoco.json au même niveau que coco_train2014 .
Suivez les instructions de téléchargement manuel standard.

Mise en cache automatique ( documentation ) : Non
Structure des fonctionnalités :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
coco_annotations	Séquence
coco_annotations/zone	Tenseur		int64
coco_annotations/bbox	Fonctionnalité BBox	(4,)	flotteur32
coco_annotations/id	Tenseur		int64
coco_annotations/étiquette	Tenseur		int64
image	Image	(Aucun, Aucun, 3)	uint8
image/identifiant	Tenseur		int64
objets	Séquence
objets/zone	Tenseur		int64
objets/bbox	Fonctionnalité BBox	(4,)	flotteur32
objets/gt_box_index	Tenseur		int64
objets/identifiant	Tenseur		int64
objets/étiquette	Tenseur		int64
objets/masque	Image	(Aucun, Aucun, 3)	uint8
objets/refexp	Séquence
objets/refexp/brut	Texte		chaîne
objets/refexp/refexp_id	Tenseur		int64

Clés supervisées (Voir doc as_supervised ) : None
Citation :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configuration par défaut)

Taille de l'ensemble de données : 3.29 GiB
Divisions :

Diviser	Exemples
`'testA'`	750
`'testB'`	750
`'train'`	16 994
`'validation'`	1 500

Figure ( tfds.show_examples ) :

Visualisation

Exemples ( tfds.as_dataframe ) :

ref_coco/refcoco_google

Taille du jeu de données : 4.65 GiB
Divisions :

Diviser	Exemples
`'test'`	4 527
`'train'`	19 213
`'validation'`	4 559

Figure ( tfds.show_examples ) :

Visualisation

Exemples ( tfds.as_dataframe ) :

ref_coco/refcocoplus_unc

Taille de l'ensemble de données : 3.29 GiB
Divisions :

Diviser	Exemples
`'testA'`	750
`'testB'`	750
`'train'`	16 992
`'validation'`	1 500

Figure ( tfds.show_examples ) :

Visualisation

Exemples ( tfds.as_dataframe ) :

ref_coco/refcocog_google

Taille de l'ensemble de données : 4.64 GiB
Divisions :

Diviser	Exemples
`'train'`	24 698
`'validation'`	4 650

Figure ( tfds.show_examples ) :

Visualisation

Exemples ( tfds.as_dataframe ) :

ref_coco/refcocog_umd

Taille de l'ensemble de données : 4.08 GiB
Divisions :

Diviser	Exemples
`'test'`	2 600
`'train'`	21 899
`'validation'`	1 300

Figure ( tfds.show_examples ) :

Visualisation

Exemples ( tfds.as_dataframe ) :