- Descriptif :
Une collection de 3 ensembles de données d'expression de référence basés sur des images dans l'ensemble de données COCO. Une expression de référence est un morceau de texte qui décrit un objet unique dans une image. Ces ensembles de données sont collectés en demandant à des évaluateurs humains de lever l'ambiguïté des objets délimités par des cadres de délimitation dans l'ensemble de données COCO.
RefCoco et RefCoco+ proviennent de Kazemzadeh et al. 2014. Les expressions RefCoco+ sont des descriptions strictement basées sur l'apparence, qu'elles ont appliquées en empêchant les évaluateurs d'utiliser des descriptions basées sur l'emplacement (par exemple, « personne à droite » n'est pas une description valide pour RefCoco+). RefCocoG provient de Mao et al. 2016, et a une description plus riche des objets par rapport à RefCoco en raison des différences dans le processus d'annotation. En particulier, RefCoco a été collecté dans un cadre de jeu interactif, tandis que RefCocoG a été collecté dans un cadre non interactif. En moyenne, RefCocoG a 8,4 mots par expression tandis que RefCoco a 3,5 mots.
Chaque ensemble de données a différentes allocations fractionnées qui sont généralement toutes rapportées dans les articles. Les ensembles « testA » et « testB » dans RefCoco et RefCoco+ contiennent respectivement uniquement des personnes et uniquement des non-personnes. Les images sont divisées en différentes divisions. Dans la division "google", les objets, et non les images, sont répartis entre les divisions train et non train. Cela signifie que la même image peut apparaître à la fois dans le train et dans la division de validation, mais les objets auxquels il est fait référence dans l'image seront différents entre les deux ensembles. En revanche, "unc" et "umd" divisent les images de partition entre le train, la validation et la division de test. Dans RefCocoG, la division "google" n'a pas d'ensemble de test canonique, et l'ensemble de validation est généralement signalé dans les articles comme "val*".
Statistiques pour chaque jeu de données et division ("refs" est le nombre d'expressions de référence et "images" est le nombre d'images) :
base de données | cloison | diviser | réfs | images |
---|---|---|---|---|
refcoco | train | 40000 | 19213 | |
refcoco | val | 5000 | 4559 | |
refcoco | test | 5000 | 4527 | |
refcoco | non | train | 42404 | 16994 |
refcoco | non | val | 3811 | 1500 |
refcoco | non | testA | 1975 | 750 |
refcoco | non | testB | 1810 | 750 |
refcoco+ | non | train | 42278 | 16992 |
refcoco+ | non | val | 3805 | 1500 |
refcoco+ | non | testA | 1975 | 750 |
refcoco+ | non | testB | 1798 | 750 |
refcocog | train | 44822 | 24698 | |
refcocog | val | 5000 | 4650 | |
refcocog | euh | train | 42226 | 21899 |
refcocog | euh | val | 2573 | 1300 |
refcocog | euh | test | 5023 | 2600 |
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/lichengunc/refer
Code source :
tfds.datasets.ref_coco.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :Suivez les instructions de https://github.com/lichengunc/refer et téléchargez les annotations et les images, correspondant au répertoire data/ spécifié dans le repo.
Suivez les instructions de PythonAPI dans https://github.com/cocodataset/cocoapi pour obtenir pycocotools et le fichier d'annotations instances_train2014 à partir de https://cocodataset.org/#download
Ajoutez à la fois refer.py de (1) et pycocotools de (2) à votre PYTHONPATH.
Exécutez manual_download_process.py pour générer refcoco.json, en remplaçant
ref_data_root
,coco_annotations_file
etout_file
par les valeurs correspondant à l'endroit où vous avez téléchargé/souhaitez enregistrer ces fichiers. Notez que manual_download_process.py se trouve dans le référentiel TFDS.Téléchargez l'ensemble de formation COCO à partir de https://cocodataset.org/#download et collez-le dans un dossier appelé
coco_train2014/
. Déplacezrefcoco.json
au même niveau quecoco_train2014
.Suivez les instructions standard de téléchargement du manuel.
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
coco_annotations | Séquence | |||
coco_annotations/zone | Tenseur | int64 | ||
coco_annotations/bbox | BBoxFeature | (4,) | float32 | |
coco_annotations/id | Tenseur | int64 | ||
coco_annotations/étiquette | Tenseur | int64 | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
image/identifiant | Tenseur | int64 | ||
objets | Séquence | |||
objets/zone | Tenseur | int64 | ||
objets/bbox | BBoxFeature | (4,) | float32 | |
objets/gt_box_index | Tenseur | int64 | ||
objets/identifiant | Tenseur | int64 | ||
objets/étiquette | Tenseur | int64 | ||
objets/refexp | Séquence | |||
objets/refexp/brut | Texte | chaîne de caractères | ||
objets/refexp/refexp_id | Tenseur | int64 |
Clés supervisées (Voir
as_supervised
doc ):None
Citation :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (configuration par défaut)
Taille du jeu de données :
3.24 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 994 |
'validation' | 1 500 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcoco_google
Taille du jeu de données :
4.60 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 527 |
'train' | 19 213 |
'validation' | 4 559 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Taille du jeu de données :
3.24 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 992 |
'validation' | 1 500 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocog_google
Taille du jeu de données :
4.59 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 24 698 |
'validation' | 4 650 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Taille du jeu de données :
4.04 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 600 |
'train' | 21 899 |
'validation' | 1 300 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
- Descriptif :
Une collection de 3 ensembles de données d'expression de référence basés sur des images dans l'ensemble de données COCO. Une expression de référence est un morceau de texte qui décrit un objet unique dans une image. Ces ensembles de données sont collectés en demandant à des évaluateurs humains de lever l'ambiguïté des objets délimités par des cadres de délimitation dans l'ensemble de données COCO.
RefCoco et RefCoco+ proviennent de Kazemzadeh et al. 2014. Les expressions RefCoco+ sont des descriptions strictement basées sur l'apparence, qu'elles ont appliquées en empêchant les évaluateurs d'utiliser des descriptions basées sur l'emplacement (par exemple, « personne à droite » n'est pas une description valide pour RefCoco+). RefCocoG provient de Mao et al. 2016, et a une description plus riche des objets par rapport à RefCoco en raison des différences dans le processus d'annotation. En particulier, RefCoco a été collecté dans un cadre de jeu interactif, tandis que RefCocoG a été collecté dans un cadre non interactif. En moyenne, RefCocoG a 8,4 mots par expression tandis que RefCoco a 3,5 mots.
Chaque ensemble de données a différentes allocations fractionnées qui sont généralement toutes rapportées dans les articles. Les ensembles « testA » et « testB » dans RefCoco et RefCoco+ contiennent respectivement uniquement des personnes et uniquement des non-personnes. Les images sont divisées en différentes divisions. Dans la division "google", les objets, et non les images, sont répartis entre les divisions train et non train. Cela signifie que la même image peut apparaître à la fois dans le train et dans la division de validation, mais les objets auxquels il est fait référence dans l'image seront différents entre les deux ensembles. En revanche, "unc" et "umd" divisent les images de partition entre le train, la validation et la division de test. Dans RefCocoG, la division "google" n'a pas d'ensemble de test canonique, et l'ensemble de validation est généralement signalé dans les articles comme "val*".
Statistiques pour chaque jeu de données et division ("refs" est le nombre d'expressions de référence et "images" est le nombre d'images) :
base de données | cloison | diviser | réfs | images |
---|---|---|---|---|
refcoco | train | 40000 | 19213 | |
refcoco | val | 5000 | 4559 | |
refcoco | test | 5000 | 4527 | |
refcoco | non | train | 42404 | 16994 |
refcoco | non | val | 3811 | 1500 |
refcoco | non | testA | 1975 | 750 |
refcoco | non | testB | 1810 | 750 |
refcoco+ | non | train | 42278 | 16992 |
refcoco+ | non | val | 3805 | 1500 |
refcoco+ | non | testA | 1975 | 750 |
refcoco+ | non | testB | 1798 | 750 |
refcocog | train | 44822 | 24698 | |
refcocog | val | 5000 | 4650 | |
refcocog | euh | train | 42226 | 21899 |
refcocog | euh | val | 2573 | 1300 |
refcocog | euh | test | 5023 | 2600 |
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/lichengunc/refer
Code source :
tfds.datasets.ref_coco.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :Suivez les instructions de https://github.com/lichengunc/refer et téléchargez les annotations et les images, correspondant au répertoire data/ spécifié dans le repo.
Suivez les instructions de PythonAPI dans https://github.com/cocodataset/cocoapi pour obtenir pycocotools et le fichier d'annotations instances_train2014 à partir de https://cocodataset.org/#download
Ajoutez à la fois refer.py de (1) et pycocotools de (2) à votre PYTHONPATH.
Exécutez manual_download_process.py pour générer refcoco.json, en remplaçant
ref_data_root
,coco_annotations_file
etout_file
par les valeurs correspondant à l'endroit où vous avez téléchargé/souhaitez enregistrer ces fichiers. Notez que manual_download_process.py se trouve dans le référentiel TFDS.Téléchargez l'ensemble de formation COCO à partir de https://cocodataset.org/#download et collez-le dans un dossier appelé
coco_train2014/
. Déplacezrefcoco.json
au même niveau quecoco_train2014
.Suivez les instructions standard de téléchargement du manuel.
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
coco_annotations | Séquence | |||
coco_annotations/zone | Tenseur | int64 | ||
coco_annotations/bbox | BBoxFeature | (4,) | float32 | |
coco_annotations/id | Tenseur | int64 | ||
coco_annotations/étiquette | Tenseur | int64 | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
image/identifiant | Tenseur | int64 | ||
objets | Séquence | |||
objets/zone | Tenseur | int64 | ||
objets/bbox | BBoxFeature | (4,) | float32 | |
objets/gt_box_index | Tenseur | int64 | ||
objets/identifiant | Tenseur | int64 | ||
objets/étiquette | Tenseur | int64 | ||
objets/refexp | Séquence | |||
objets/refexp/brut | Texte | chaîne de caractères | ||
objets/refexp/refexp_id | Tenseur | int64 |
Clés supervisées (Voir
as_supervised
doc ):None
Citation :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (configuration par défaut)
Taille du jeu de données :
3.24 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 994 |
'validation' | 1 500 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcoco_google
Taille du jeu de données :
4.60 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 4 527 |
'train' | 19 213 |
'validation' | 4 559 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Taille du jeu de données :
3.24 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 992 |
'validation' | 1 500 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocog_google
Taille du jeu de données :
4.59 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 24 698 |
'validation' | 4 650 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Taille du jeu de données :
4.04 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 600 |
'train' | 21 899 |
'validation' | 1 300 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):