réf_coco

  • Description:

Une collection de 3 ensembles de données d'expression de référence basés sur des images dans l'ensemble de données COCO. Une expression de référence est un morceau de texte qui décrit un objet unique dans une image. Ces ensembles de données sont collectés en demandant à des évaluateurs humains de lever l'ambiguïté des objets délimités par des cadres de délimitation dans l'ensemble de données COCO.

RefCoco et RefCoco+ proviennent de Kazemzadeh et al. 2014. Les expressions RefCoco+ sont strictement des descriptions basées sur l'apparence, qu'elles appliquent en empêchant les évaluateurs d'utiliser des descriptions basées sur l'emplacement (par exemple, "personne à droite" n'est pas une description valide pour RefCoco+). RefCocoG est de Mao et al. 2016, et a une description plus riche des objets par rapport à RefCoco en raison des différences dans le processus d'annotation. En particulier, RefCoco a été collecté dans un cadre interactif basé sur le jeu, tandis que RefCocoG a été collecté dans un cadre non interactif. En moyenne, RefCocoG a 8,4 mots par expression tandis que RefCoco a 3,5 mots.

Chaque ensemble de données a des allocations fractionnées différentes qui sont généralement toutes rapportées dans des articles. Les ensembles "testA" et "testB" dans RefCoco et RefCoco+ contiennent respectivement uniquement des personnes et uniquement des non-personnes. Les images sont divisées en différentes divisions. Dans la division "google", les objets, et non les images, sont partitionnés entre les divisions train et non-train. Cela signifie que la même image peut apparaître à la fois dans le train et dans la division de validation, mais les objets auxquels il est fait référence dans l'image seront différents entre les deux ensembles. En revanche, "unc" et "umd" divisent les images de partition entre le train, la validation et la division de test. Dans RefCocoG, la division "google" n'a pas d'ensemble de test canonique, et l'ensemble de validation est généralement signalé dans les articles comme "val*".

Statistiques pour chaque ensemble de données et division ("refs" est le nombre d'expressions de référence, et "images" est le nombre d'images) :

base de données cloison diviser réf images
refcoco Google former 40000 19213
refcoco Google val 5000 4559
refcoco Google test 5000 4527
refcoco unc former 42404 16994
refcoco unc val 3811 1500
refcoco unc testA 1975 750
refcoco unc testB 1810 750
refcoco+ unc former 42278 16992
refcoco+ unc val 3805 1500
refcoco+ unc testA 1975 750
refcoco+ unc testB 1798 750
refcocog Google former 44822 24698
refcocog Google val 5000 4650
refcocog umd former 42226 21899
refcocog umd val 2573 1300
refcocog umd test 5023 2600
  • Page d' accueil: https://github.com/lichengunc/refer

  • Code source: tfds.vision_language.refcoco.RefCoco

  • versions:

    • 1.0.0 (par défaut): Version initiale.
  • Taille du téléchargement: Unknown size

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):

  • Suivez les instructions https://github.com/lichengunc/refer et télécharger les annotations et les images, les données correspondant / répertoire spécifié dans le repo.

  1. Suivez les instructions de PythonAPI à https://github.com/cocodataset/cocoapi pour obtenir pycocotools et le fichier des annotations instances_train2014 de https://cocodataset.org/#download

  2. Ajoutez à la fois refer.py de (1) et pycocotools de (2) à votre PYTHONPATH.

  3. Exécutez manual_download_process.py pour générer refcoco.json, en remplacement ref_data_root , coco_annotations_file et out_file avec les valeurs correspondant à l' endroit où vous avez téléchargé / souhaitez enregistrer ces fichiers. Notez que manual_download_process.py se trouve dans le référentiel TFDS.

  4. Télécharger le jeu de la formation de COCO de https://cocodataset.org/#download et le coller dans un dossier appelé coco_train2014/ . Déplacer refcoco.json au même niveau que coco_train2014 .

  5. Suivez les instructions de téléchargement manuel standard.

  • Mis en cache automatique ( documentation ): Non

  • Caractéristiques:

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configuration par défaut)

  • Taille Dataset: 3.24 GiB

  • scissions:

Diviser Exemples
'testA' 750
'testB' 750
'train' 16 994
'validation' 1 500

Visualisation

ref_coco/refcoco_google

  • Taille Dataset: 4.60 GiB

  • scissions:

Diviser Exemples
'test' 4 527
'train' 19 213
'validation' 4 559

Visualisation

ref_coco/refcocoplus_unc

  • Taille Dataset: 3.24 GiB

  • scissions:

Diviser Exemples
'testA' 750
'testB' 750
'train' 16 992
'validation' 1 500

Visualisation

ref_coco/refcocog_google

  • Taille Dataset: 4.59 GiB

  • scissions:

Diviser Exemples
'train' 24 698
'validation' 4 650

Visualisation

ref_coco/refcocog_umd

  • Taille Dataset: 4.04 GiB

  • scissions:

Diviser Exemples
'test' 2 600
'train' 21 899
'validation' 1 300

Visualisation