gref

  • Description:

L'ensemble de données Google RefExp est une collection de descriptions textuelles d'objets dans des images qui s'appuie sur l'ensemble de données MS-COCO accessible au public. Alors que les légendes des images dans MS-COCO s'appliquent à l'image entière, cet ensemble de données se concentre sur les descriptions textuelles qui permettent d'identifier de manière unique un seul objet ou une seule région dans une image. Voir plus de détails dans cet article : Génération et compréhension de descriptions d'objets sans ambiguïté.

  • Page d' accueil: https://github.com/mjhucla/Google_Refexp_toolbox

  • Code source: tfds.vision_language.gref.Gref

  • versions:

    • 1.0.0 (par défaut): Version initiale.
  • Taille du téléchargement: Unknown size

  • Taille Dataset: 4.60 GiB

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    Suivez les instructions à https://github.com/mjhucla/Google_Refexp_toolbox à télécharger et pré-traiter les données en format aligné avec COCO. Le répertoire contient 2 fichiers et un dossier :

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

Le dossier coco_train2014 contient toutes les images de formation COCO 2014.

Diviser Exemples
'train' 24 698
'validation' 4 650
  • Caractéristiques:
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
        'label_name': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'referent': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
            'tokens': Sequence(Text(shape=(), dtype=tf.string)),
        }),
    }),
})

Visualisation

  • citation:
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}