gref

  • Descripción :

El conjunto de datos de Google RefExp es una colección de descripciones de texto de objetos en imágenes que se basa en el conjunto de datos MS-COCO disponible públicamente. Mientras que los títulos de imagen en MS-COCO se aplican a toda la imagen, este conjunto de datos se centra en las descripciones de texto que permiten identificar de forma única un único objeto o región dentro de una imagen. Ver más detalles en este documento: Generación y comprensión de descripciones de objetos inequívocas.

  • Página de inicio: https://github.com/mjhucla/Google_Refexp_toolbox

  • Código fuente : tfds.vision_language.gref.Gref

  • Versiones :

    • 1.0.0 (predeterminado): Versión inicial.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 4.60 GiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    Siga las instrucciones en https://github.com/mjhucla/Google_Refexp_toolbox para descargar y preprocesar los datos en un formato alineado con COCO. El directorio contiene 2 archivos y una carpeta:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_tren2014/

La carpeta coco_train2014 contiene todas las imágenes de entrenamiento de COCO 2014.

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'train' 24,698
'validation' 4,650
  • Características :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
        'label_name': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'referent': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
            'tokens': Sequence(Text(shape=(), dtype=tf.string)),
        }),
    }),
})

Visualización

  • Cita :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}