¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

ref_coco

  • Descripción:

Una colección de 3 conjuntos de datos de expresión de referencia basados ​​en imágenes del conjunto de datos COCO. Una expresión de referencia es un fragmento de texto que describe un objeto único en una imagen. Estos conjuntos de datos se recopilan pidiendo a los evaluadores humanos que eliminen la ambigüedad de los objetos delimitados por cuadros delimitadores en el conjunto de datos COCO.

RefCoco y RefCoco + son de Kazemzadeh et al. 2014. Las expresiones de RefCoco + son descripciones estrictamente basadas en la apariencia, que imponen al evitar que los evaluadores usen descripciones basadas en la ubicación (por ejemplo, "persona a la derecha" no es una descripción válida para RefCoco +). RefCocoG es de Mao et al. 2016, y tiene una descripción más completa de los objetos en comparación con RefCoco debido a las diferencias en el proceso de anotación. En particular, RefCoco se recopiló en un entorno interactivo basado en juegos, mientras que RefCocoG se recopiló en un entorno no interactivo. En promedio, RefCocoG tiene 8.4 palabras por expresión, mientras que RefCoco tiene 3.5 palabras.

Cada conjunto de datos tiene diferentes asignaciones divididas que generalmente se informan en documentos. Los conjuntos "testA" y "testB" en RefCoco y RefCoco + contienen solo personas y solo no personas respectivamente. Las imágenes se dividen en varias divisiones. En la división "google", los objetos, no las imágenes, se dividen entre las divisiones de tren y las que no son de tren. Esto significa que la misma imagen puede aparecer tanto en el tren como en la división de validación, pero los objetos a los que se hace referencia en la imagen serán diferentes entre los dos conjuntos. Por el contrario, "unc" y "umd" divide las imágenes de partición entre el tren, la validación y la división de prueba. En RefCocoG, la división "google" no tiene un conjunto de pruebas canónicas, y el conjunto de validación generalmente se informa en los artículos como "val *".

Estadísticas para cada conjunto de datos y división ("refs" es el número de expresiones de referencia e "imágenes" es el número de imágenes):

conjunto de datos dividir separar refs imagenes
refcoco Google tren 40000 19213
refcoco Google val 5000 4559
refcoco Google prueba 5000 4527
refcoco unc tren 42404 16994
refcoco unc val 3811 1500
refcoco unc testA 1975 750
refcoco unc testB 1810 750
refcoco + unc tren 42278 16992
refcoco + unc val 3805 1500
refcoco + unc testA 1975 750
refcoco + unc testB 1798 750
refcocog Google tren 44822 24698
refcocog Google val 5000 4650
refcocog umd tren 42226 21899
refcocog umd val 2573 1300
refcocog umd prueba 5023 2600
  • Inicio: https://github.com/lichengunc/refer

  • El código fuente: tfds.vision_language.refcoco.RefCoco

  • versiones:

    • 1.0.0 (por defecto): Versión inicial.
  • Tamaño del paquete: Unknown size

  • Las instrucciones de descarga manual: Este conjunto de datos se requiere para descargar los datos de origen manualmente en download_config.manual_dir (por defecto ~/tensorflow_datasets/downloads/manual/ ):

  • Siga las instrucciones de https://github.com/lichengunc/refer y descargar las anotaciones y las imágenes, haciendo coincidir los datos / directorio especificado en el repositorio.

  1. Siga las instrucciones de PythonAPI en https://github.com/cocodataset/cocoapi para obtener pycocotools y las anotaciones instances_train2014 archivo desde https://cocodataset.org/#download

  2. Agregue refer.py de (1) y pycocotools de (2) a su PYTHONPATH.

  3. Manual_download_process.py funcionar para generar refcoco.json, en sustitución de ref_data_root , coco_annotations_file y out_file con los valores correspondientes a donde ha descargado / desee guardar estos archivos. Tenga en cuenta que manual_download_process.py se puede encontrar en el repositorio TFDS.

  4. COCO descargar el conjunto de entrenamiento de https://cocodataset.org/#download y pegarlo en una carpeta llamada coco_train2014/ . Mover refcoco.json al mismo nivel que coco_train2014 .

  5. Siga las instrucciones de descarga del manual estándar.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco / refcoco_unc (configuración predeterminada)

  • Tamaño de conjunto de datos: 3.24 GiB

  • Fraccionamientos:

Separar Ejemplos de
'testA' 750
'testB' 750
'train' 16.994
'validation' 1500

Visualización

ref_coco / refcoco_google

  • Tamaño de conjunto de datos: 4.60 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 4.527
'train' 19,213
'validation' 4.559

Visualización

ref_coco / refcocoplus_unc

  • Tamaño de conjunto de datos: 3.24 GiB

  • Fraccionamientos:

Separar Ejemplos de
'testA' 750
'testB' 750
'train' 16.992
'validation' 1500

Visualización

ref_coco / refcocog_google

  • Tamaño de conjunto de datos: 4.59 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 24,698
'validation' 4.650

Visualización

ref_coco / refcocog_umd

  • Tamaño de conjunto de datos: 4.04 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2600
'train' 21.899
'validation' 1300

Visualización