O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

gref

  • Descrição:

O conjunto de dados Google RefExp é uma coleção de descrições de texto de objetos em imagens que se baseia no conjunto de dados MS-COCO disponível publicamente. Enquanto as legendas das imagens no MS-COCO se aplicam a toda a imagem, este conjunto de dados concentra-se em descrições de texto que permitem identificar de forma única um único objeto ou região dentro de uma imagem. Veja mais detalhes neste artigo: Geração e compreensão de descrições inequívocas de objetos.

  • Homepage: https://github.com/mjhucla/Google_Refexp_toolbox

  • O código-fonte: tfds.vision_language.gref.Gref

  • versões:

    • 1.0.0 (padrão): Versão inicial.
  • Tamanho do download: Unknown size

  • Tamanho do conjunto de dados: 4.60 GiB

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Siga as instruções no https://github.com/mjhucla/Google_Refexp_toolbox para baixar e pré-processar os dados em formato alinhado com COCO. O diretório contém 2 arquivos e uma pasta:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014 /

A pasta coco_train2014 contém todas as imagens de treinamento COCO 2014.

Dividir Exemplos
'train' 24.698
'validation' 4.650
  • Características:
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
        'label_name': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'referent': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
            'tokens': Sequence(Text(shape=(), dtype=tf.string)),
        }),
    }),
})

Visualização

  • citação:
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}