ref_coco

  • Descrição :

Uma coleção de três conjuntos de dados de expressão de referência baseados em imagens do conjunto de dados COCO. Uma expressão de referência é um pedaço de texto que descreve um objeto único em uma imagem. Esses conjuntos de dados são coletados pedindo aos avaliadores humanos que desambiguam objetos delineados por caixas delimitadoras no conjunto de dados COCO.

RefCoco e RefCoco+ são de Kazemzadeh et al. 2014. As expressões RefCoco+ são descrições estritamente baseadas na aparência, que são aplicadas evitando que os avaliadores usem descrições baseadas em localização (por exemplo, "pessoa à direita" não é uma descrição válida para RefCoco+). RefCocoG é de Mao et al. 2016, e possui descrição de objetos mais rica em comparação ao RefCoco devido a diferenças no processo de anotação. Em particular, o RefCoco foi coletado em um ambiente interativo baseado em jogos, enquanto o RefCocoG foi coletado em um ambiente não interativo. Em média, o RefCocoG possui 8,4 palavras por expressão, enquanto o RefCoco possui 3,5 palavras.

Cada conjunto de dados tem diferentes alocações divididas que normalmente são relatadas em artigos científicos. Os conjuntos "testA" e "testB" em RefCoco e RefCoco+ contêm apenas pessoas e apenas não-pessoas, respectivamente. As imagens são particionadas em várias divisões. Na divisão "google", os objetos, e não as imagens, são particionados entre as divisões de trem e não-trem. Isso significa que a mesma imagem pode aparecer tanto na divisão de treinamento quanto na de validação, mas os objetos mencionados na imagem serão diferentes entre os dois conjuntos. Em contraste, "unc" e "umd" dividem imagens de partição entre treinamento, validação e divisão de teste. No RefCocoG, a divisão "google" não possui um conjunto de testes canônicos, e o conjunto de validação é normalmente relatado em artigos como "val*".

Estatísticas para cada conjunto de dados e divisão ("refs" é o número de expressões de referência e "images" é o número de imagens):

conjunto de dados partição dividir árbitros imagens
refcoco Google trem 40.000 19213
refcoco Google valor 5.000 4559
refcoco Google teste 5.000 4527
refcoco unc trem 42404 16994
refcoco unc valor 3811 1500
refcoco unc testa 1975 750
refcoco unc testeB 1810 750
refcoco+ unc trem 42278 16992
refcoco+ unc valor 3805 1500
refcoco+ unc testa 1975 750
refcoco+ unc testeB 1798 750
refcocog Google trem 44822 24698
refcocog Google valor 5.000 4650
refcocog humm trem 42226 21899
refcocog humm valor 2573 1300
refcocog humm teste 5023 2600
  1. Siga as instruções do PythonAPI em https://github.com/cocodataset/cocoapi para obter pycocotools e o arquivo de anotações instances_train2014 em https://cocodataset.org/#download

  2. Adicione refer.py de (1) e pycocotools de (2) ao seu PYTHONPATH.

  3. Execute manual_download_process.py para gerar refcoco.json, substituindo ref_data_root , coco_annotations_file e out_file pelos valores correspondentes a onde você baixou/deseja salvar esses arquivos. Observe que manual_download_process.py pode ser encontrado no repositório TFDS.

  4. Baixe o conjunto de treinamento COCO em https://cocodataset.org/#download e cole-o em uma pasta chamada coco_train2014/ . Mova refcoco.json para o mesmo nível que coco_train2014 .

  5. Siga as instruções padrão de download do manual.

  • Armazenado em cache automaticamente ( documentação ): Não

  • Estrutura de recursos :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
coco_annotations Seqüência
coco_annotations/área Tensor int64
coco_annotations/bbox BBoxFeature (4,) float32
coco_annotations/id Tensor int64
coco_annotations/rótulo Tensor int64
imagem Imagem (Nenhum, Nenhum, 3) uint8
imagem/id Tensor int64
objetos Seqüência
objetos/área Tensor int64
objetos/bbox BBoxFeature (4,) float32
objetos/gt_box_index Tensor int64
objetos/id Tensor int64
objetos/rótulo Tensor int64
objetos/máscara Imagem (Nenhum, Nenhum, 3) uint8
objetos/refexp Seqüência
objetos/refexp/raw Texto corda
objetos/refexp/refexp_id Tensor int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (configuração padrão)

  • Tamanho do conjunto de dados : 3.29 GiB

  • Divisões :

Dividir Exemplos
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Visualização

ref_coco/refcoco_google

  • Tamanho do conjunto de dados : 4.65 GiB

  • Divisões :

Dividir Exemplos
'test' 4.527
'train' 19.213
'validation' 4.559

Visualização

ref_coco/refcocoplus_unc

  • Tamanho do conjunto de dados : 3.29 GiB

  • Divisões :

Dividir Exemplos
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Visualização

ref_coco/refcocog_google

  • Tamanho do conjunto de dados : 4.64 GiB

  • Divisões :

Dividir Exemplos
'train' 24.698
'validation' 4.650

Visualização

ref_coco/refcocog_umd

  • Tamanho do conjunto de dados : 4.08 GiB

  • Divisões :

Dividir Exemplos
'test' 2.600
'train' 21.899
'validation' 1.300

Visualização