Sintonize-se com as primeiras mulheres em ML Simpósio esta terça-feira 19 out às 9h PST Register now

ref_coco

  • Descrição:

Uma coleção de 3 conjuntos de dados de expressão de referência baseados em imagens no conjunto de dados COCO. Uma expressão de referência é um trecho de texto que descreve um objeto único em uma imagem. Esses conjuntos de dados são coletados pedindo aos avaliadores humanos que eliminem a ambigüidade de objetos delineados por caixas delimitadoras no conjunto de dados COCO.

RefCoco e RefCoco + são de Kazemzadeh et al. 2014. As expressões RefCoco + são descrições estritamente baseadas na aparência, que são aplicadas evitando que os avaliadores usem descrições baseadas na localização (por exemplo, "pessoa à direita" não é uma descrição válida para RefCoco +). RefCocoG é de Mao et al. 2016, e possui uma descrição de objetos mais rica em comparação ao RefCoco devido às diferenças no processo de anotação. Em particular, RefCoco foi coletado em um ambiente baseado em jogo interativo, enquanto RefCocoG foi coletado em um ambiente não interativo. Em média, RefCocoG tem 8,4 palavras por expressão enquanto RefCoco tem 3,5 palavras.

Cada conjunto de dados tem diferentes alocações de divisão que normalmente são relatadas em jornais. Os conjuntos "testA" e "testB" em RefCoco e RefCoco + contêm apenas pessoas e não pessoas, respectivamente. As imagens são particionadas em várias divisões. Na divisão "google", os objetos, não as imagens, são particionados entre as divisões de trem e não-trem. Isso significa que a mesma imagem pode aparecer na divisão do trem e da validação, mas os objetos que estão sendo referidos na imagem serão diferentes entre os dois conjuntos. Em contraste, o "unc" e o "umd" dividem as imagens de partição entre o trem, a validação e a divisão de teste. No RefCocoG, a divisão "google" não tem um conjunto de teste canônico e o conjunto de validação é normalmente relatado em documentos como "val *".

Estatísticas para cada conjunto de dados e divisão ("refs" é o número de expressões de referência e "imagens" é o número de imagens):

conjunto de dados partição dividir árbitros imagens
refcoco Google Comboio 40.000 19213
refcoco Google val 5000 4559
refcoco Google teste 5000 4527
refcoco un Comboio 42404 16994
refcoco un val 3811 1500
refcoco un testa 1975 750
refcoco un testB 1810 750
refcoco + un Comboio 42278 16992
refcoco + un val 3805 1500
refcoco + un testa 1975 750
refcoco + un testB 1798 750
refcocog Google Comboio 44822 24698
refcocog Google val 5000 4650
refcocog umd Comboio 42226 21899
refcocog umd val 2573 1300
refcocog umd teste 5023 2600
  1. Siga as instruções de PythonAPI em https://github.com/cocodataset/cocoapi para obter pycocotools e as anotações instances_train2014 arquivo a partir de https://cocodataset.org/#download

  2. Adicione refer.py de (1) e pycocotools de (2) ao seu PYTHONPATH.

  3. Execute manual_download_process.py para gerar refcoco.json, substituindo ref_data_root , coco_annotations_file e out_file com os valores correspondentes ao local onde você fez o download / deseja salvar esses arquivos. Observe que manual_download_process.py pode ser encontrado no repositório TFDS.

  4. Faça o download do conjunto de treinamento COCO de https://cocodataset.org/#download e colá-la em uma pasta chamada coco_train2014/ . Mova refcoco.json ao mesmo nível que coco_train2014 .

  5. Siga as instruções padrão de download do manual.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco / refcoco_unc (configuração padrão)

  • Tamanho do conjunto de dados: 3.24 GiB

  • desdobramentos:

Dividir Exemplos
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Visualização

ref_coco / refcoco_google

  • Tamanho do conjunto de dados: 4.60 GiB

  • desdobramentos:

Dividir Exemplos
'test' 4.527
'train' 19.213
'validation' 4.559

Visualização

ref_coco / refcocoplus_unc

  • Tamanho do conjunto de dados: 3.24 GiB

  • desdobramentos:

Dividir Exemplos
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Visualização

ref_coco / refcocog_google

  • Tamanho do conjunto de dados: 4.59 GiB

  • desdobramentos:

Dividir Exemplos
'train' 24.698
'validation' 4.650

Visualização

ref_coco / refcocog_umd

  • Tamanho do conjunto de dados: 4.04 GiB

  • desdobramentos:

Dividir Exemplos
'test' 2.600
'train' 21.899
'validation' 1.300

Visualização