Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

ref_coco

  • Описание:

Коллекция из 3 наборов данных ссылающихся выражений, основанных на изображениях в наборе данных COCO. Ссылающееся выражение - это фрагмент текста, который описывает уникальный объект на изображении. Эти наборы данных собираются путем запроса людей-оценщиков для устранения неоднозначности объектов, очерченных ограничивающими рамками в наборе данных COCO.

RefCoco и RefCoco + взяты из Kazemzadeh et al. 2014. Выражения RefCoco + - это строго описания, основанные на внешнем виде, которые они применяют, не позволяя оценщикам использовать описания на основе местоположения (например, «человек справа» не является допустимым описанием для RefCoco +). RefCocoG взято из Mao et al. 2016, и имеет более подробное описание объектов по сравнению с RefCoco из-за различий в процессе аннотации. В частности, RefCoco был собран в интерактивной игровой среде, а RefCocoG был собран в неинтерактивной среде. В среднем RefCocoG содержит 8,4 слова на выражение, а RefCoco - 3,5 слова.

Каждый набор данных имеет разные распределения, о которых обычно сообщают в документах. Наборы testA и testB в RefCoco и RefCoco + содержат только людей и только не людей соответственно. Изображения делятся на различные части. В разделении "google" объекты, а не изображения, разделяются между разделами "поезд" и "не поезд". Это означает, что одно и то же изображение может появиться как в разделении поездов, так и в проверке, но объекты, на которые ссылается изображение, будут разными в двух наборах. Напротив, «unc» и «umd» разделяют образы разделов между поездом, проверкой и тестовым разделением. В RefCocoG разделение "google" не имеет канонического набора тестов, а набор проверки обычно указывается в документах как "val *".

Статистика для каждого набора данных и каждого разделения («refs» - это количество ссылающихся выражений, а «images» - количество изображений):

набор данных перегородка расколоть реф. изображений
Refcoco Google тренироваться 40000 19213
Refcoco Google валентинка 5000 4559
Refcoco Google тестовое задание 5000 4527
Refcoco unc тренироваться 42404 16994
Refcoco unc валентинка 3811 1500
Refcoco unc testA 1975 г. 750
Refcoco unc testB 1810 г. 750
refcoco + unc тренироваться 42278 16992
refcoco + unc валентинка 3805 1500
refcoco + unc testA 1975 г. 750
refcoco + unc testB 1798 750
refcocog Google тренироваться 44822 24698
refcocog Google вал 5000 4650
refcocog умд тренироваться 42226 21899
refcocog умд вал 2573 1300
refcocog умд тестовое задание 5023 2600
  • Домашняя страница: https://github.com/lichengunc/refer

  • Исходный код: tfds.vision_language.refcoco.RefCoco

  • Версии:

    • 1.0.0 ( по умолчанию): Первый выпуск.
  • Размер загрузки: Unknown size

  • Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в download_config.manual_dir ( по умолчанию ~/tensorflow_datasets/downloads/manual/ ):

  • Следуйте инструкции в https://github.com/lichengunc/refer и загрузить аннотации и изображения, соответствующие данные / каталог , указанный в репо.

  1. Следуйте инструкциям PythonAPI в https://github.com/cocodataset/cocoapi , чтобы получить pycocotools и instances_train2014 аннотаций файл из https://cocodataset.org/#download

  2. Добавьте в PYTHONPATH как файл refer.py из (1), так и pycocotools из (2).

  3. Запуск manual_download_process.py для создания refcoco.json, заменив ref_data_root , coco_annotations_file и out_file со значениями соответствующих где вы загрузили / хотите сохранить эти файлы. Обратите внимание, что manual_download_process.py можно найти в репозитории TFDS.

  4. Скачать COCO обучающий набор из https://cocodataset.org/#download и вставить его в папку под названием coco_train2014/ . Перемещение refcoco.json на тот же уровень, coco_train2014 .

  5. Следуйте стандартным инструкциям по загрузке вручную.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco / refcoco_unc (конфигурация по умолчанию)

  • Dataset Размер: 3.24 GiB

  • расколы:

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 994
'validation' 1,500

Визуализация

ref_coco / refcoco_google

  • Dataset Размер: 4.60 GiB

  • расколы:

Расколоть Примеры
'test' 4,527
'train' 19 213
'validation' 4,559

Визуализация

ref_coco / refcocoplus_unc

  • Dataset Размер: 3.24 GiB

  • расколы:

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 992
'validation' 1,500

Визуализация

ref_coco / refcocog_google

  • Dataset Размер: 4.59 GiB

  • расколы:

Расколоть Примеры
'train' 24 698
'validation' 4650

Визуализация

ref_coco / refcocog_umd

  • Dataset Размер: 4.04 GiB

  • расколы:

Расколоть Примеры
'test' 2600
'train' 21 899
'validation' 1,300

Визуализация