ref_coco

  • 説明

COCOデータセット内の画像に基づく3つの参照式データセットのコレクション。参照式は、画像内の一意のオブジェクトを説明するテキストです。これらのデータセットは、COCOデータセットの境界ボックスで囲まれたオブジェクトを明確にするように人間の評価者に依頼することによって収集されます。

RefCocoおよびRefCoco +は、Kazemzadeh他によるものです。 2014. RefCoco +式は厳密に外観ベースの説明であり、評価者が場所ベースの説明を使用できないようにすることで適用されます(たとえば、「右側の人」はRefCoco +の有効な説明ではありません)。 RefCocoGはMaoらによるものです。 2016年であり、注釈プロセスの違いにより、RefCocoと比較してオブジェクトの説明が豊富です。特に、RefCocoはインタラクティブなゲームベースの設定で収集されましたが、RefCocoGは非インタラクティブな設定で収集されました。平均して、RefCocoGの表現あたりの単語数は8.4語ですが、RefCocoの単語数は3.5語です。

各データセットには異なる分割割り当てがあり、通常はすべて論文で報告されます。 RefCocoおよびRefCoco +の「testA」および「testB」セットには、それぞれ人のみおよび非人のみが含まれます。画像はさまざまな分割に分割されます。 「グーグル」分割では、画像ではなくオブジェクトが列車分割と非列車分割の間で分割されます。これは、トレイン分割と検証分割の両方で同じ画像が表示される可能性があることを意味しますが、画像で参照されるオブジェクトは2つのセット間で異なります。対照的に、「unc」と「umd」は、トレイン、検証、およびテスト分割の間でパーティションイメージを分割します。 RefCocoGでは、「google」分割には正規のテストセットがなく、検証セットは通常、論文では「val *」として報告されます。

各データセットと分割の統計(「refs」は参照式の数、「images」は画像の数):

データセットパーティションスプリットrefs画像
refcocoグーグル訓練40000 19213
refcocoグーグルval 5000 4559
refcocoグーグルテスト5000 4527
refcoco unc訓練42404 16994
refcoco unc val 3811 1500
refcoco unc testA 1975 750
refcoco unc testB 1810年750
refcoco + unc訓練42278 16992
refcoco + unc val 3805 1500
refcoco + unc testA 1975 750
refcoco + unc testB 1798年750
refcocogグーグル訓練44822 24698
refcocogグーグルval 5000 4650
refcocog umd訓練42226 21899
refcocog umd val 2573 1300
refcocog umdテスト5023 2600
  • ホームページhttps://github.com/lichengunc/refer

  • ソースコードtfds.vision_language.refcoco.RefCoco

  • バージョン

    • 1.0.0 (デフォルト):初期リリース。
  • ダウンロードサイズUnknown size

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):

  • 指示に従ってくださいhttps://github.com/lichengunc/referをレポで指定されたデータ/ディレクトリをマッチングし、注釈や画像をダウンロードしてください。

  1. でPythonAPIの指示に従ってくださいhttps://github.com/cocodataset/cocoapiからpycocotoolsとinstances_train2014注釈ファイルを取得するためにhttps://cocodataset.org/#download

  2. (1)のrefer.pyと(2)のpycocotoolsの両方をPYTHONPATHに追加します。

  3. refcoco.jsonを生成するために実行manual_download_process.pyは、交換ref_data_rootcoco_annotations_file 、およびout_fileダウンロードした場所に対応する値に/これらのファイルを保存したいです。 manual_download_process.pyはTFDSリポジトリにあることに注意してください。

  4. COCOのトレーニングセットをダウンロードhttps://cocodataset.org/#downloadと呼ばれるフォルダにそれをスティックcoco_train2014/ 。移動refcoco.json同じレベルにcoco_train2014

  5. 標準の手動ダウンロード手順に従ってください。

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco / refcoco_unc(デフォルト設定)

  • データセットサイズ3.24 GiB

  • スプリット

スプリット
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

視覚化

ref_coco / refcoco_google

  • データセットサイズ4.60 GiB

  • スプリット

スプリット
'test' 4,527
'train' 19,213
'validation' 4,559

視覚化

ref_coco / refcocoplus_unc

  • データセットサイズ3.24 GiB

  • スプリット

スプリット
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

視覚化

ref_coco / refcocog_google

  • データセットサイズ4.59 GiB

  • スプリット

スプリット
'train' 24,698
'validation' 4,650

視覚化

ref_coco / refcocog_umd

  • データセットサイズ4.04 GiB

  • スプリット

スプリット
'test' 2,600
'train' 21,899
'validation' 1,300

視覚化