MLコミュニティデーは11月9日です! TensorFlow、JAXからの更新のために私たちに参加し、より多くの詳細をご覧ください

gref

  • 説明

Google RefExpデータセットは、公開されているMS-COCOデータセットに基づいて構築された、画像内のオブジェクトのテキスト説明のコレクションです。 MS-COCOの画像キャプションは画像全体に適用されますが、このデータセットは、画像内の単一のオブジェクトまたは領域を一意に識別できるようにするテキストの説明に焦点を当てています。このペーパーの詳細については、「明確なオブジェクト記述の生成と理解」を参照してください。

  • ホームページhttps://github.com/mjhucla/Google_Refexp_toolbox

  • ソースコードtfds.vision_language.gref.Gref

  • バージョン

    • 1.0.0 (デフォルト):初期リリース。
  • ダウンロードサイズUnknown size

  • データセットサイズ4.60 GiB

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    指示に従いhttps://github.com/mjhucla/Google_Refexp_toolboxをダウンロードするとCOCOと並ぶ形式にデータを事前に処理します。ディレクトリには、2つのファイルと1つのフォルダが含まれています。

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014 /

coco_train2014フォルダーには、COCO2014トレーニング画像がすべて含まれています。

スプリット
'train' 24,698
'validation' 4,650
  • 特長
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
        'label_name': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'referent': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
            'tokens': Sequence(Text(shape=(), dtype=tf.string)),
        }),
    }),
})

視覚化

  • 引用
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}