dmlab

Dmlabデータセットには、DeepMind Lab環境で動作するエージェントによって観察されたフレームが含まれています。これらのフレームには、エージェントと環境内に存在するさまざまなオブジェクトとの間の距離が注釈として付けられています。目標は、3D環境での視覚入力からの距離について推論する視覚モデルの能力を評価することです。 Dmlabデータセットは、6つのクラスの360x480カラー画像で構成されています。クラスはそれぞれ{近い、遠い、非常に遠い} x {正の報酬、負の報酬}です。

スプリット
'test' 22,735
'train' 65,550
'validation' 22,628
  • 特長
FeaturesDict({
    'filename': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(360, 480, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
})

視覚化

  • 引用
@article{zhai2019visual,
        title={The Visual Task Adaptation Benchmark},
        author={Xiaohua Zhai and Joan Puigcerver and Alexander Kolesnikov and
               Pierre Ruyssen and Carlos Riquelme and Mario Lucic and
               Josip Djolonga and Andre Susano Pinto and Maxim Neumann and
               Alexey Dosovitskiy and Lucas Beyer and Olivier Bachem and
               Michael Tschannen and Marcin Michalski and Olivier Bousquet and
               Sylvain Gelly and Neil Houlsby},
                              year={2019},
                              eprint={1910.04867},
                              archivePrefix={arXiv},
                              primaryClass={cs.CV},
                              url = {https://arxiv.org/abs/1910.04867}
                          }