dmlab

Dmlab データセットには、エージェントと環境内に存在するさまざまなオブジェクトとの間の距離によって注釈が付けられた、DeepMind Lab 環境で動作するエージェントによって観測されたフレームが含まれています。目標は、ビジュアル モデルが 3D 環境でのビジュアル入力からの距離を推論する能力を評価することです。 Dmlab データセットは、6 つのクラスの 360x480 カラー画像で構成されています。クラスは、それぞれ {近い、遠い、非常に遠い} x {正の報酬、負の報酬} です。

スプリット
'test' 22,735
'train' 65,550
'validation' 22,628
  • 機能構造:
FeaturesDict({
    'filename': Text(shape=(), dtype=string),
    'image': Image(shape=(360, 480, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ファイル名文章ストリング
画像画像(360、480、3) uint8
ラベルクラスラベルint64

視覚化

  • 引用
@article{zhai2019visual,
        title={The Visual Task Adaptation Benchmark},
        author={Xiaohua Zhai and Joan Puigcerver and Alexander Kolesnikov and
               Pierre Ruyssen and Carlos Riquelme and Mario Lucic and
               Josip Djolonga and Andre Susano Pinto and Maxim Neumann and
               Alexey Dosovitskiy and Lucas Beyer and Olivier Bachem and
               Michael Tschannen and Marcin Michalski and Olivier Bousquet and
               Sylvain Gelly and Neil Houlsby},
                              year={2019},
                              eprint={1910.04867},
                              archivePrefix={arXiv},
                              primaryClass={cs.CV},
                              url = {https://arxiv.org/abs/1910.04867}
                          }