rlu_dmlab_explore_object_rewards_few

  • 説明

RL Unpluggedは、オフライン強化学習のベンチマークスイートです。 RL Unpluggedは、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立された後、開業医がスイート内のすべてのデータを簡単に操作できるようにする統合APIをデータセットに提供します。

DeepMindラボデータセットは挑戦し、部分観測から、いくつかのレベルがありDeepmindラボスイート。 DeepMindラボデータセットがによって分配R2D2を訓練することによって収集されるKapturowskiら、2018の、個々のタスクの最初から薬剤。トレーニング全体の実行中に、すべてのタスクで数回、すべてのアクターの経験を記録しました。データセット生成処理の詳細に記載されてGulcehreら、2021

我々は、5つの異なるDeepMindラボレベルのためのデータセットをリリース: seekavoid_arena_01explore_rewards_fewexplore_rewards_manyrooms_watermazerooms_select_nonmatching_object 。また、スナップショットのためのデータセットを解放seekavoid_arena_01環境でエージェントを評価する際に、我々は、イプシロン-貪欲アルゴリズムのイプシロンの異なるレベルで訓練R2D2のスナップショットからデータセットを生成することをレベル。

DeepMindLabのデータセットはかなり大規模です。メモリを備えた大規模なオフラインRLモデルに興味がある場合は、試してみることをお勧めします。

スプリット
'train' 89,144
  • 特長
FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few / training_0(デフォルトの構成)

rlu_dmlab_explore_object_rewards_few / training_1

rlu_dmlab_explore_object_rewards_few / training_2