移動

  • 説明:

データセットは、MuJoCo 移動タスクの環境報酬でトレーニングされた SAC エージェントを使用して作成されました。これらのデータセットは、敵対的模倣学習の重要事項で使用されていますか?オルシーニ等。 2021 .

データセットは、ステップとエピソードを表すRLDS 形式に従います。

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (デフォルト設定)

  • 構成の説明: Ant 用に 1M ステップのトレーニングを受けた SAC エージェントによって生成されたデータセット。

  • ダウンロードサイズ: 6.49 MiB

  • データセットサイズ: 23.02 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 50
  • 機能構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ステップデータセット
ステップ/アクションテンソル(8) float32
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察テンソル(111) float32
ステップ/報酬テンソルfloat32

locomotion/hopper_sac_1M_single_policy_stochastic

  • 構成の説明: ホッパーの 1M ステップのトレーニングを受けた SAC エージェントによって生成されたデータセット。

  • ダウンロードサイズ: 2.26 MiB

  • データセットサイズ: 2.62 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 50
  • 機能構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ステップデータセット
ステップ/アクションテンソル(3) float32
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察テンソル(11) float32
ステップ/報酬テンソルfloat32

ロコモーション/halfcheetah_sac_1M_single_policy_stochastic

  • 構成の説明: HalfCheetah の 1M ステップのトレーニングを受けた SAC エージェントによって生成されたデータセット。

  • ダウンロードサイズ: 4.49 MiB

  • データセットのサイズ: 4.93 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 50
  • 機能構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ステップデータセット
ステップ/アクションテンソル(6,) float32
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察テンソル(17) float32
ステップ/報酬テンソルfloat32

locomotion/walker2d_sac_1M_single_policy_stochastic

  • 構成の説明: Walker2d の 1M ステップのトレーニングを受けた SAC エージェントによって生成されたデータセット。

  • ダウンロードサイズ: 4.35 MiB

  • データセットのサイズ: 4.91 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 50
  • 機能構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ステップデータセット
ステップ/アクションテンソル(6,) float32
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察テンソル(17) float32
ステップ/報酬テンソルfloat32

locomotion/humanoid_sac_15M_single_policy_stochastic

  • 構成の説明: ヒューマノイド用に 1,500 万ステップのトレーニングを受けた SAC エージェントによって生成されたデータセット。

  • ダウンロードサイズ: 192.78 MiB

  • データセットのサイズ: 300.94 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 200
  • 機能構造:
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ステップデータセット
ステップ/アクションテンソル(17) float32
ステップ/割引テンソルfloat32
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察テンソル(376,) float32
ステップ/報酬テンソルfloat32