rlu_control_suite

  • Deskripsi :

RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang berdasarkan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan dataset dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data dalam suite setelah pipeline umum dibuat.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

DeepMind Control Suite Tassa et al., 2018 adalah sekumpulan tugas kontrol yang diterapkan di MuJoCo Todorov et al., 2012 . Kami mempertimbangkan subset dari tugas yang disediakan di suite yang mencakup berbagai kesulitan.

Sebagian besar kumpulan data dalam domain ini dihasilkan menggunakan D4PG. Untuk lingkungan Manipulator insert ball dan Manipulator insert peg kami menggunakan V-MPO Song et al., 2020 untuk menghasilkan data karena D4PG tidak dapat menyelesaikan tugas ini. Kami merilis kumpulan data untuk 9 tugas rangkaian kontrol. Untuk perincian tentang bagaimana set data dihasilkan, silakan merujuk ke makalah.

DeepMind Control Suite adalah tolok ukur RL tindakan berkelanjutan tradisional. Secara khusus, kami menyarankan Anda menguji pendekatan Anda di DeepMind Control Suite jika Anda tertarik untuk membandingkan dengan metode RL offline canggih lainnya.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (konfigurasi default)

  • Ukuran dataset : 2.12 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 40
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (1,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/posisi Tensor (3,) float32
langkah/pengamatan/kecepatan Tensor (2,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/cheetah_run

  • Ukuran dataset : 36.58 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 300
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (6,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/posisi Tensor (8,) float32
langkah/pengamatan/kecepatan Tensor (9,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/finger_turn_hard

  • Ukuran dataset : 47.61 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 500
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (2,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/dist_to_target Tensor (1,) float32
langkah/pengamatan/posisi Tensor (4,) float32
langkah/pengamatan/target_position Tensor (2,) float32
langkah/pengamatan/kecepatan Tensor (3,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/fish_swim

  • Ukuran dataset : 32.81 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 200
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (5,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/joint_angles Tensor (7,) float32
langkah/observasi/target Tensor (3,) float32
tangga/pengamatan/tegak Tensor (1,) float32
langkah/pengamatan/kecepatan Tensor (13,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/humanoid_run

  • Ukuran dataset : 1.21 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 3.000
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (21,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/com_velocity Tensor (3,) float32
langkah/observasi/ekstremitas Tensor (12,) float32
langkah/pengamatan/head_height Tensor (1,) float32
langkah/pengamatan/joint_angles Tensor (21,) float32
langkah/pengamatan/torso_vertical Tensor (3,) float32
langkah/pengamatan/kecepatan Tensor (27,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/manipulator_insert_ball

  • Ukuran dataset : 385.41 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.500
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (5,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/arm_pos Tensor (16,) float32
langkah/pengamatan/lengan_vel Tensor (8,) float32
langkah/pengamatan/hand_pos Tensor (4,) float32
langkah/pengamatan/pos_objek Tensor (4,) float32
langkah/pengamatan/objek_vel Tensor (3,) float32
langkah/pengamatan/target_pos Tensor (4,) float32
langkah/pengamatan/sentuhan Tensor (5,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/manipulator_insert_peg

  • Ukuran dataset : 385.73 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.500
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (5,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/arm_pos Tensor (16,) float32
langkah/pengamatan/lengan_vel Tensor (8,) float32
langkah/pengamatan/hand_pos Tensor (4,) float32
langkah/pengamatan/pos_objek Tensor (4,) float32
langkah/pengamatan/objek_vel Tensor (3,) float32
langkah/pengamatan/target_pos Tensor (4,) float32
langkah/pengamatan/sentuhan Tensor (5,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/walker_stand

  • Ukuran dataset : 31.78 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 200
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (6,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/observasi/tinggi Tensor (1,) float32
langkah/pengamatan/orientasi Tensor (14,) float32
langkah/pengamatan/kecepatan Tensor (9,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64

rlu_control_suite/walker_walk

  • Ukuran dataset : 31.78 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 200
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
Langkah Himpunan data
langkah/tindakan Tensor (6,) float32
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/observasi/tinggi Tensor (1,) float32
langkah/pengamatan/orientasi Tensor (14,) float32
langkah/pengamatan/kecepatan Tensor (9,) float32
langkah/hadiah Tensor float32
cap waktu Tensor int64