rlu_locomotion

  • Açıklama :

RL Unplugged, çevrimdışı pekiştirme öğrenimi için bir dizi testtir. RL Unplugged aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için veri kümelerine, genel bir işlem hattı oluşturulduktan sonra uygulamacının süitteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini takip eder.

Bu görevler, önceki çabaların hareket yakalama verilerini Merel ve diğerleri, 2019a , Merel ve diğerleri, 2019b veya sıfırdan eğitim Song ve diğerleri, 2020 kullandığı CMU Humanoid'i içeren koridor hareket görevlerinden oluşur. Ek olarak, DM Locomotion deposu, sanal bir kemirgen Merel ve diğerleri, 2020'ye uygun olacak şekilde uyarlanmış bir dizi görev içerir. DM Locomotion görevlerinin, zengin benmerkezci gözlemlerden algı ile birlikte zorlu yüksek DoF sürekli kontrolün kombinasyonunu içerdiğini vurguluyoruz. Veri kümesinin nasıl oluşturulduğuna ilişkin ayrıntılar için lütfen makaleye bakın.

Sürekli eylem alanı ile çok zorlu çevrimdışı RL veri kümesiyle ilgileniyorsanız, DeepMind Locomotion veri kümesinde çevrimdışı RL yöntemlerini denemenizi öneririz.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (varsayılan yapılandırma)

  • Veri kümesi boyutu : 1.88 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 4.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (56,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/vücut yüksekliği tensör (1,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) tf.float32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/humanoid_gaps

  • Veri kümesi boyutu : 4.57 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 8.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (56,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/vücut yüksekliği tensör (1,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) tf.float32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/insansı_duvarlar

  • Veri kümesi boyutu : 2.36 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 4.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=tf.float32),
                'joints_pos': Tensor(shape=(56,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(56,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (56,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/vücut yüksekliği tensör (1,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) tf.float32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/rodent_bowl_escape

  • Veri kümesi boyutu : 16.46 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (38,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) tf.float32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/rodent_gaps

  • Veri kümesi boyutu : 8.90 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (38,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) tf.float32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/rodent_mazes

  • Veri kümesi boyutu : 20.71 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (38,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) tf.float32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64

rlu_locomotion/rodent_two_touch

  • Veri kümesi boyutu : 23.05 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': tf.int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=tf.float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=tf.uint8),
                'joints_pos': Tensor(shape=(30,), dtype=tf.float32),
                'joints_vel': Tensor(shape=(30,), dtype=tf.float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=tf.float32),
                'sensors_touch': Tensor(shape=(4,), dtype=tf.float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=tf.float32),
                'tendons_pos': Tensor(shape=(8,), dtype=tf.float32),
                'tendons_vel': Tensor(shape=(8,), dtype=tf.float32),
                'world_zaxis': Tensor(shape=(3,), dtype=tf.float32),
            }),
        }),
        'reward': tf.float32,
    }),
    'timestamp': tf.int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
adımlar veri kümesi
adımlar/eylem tensör (38,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) tf.float32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) tf.uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) tf.float32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) tf.float32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) tf.float32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) tf.float32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) tf.float32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) tf.float32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) tf.float32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) tf.float32
adımlar/ödül tensör tf.float32
zaman damgası tensör tf.int64