rlu_locomotion

  • توضیحات :

RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه داده‌ها را با یک API یکپارچه ارائه می‌کنیم که کار با تمام داده‌های مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان می‌کند.

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.

این وظایف از وظایف جابجایی راهرو شامل انسان‌نمای CMU تشکیل شده‌اند، که برای آن تلاش‌های قبلی یا از داده‌های ثبت حرکت مرل و همکاران، 2019a ، مرل و همکاران، 2019b یا آموزش از ابتدا سانگ و همکاران، 2020 استفاده کرده‌اند. علاوه بر این، مخزن DM Locomotion شامل مجموعه‌ای از وظایف است که برای یک جونده مجازی مرل و همکاران، 2020 مناسب است. ما تأکید می کنیم که وظایف DM Locomotion ترکیبی از کنترل مداوم چالش برانگیز با DoF بالا همراه با درک از مشاهدات خود محور غنی است. برای جزئیات بیشتر در مورد نحوه تولید مجموعه داده، لطفاً به مقاله مراجعه کنید.

اگر به مجموعه داده‌های RL آفلاین بسیار چالش برانگیز با فضای عمل پیوسته علاقه دارید، توصیه می‌کنیم روش‌های RL آفلاین را در مجموعه داده DeepMind Locomotion امتحان کنید.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (پیکربندی پیش‌فرض)

  • حجم مجموعه داده : 1.88 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 4000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (56،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
مراحل/مشاهده/واکر/قد_بدن تانسور (1،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
Steps/observation/walker/end_effectors_pos تانسور (12،) float32
steps/observation/walker/joints_pos تانسور (56،) float32
steps/observation/walker/joints_vel تانسور (56،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/humanoid_gaps

  • حجم مجموعه داده : 4.57 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 8000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (56،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
مراحل/مشاهده/واکر/قد_بدن تانسور (1،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
Steps/observation/walker/end_effectors_pos تانسور (12،) float32
steps/observation/walker/joints_pos تانسور (56،) float32
steps/observation/walker/joints_vel تانسور (56،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/humanoid_walls

  • حجم مجموعه داده : 2.36 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 4000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (56،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
مراحل/مشاهده/واکر/قد_بدن تانسور (1،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
Steps/observation/walker/end_effectors_pos تانسور (12،) float32
steps/observation/walker/joints_pos تانسور (56،) float32
steps/observation/walker/joints_vel تانسور (56،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/rodent_bowl_escape

  • حجم مجموعه داده : 16.46 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 2000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (38،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
steps/observation/walker/appendages_pos تانسور (15،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
steps/observation/walker/joints_pos تانسور (30،) float32
steps/observation/walker/joints_vel تانسور (30،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_touch تانسور (4،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/tendons_pos تانسور (8،) float32
steps/observation/walker/tendons_vel تانسور (8،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/rodent_gaps

  • حجم مجموعه داده : 8.90 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 2000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (38،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
steps/observation/walker/appendages_pos تانسور (15،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
steps/observation/walker/joints_pos تانسور (30،) float32
steps/observation/walker/joints_vel تانسور (30،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_touch تانسور (4،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/tendons_pos تانسور (8،) float32
steps/observation/walker/tendons_vel تانسور (8،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/rodent_mazes

  • حجم مجموعه داده : 20.71 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 2000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (38،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
steps/observation/walker/appendages_pos تانسور (15،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
steps/observation/walker/joints_pos تانسور (30،) float32
steps/observation/walker/joints_vel تانسور (30،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_touch تانسور (4،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/tendons_pos تانسور (8،) float32
steps/observation/walker/tendons_vel تانسور (8،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_locomotion/rodent_two_touch

  • حجم مجموعه داده : 23.05 GiB

  • تقسیم ها :

شکاف مثال ها
'train' 2000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (38،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
قدم ها/مشاهده/واکر FeaturesDict
steps/observation/walker/appendages_pos تانسور (15،) float32
مراحل/مشاهده/واکر/دوربین_خودمحور تصویر (64، 64، 3) uint8
steps/observation/walker/joints_pos تانسور (30،) float32
steps/observation/walker/joints_vel تانسور (30،) float32
steps/observation/walker/sensors_accelerometer تانسور (3،) float32
steps/observation/walker/sensors_gyro تانسور (3،) float32
steps/observation/walker/sensors_touch تانسور (4،) float32
steps/observation/walker/sensors_velocimeter تانسور (3،) float32
steps/observation/walker/tendons_pos تانسور (8،) float32
steps/observation/walker/tendons_vel تانسور (8،) float32
steps/observation/walker/world_zaxis تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64