rlu_control_suite

  • توضیحات :

RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه داده‌ها را با یک API یکپارچه ارائه می‌کنیم که کار با تمام داده‌های مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان می‌کند.

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.

DeepMind Control Suite Tassa et al., 2018 مجموعه ای از وظایف کنترلی است که در MuJoCo Todorov و همکاران، 2012 پیاده سازی شده است. ما زیرمجموعه ای از وظایف ارائه شده در مجموعه را در نظر می گیریم که طیف وسیعی از مشکلات را پوشش می دهد.

بیشتر مجموعه داده ها در این دامنه با استفاده از D4PG تولید می شوند. برای محیط‌های Manipulator insert ball و Manipulator insert peg، ما از V-MPO Song و همکاران، 2020 برای تولید داده‌ها استفاده می‌کنیم، زیرا D4PG قادر به حل این وظایف نیست. ما مجموعه داده‌ها را برای 9 کار مجموعه کنترل منتشر می‌کنیم. برای جزئیات بیشتر در مورد نحوه تولید مجموعه داده، لطفاً به مقاله مراجعه کنید.

DeepMind Control Suite یک معیار سنتی کنش پیوسته RL است. به طور خاص، توصیه می‌کنیم اگر به مقایسه با سایر روش‌های آفلاین آفلاین علاقه دارید، رویکرد خود را در DeepMind Control Suite آزمایش کنید.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (پیکربندی پیش‌فرض)

  • حجم مجموعه داده : 2.12 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 40
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (1،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
مراحل / مشاهده / موقعیت تانسور (3،) float32
مراحل / مشاهده / سرعت تانسور (2،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/cheetah_run

  • حجم مجموعه داده : 36.58 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 300
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (6،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
مراحل / مشاهده / موقعیت تانسور (8،) float32
مراحل / مشاهده / سرعت تانسور (9،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/finger_turn_hard

  • حجم مجموعه داده : 47.61 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 500
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (2،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
steps/observation/dist_to_target تانسور (1،) float32
مراحل / مشاهده / موقعیت تانسور (4،) float32
مراحل/مشاهده/موقعیت_هدف تانسور (2،) float32
مراحل / مشاهده / سرعت تانسور (3،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/fish_swim

  • حجم مجموعه داده : 32.81 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 200
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (5،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
مراحل/مشاهده/زوایای_مشترک تانسور (7،) float32
مراحل / مشاهده / هدف تانسور (3،) float32
پله ها/مشاهده/ایستاده تانسور (1،) float32
مراحل / مشاهده / سرعت تانسور (13،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/humanoid_run

  • حجم مجموعه داده : 1.21 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 3000
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (21،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
steps/observation/com_velocity تانسور (3،) float32
مراحل / مشاهده / اندام ها تانسور (12،) float32
مراحل/مشاهده/هد_ارتفاع تانسور (1،) float32
مراحل/مشاهده/زوایای_مشترک تانسور (21،) float32
steps/observation/torso_vertical تانسور (3،) float32
مراحل / مشاهده / سرعت تانسور (27،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/manipulator_insert_ball

  • حجم مجموعه داده : 385.41 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1500
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (5،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
steps/observation/arm_pos تانسور (16،) float32
steps/observation/arm_vel تانسور (8،) float32
steps/observation/hand_pos تانسور (4،) float32
steps/observation/object_pos تانسور (4،) float32
steps/observation/object_vel تانسور (3،) float32
steps/observation/target_pos تانسور (4،) float32
مراحل / مشاهده / لمس تانسور (5،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/manipulator_insert_peg

  • حجم مجموعه داده : 385.73 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1500
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (5،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
steps/observation/arm_pos تانسور (16،) float32
steps/observation/arm_vel تانسور (8،) float32
steps/observation/hand_pos تانسور (4،) float32
steps/observation/object_pos تانسور (4،) float32
steps/observation/object_vel تانسور (3،) float32
steps/observation/target_pos تانسور (4،) float32
مراحل / مشاهده / لمس تانسور (5،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/walker_stand

  • حجم مجموعه داده : 31.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 200
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (6،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
پله ها / مشاهده / ارتفاع تانسور (1،) float32
مراحل / مشاهده / جهت گیری تانسور (14،) float32
مراحل / مشاهده / سرعت تانسور (9،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64

rlu_control_suite/walker_walk

  • حجم مجموعه داده : 31.78 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 200
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
مراحل مجموعه داده
مراحل/عمل تانسور (6،) float32
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
پله ها / مشاهده / ارتفاع تانسور (1،) float32
مراحل / مشاهده / جهت گیری تانسور (14،) float32
مراحل / مشاهده / سرعت تانسور (9،) float32
مراحل/پاداش تانسور float32
مهر زمانی تانسور int64