rlu_locomotion

  • คำอธิบาย :

RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

งานเหล่านี้ประกอบด้วยงานการเคลื่อนที่ในทางเดินที่เกี่ยวข้องกับ CMU Humanoid ซึ่งความพยายามก่อนหน้านี้ได้ใช้ข้อมูลการจับการเคลื่อนไหวอย่างใดอย่างหนึ่ง Merel et al., 2019a , Merel et al., 2019b หรือการฝึกอบรมตั้งแต่ต้น Song et al., 2020 นอกจากนี้ พื้นที่เก็บข้อมูล DM Locomotion ยังมีชุดของงานที่ปรับให้เหมาะกับสัตว์ฟันแทะเสมือน Merel et al., 2020 เราเน้นย้ำว่างาน DM Locomotion มีการผสมผสานของการควบคุมต่อเนื่องแบบ DoF สูงที่ท้าทายพร้อมกับการรับรู้จากการสังเกตที่เห็นแก่ตัว สำหรับรายละเอียดเกี่ยวกับวิธีสร้างชุดข้อมูล โปรดดูเอกสาร

เราแนะนำให้คุณลองวิธี RL ออฟไลน์ในชุดข้อมูล DeepMind Locomotion หากคุณสนใจชุดข้อมูล RL ออฟไลน์ที่ท้าทายมากพร้อมพื้นที่การดำเนินการที่ต่อเนื่อง

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 1.88 GiB

  • แยก :

แยก ตัวอย่าง
'train' 4,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (56,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/คนเดิน/body_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/end_effectors_pos เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/humanoid_gaps

  • ขนาดชุดข้อมูล : 4.57 GiB

  • แยก :

แยก ตัวอย่าง
'train' 8,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (56,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/คนเดิน/body_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/end_effectors_pos เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/humanoid_walls

  • ขนาดชุดข้อมูล : 2.36 GiB

  • แยก :

แยก ตัวอย่าง
'train' 4,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (56,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/คนเดิน/body_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/end_effectors_pos เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (56,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/rodent_bowl_escape

  • ขนาดชุดข้อมูล : 16.46 GiB

  • แยก :

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (38,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/วอล์คเกอร์/appendages_pos เทนเซอร์ (15,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_touch เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_pos เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/rodent_gaps

  • ขนาดชุดข้อมูล : 8.90 GiB

  • แยก :

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (38,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/วอล์คเกอร์/appendages_pos เทนเซอร์ (15,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_touch เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_pos เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/rodent_mazes

  • ขนาดชุดข้อมูล : 20.71 GiB

  • แยก :

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (38,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/วอล์คเกอร์/appendages_pos เทนเซอร์ (15,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_touch เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_pos เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64

rlu_locomotion/rodent_two_touch

  • ขนาดชุดข้อมูล : 23.05 GiB

  • แยก :

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_id เทนเซอร์ int64
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (38,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / คนเดิน คุณสมบัติDict
ขั้นตอน/การสังเกต/วอล์คเกอร์/appendages_pos เทนเซอร์ (15,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/egocentric_camera ภาพ (64, 64, 3) uint8
ขั้นตอน/การสังเกต/คนเดิน/joints_pos เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/joints_vel เทนเซอร์ (30,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_accelerometer เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_gyro เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_touch เทนเซอร์ (4,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/sensors_velocimeter เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_pos เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/tendons_vel เทนเซอร์ (8,) ลอย32
ขั้นตอน/การสังเกต/คนเดิน/world_zaxis เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64