การเคลื่อนไหว

คำอธิบาย :

ชุดข้อมูลถูกสร้างขึ้นด้วยตัวแทน SAC ที่ได้รับการฝึกอบรมเกี่ยวกับรางวัลสภาพแวดล้อมของงานการเคลื่อนที่ของ MuJoCo ชุดข้อมูลเหล่านี้ใช้ใน What Matters for Adversarial Imitation Learning? ออร์ซินี และคณะ 2021 .

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

หน้าแรก : https://github.com/google-research/rlds
ซอร์สโค้ด : tfds.rlds.datasets.locomotion.Locomotion
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

การเคลื่อนไหว / ant_sac_1M_single_policy_stochastic (การกำหนดค่าเริ่มต้น)

คำอธิบายการกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ได้รับการฝึกอบรมสำหรับ 1M ขั้นตอนสำหรับ Ant
ขนาดดาวน์โหลด : 6.49 MiB
ขนาดชุดข้อมูล : 23.02 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	50

โครงสร้างคุณสมบัติ :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์	(8,)	ลอย32
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/การสังเกต	เทนเซอร์	(111,)	ลอย32
ขั้นตอน/รางวัล	เทนเซอร์		ลอย32

ตัวอย่าง ( tfds.as_dataframe ):

การเคลื่อนที่/hopper_sac_1M_single_policy_stochastic

คำอธิบายการกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ได้รับการฝึกอบรมสำหรับ 1M ขั้นตอนสำหรับฮอปเปอร์
ขนาดดาวน์โหลด : 2.26 MiB
ขนาดชุดข้อมูล : 2.62 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	50

โครงสร้างคุณสมบัติ :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์	(3,)	ลอย32
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/การสังเกต	เทนเซอร์	(11,)	ลอย32
ขั้นตอน/รางวัล	เทนเซอร์		ลอย32

ตัวอย่าง ( tfds.as_dataframe ):

การเคลื่อนไหว/halfcheetah_sac_1M_single_policy_stochastic

คำอธิบายการกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ได้รับการฝึกอบรมสำหรับ 1M ขั้นตอนสำหรับ HalfCheetah
ขนาดดาวน์โหลด : 4.49 MiB
ขนาดชุดข้อมูล : 4.93 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	50

โครงสร้างคุณสมบัติ :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์	(6,)	ลอย32
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/การสังเกต	เทนเซอร์	(17,)	ลอย32
ขั้นตอน/รางวัล	เทนเซอร์		ลอย32

ตัวอย่าง ( tfds.as_dataframe ):

การเคลื่อนที่/walker2d_sac_1M_single_policy_stochastic

คำอธิบายการกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ได้รับการฝึกอบรมสำหรับ 1M ขั้นตอนสำหรับ Walker2d
ขนาดดาวน์โหลด : 4.35 MiB
ขนาดชุดข้อมูล : 4.91 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	50

โครงสร้างคุณสมบัติ :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์	(6,)	ลอย32
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/การสังเกต	เทนเซอร์	(17,)	ลอย32
ขั้นตอน/รางวัล	เทนเซอร์		ลอย32

ตัวอย่าง ( tfds.as_dataframe ):

การเคลื่อนที่/humanoid_sac_15M_single_policy_stochastic

คำอธิบายการกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ได้รับการฝึกอบรมสำหรับขั้นตอน 15M สำหรับฮิวแมนนอยด์
ขนาดดาวน์โหลด : 192.78 MiB
ขนาดชุดข้อมูล : 300.94 MiB
แคชอัตโนมัติ ( เอกสาร ): No
แยก :

แยก	ตัวอย่าง
`'train'`	200

โครงสร้างคุณสมบัติ :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์	(17,)	ลอย32
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/การสังเกต	เทนเซอร์	(376,)	ลอย32
ขั้นตอน/รางวัล	เทนเซอร์		ลอย32

ตัวอย่าง ( tfds.as_dataframe ):