การเคลื่อนไหว

  • คำอธิบาย :

ชุดข้อมูลถูกสร้างขึ้นด้วยตัวแทน SAC ที่ได้รับการฝึกอบรมเกี่ยวกับรางวัลสภาพแวดล้อมของภารกิจการเคลื่อนที่ของ MuJoCo ชุดข้อมูลเหล่านี้ใช้ใน สิ่งที่สำคัญสำหรับการเรียนรู้การเลียนแบบฝ่ายตรงข้าม? อรสินีและคณะ 2021 .

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

การเคลื่อนไหว/ant_sac_1M_single_policy_stochastic (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลที่สร้างโดยตัวแทน SAC ที่ผ่านการฝึกอบรมสำหรับขั้นตอน 1 ล้านสำหรับ Ant

  • ขนาดการดาวน์โหลด : 6.49 MiB

  • ขนาดชุดข้อมูล : 23.02 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (8,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต เทนเซอร์ (111,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32

การเคลื่อนไหว/hopper_sac_1M_single_policy_stochastic

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลที่สร้างขึ้นโดยตัวแทน SAC ที่ผ่านการฝึกอบรมสำหรับขั้นตอน 1 ล้านสำหรับ Hopper

  • ขนาดการดาวน์โหลด : 2.26 MiB

  • ขนาดชุดข้อมูล : 2.62 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (3,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต เทนเซอร์ (11,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32

การเคลื่อนไหว/halfcheetah_sac_1M_single_policy_stochastic

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลที่สร้างขึ้นโดยตัวแทน SAC ที่ผ่านการฝึกอบรมสำหรับ HalfCheetah 1 ล้านขั้น

  • ขนาดการดาวน์โหลด : 4.49 MiB

  • ขนาดชุดข้อมูล : 4.93 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต เทนเซอร์ (17,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32

การเคลื่อนไหว/เดิน2d_sac_1M_single_policy_stochastic

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลที่สร้างขึ้นโดยตัวแทน SAC ที่ผ่านการฝึกอบรมสำหรับ 1M ขั้นตอนสำหรับ Walker2d

  • ขนาดการดาวน์โหลด : 4.35 MiB

  • ขนาดชุดข้อมูล : 4.91 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต เทนเซอร์ (17,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32

การเคลื่อนไหว/humanoid_sac_15M_single_policy_stochastic

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลที่สร้างขึ้นโดยตัวแทน SAC ที่ผ่านการฝึกอบรมสำหรับขั้นตอน 15M สำหรับ Humanoid

  • ขนาดการดาวน์โหลด : 192.78 MiB

  • ขนาดชุดข้อมูล : 300.94 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (17,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต เทนเซอร์ (376,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ ลอย32