bc_z

  • คำอธิบาย :

หุ่นยนต์ Google Teleoped ทำหน้าที่เลือกสถานที่เป็นส่วนใหญ่จากโต๊ะ

แยก ตัวอย่าง
'train' 39,350
'val' 3,914
  • โครงสร้างคุณสมบัติ :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ คุณสมบัติDict
ขั้นตอน/การกระทำ/อนาคต/axis_angle_residual เทนเซอร์ (30,) ลอย32 การดำเนินการ 10 รายการถัดไปสำหรับการหมุน การกระทำแต่ละอย่างเป็นเดลต้า 3 มิติเพื่อเพิ่มให้กับมุมแกนปัจจุบัน
ขั้นตอน/การกระทำ/อนาคต/target_close เทนเซอร์ (10,) int64 การดำเนินการ 10 ประการถัดไปสำหรับมือจับ การดำเนินการแต่ละครั้งคือค่าที่ควรเปลี่ยนการปิดกริปเปอร์ (โดยเฉพาะอย่างยิ่ง ไม่ใช่ เดลต้า)
ขั้นตอน/การกระทำ/อนาคต/xyz_residual เทนเซอร์ (30,) ลอย32 การดำเนินการ 10 ประการถัดไปสำหรับตำแหน่ง การกระทำแต่ละอย่างเป็นเดลต้า 3 มิติเพื่อเพิ่มไปยังตำแหน่งปัจจุบัน
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/การสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/episode_success เทนเซอร์ ลอย32 ป้ายกำกับความสำเร็จ 0-1
ขั้นตอน/การสังเกต/ภาพ ภาพ (171, 213, 3) uint8 ภาพจากกล้องของหุ่นยนต์ สุ่มตัวอย่าง 3x
ขั้นตอน/การสังเกต/natural_Language_embedding เทนเซอร์ (512,) ลอย32 การฝังงานผ่าน Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
ขั้นตอน/การสังเกต/natural_Language_instruction เทนเซอร์ เชือก งานที่หุ่นยนต์ถูกขอให้ทำ
ขั้นตอน/การสังเกต/ปัจจุบัน/อิสระ เทนเซอร์ int64 ตอนต่างๆ จะถูกรวบรวมผ่าน DAgger นี่คือป้ายกำกับ 0/1 ว่าการดำเนินการนั้นมาจากนโยบายหรือจากผู้ดำเนินการทางไกล 1 = จากนโยบาย
ขั้นตอน/การสังเกต/ปัจจุบัน/axis_angle เทนเซอร์ (3,) ลอย32 การหมุนปัจจุบันของเอฟเฟกต์ปลายในการแสดงมุมแกน
ขั้นตอน/การสังเกต/ปัจจุบัน/การแทรกแซง เทนเซอร์ int64 ตอนต่างๆ จะถูกรวบรวมผ่าน DAgger นี่คือป้ายกำกับ 0/1 ว่าการดำเนินการนั้นมาจากนโยบายหรือจากผู้ดำเนินการทางไกล 1 = จากผู้ดำเนินการทางไกล สิ่งนี้ตรงกันข้ามกับปัจจุบัน/อิสระทุกประการ
ขั้นตอน/การสังเกต/ปัจจุบัน/sense_close เทนเซอร์ (1,) ลอย32 ปัจจุบันปิดกริปเปอร์เท่าไหร่ครับ. ปรับขนาดจาก 0 ถึง 1 แต่ไม่สามารถเข้าถึงค่าทั้งหมดตั้งแต่ 0 ถึง 1 ได้ ช่วงในข้อมูลประมาณ 0.2 ถึง 1
ขั้นตอน/การสังเกต/ปัจจุบัน/xyz เทนเซอร์ (3,) ลอย32 ตำแหน่งปัจจุบันของเอ็ฟเฟ็กเตอร์ส่วนปลายในการแสดงมุมแกน ในเฟรมหุ่นยนต์
ขั้นตอน/การสังเกต/sequence_length เทนเซอร์ int64 ความยาวของตอน
ขั้นตอน/รางวัล สเกลาร์ ลอย32
  • การอ้างอิง :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }