bc_z

  • وصف :

يقوم روبوت Google Teleoped في الغالب بالاختيار من الطاولة

ينقسم أمثلة
'train' 39,350
'val' 3,914
  • هيكل الميزة :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
خطوات مجموعة البيانات
الخطوات/الإجراء المميزاتDict
الخطوات/الإجراء/المستقبل/axis_angle_residual الموتر (30،) float32 الإجراءات العشرة التالية للتناوب. كل إجراء عبارة عن دلتا ثلاثية الأبعاد لإضافتها إلى زاوية المحور الحالية.
الخطوات/الإجراء/المستقبل/target_Close الموتر (10،) int64 الإجراءات العشرة التالية للقابض. كل إجراء هو القيمة التي يجب تغيير إغلاق القابض إليها (لا سيما أنه ليس دلتا).
الخطوات/الإجراء/المستقبل/xyz_residual الموتر (30،) float32 الإجراءات العشرة التالية للمناصب. كل إجراء عبارة عن دلتا ثلاثية الأبعاد لإضافتها إلى الموضع الحالي.
الخطوات/is_first الموتر منطقي
الخطوات/is_last الموتر منطقي
الخطوات/is_terminal الموتر منطقي
الخطوات/الملاحظة المميزاتDict
الخطوات/الملاحظة/episode_success الموتر float32 علامة النجاح 0-1
الخطوات/الملاحظة/الصورة صورة (171، 213، 3) uint8 صورة الكاميرا للروبوت، مختزلة 3X
الخطوات/الملاحظة/natural_language_embedding الموتر (512،) float32 تضمين المهمة عبر Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
الخطوات/الملاحظة/natural_language_instruction الموتر خيط المهمة التي طلب من الروبوت القيام بها.
الخطوات / الملاحظة / الحاضر / الحكم الذاتي الموتر int64 يتم جمع الحلقات عبر DAgger. هذه علامة 0/1 لتحديد ما إذا كان الإجراء من السياسة أو من المشغل عن بعد. 1 = من السياسة.
الخطوات/الملاحظة/الحاضر/axis_angle الموتر (3،) float32 الدوران الحالي للمستجيب النهائي في تمثيل زاوية المحور.
الخطوات/الملاحظة/الحاضر/التدخل الموتر int64 يتم جمع الحلقات عبر DAgger. هذه علامة 0/1 لتحديد ما إذا كان الإجراء من السياسة أو من المشغل عن بعد. 1 = من المشغل عن بعد. وهذا هو عكس الحاضر/المستقل تمامًا
الخطوات/الملاحظة/الحاضر/sensed_إغلاق الموتر (1،) float32 كم القابض مغلق حاليا. تم قياسها من 0 إلى 1، ولكن ليس كل القيم من 0 إلى 1 يمكن الوصول إليها. النطاق في البيانات حوالي 0.2 إلى 1
الخطوات/الملاحظة/الحاضر/xyz الموتر (3،) float32 الموضع الحالي للمستجيب النهائي في تمثيل زاوية المحور، في إطار الروبوت
الخطوات/الملاحظة/sequence_length الموتر int64 طول الحلقة
خطوات/مكافأة العددية float32
  • الاقتباس :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }