maniskill_dataset_converted_externally_to_rlds

  • وصف :

محاكاة فرانكا وهي تؤدي مهام تلاعب مختلفة

ينقسم أمثلة
'train' 30,213
  • هيكل الميزة :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'episode_id': Text(shape=(), dtype=string),
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(7,), dtype=float32),
        'discount': Scalar(shape=(), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'base_pose': Tensor(shape=(7,), dtype=float32),
            'depth': Image(shape=(256, 256, 1), dtype=uint16),
            'image': Image(shape=(256, 256, 3), dtype=uint8),
            'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'state': Tensor(shape=(18,), dtype=float32),
            'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'tcp_pose': Tensor(shape=(7,), dtype=float32),
            'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16),
            'wrist_image': Image(shape=(256, 256, 3), dtype=uint8),
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
الحلقة_البيانات الوصفية المميزاتDict
Episode_metadata/episode_id نص خيط معرف الحلقة
Episode_metadata/file_path نص خيط المسار إلى ملف البيانات الأصلي.
خطوات مجموعة البيانات
الخطوات/الإجراء الموتر (7،) float32 يتكون عمل الروبوت من [موضع هدف دلتا المستجيب النهائي 3x، اتجاه هدف دلتا المستجيب النهائي 3x بتنسيق زاوية المحور، موضع هدف المقبض 1x (تقليد لإصبعين)]. بالنسبة لموضع هدف دلتا، يتم تعيين إجراء -1 لحركة الروبوت بمقدار -0.1 م، وإجراء 1 خريطة لحركة 0.1 م. بالنسبة لتوجيه هدف دلتا، يتم تعيين زاويته المشفرة إلى نطاق [-0.1rad، 0.1rad] لتنفيذ الروبوت. على سبيل المثال، الإجراء [1، 0، 0] يعني الدوران على طول المحور السيني بمقدار 0.1 راد. بالنسبة لموضع هدف المقبض، الإجراء -1 يعني الإغلاق، والإجراء 1 يعني الفتح.
الخطوات/الخصم العددية float32 الخصم إذا تم توفيره، الافتراضي هو 1.
الخطوات/is_first الموتر منطقي
الخطوات/is_last الموتر منطقي
الخطوات/is_terminal الموتر منطقي
الخطوات/language_embedding الموتر (512،) float32 تضمين لغة كونا. راجع https://tfhub.dev/google/universal-sentence-encoder-large/5
الخطوات/language_instruction نص خيط تعليم اللغة.
الخطوات/الملاحظة المميزاتDict
الخطوات/الملاحظة/base_pose الموتر (7،) float32 تشكل قاعدة الروبوت في الإطار العالمي، وتتكون من [x، y، z، qw، ​​qx، qy، qz]. تمثل الأبعاد الثلاثة الأولى مواضع xyz بالأمتار. الأبعاد الأربعة الأخيرة هي تمثيل الكواترنيون للدوران.
الخطوات / الملاحظة / العمق صورة (256، 256، 1) uint16 كاميرا رئيسية لمراقبة العمق. اقسم قيمة العمق على 2**10 لتحصل على العمق بالأمتار.
الخطوات/الملاحظة/الصورة صورة (256، 256، 3) uint8 مراقبة الكاميرا الرئيسية RGB.
الخطوات/الملاحظة/main_camera_cam2world_gl الموتر (4، 4) float32 التحول من إطار الكاميرا الرئيسي إلى الإطار العالمي في اتفاقية OpenGL/Blender.
الخطوات/الملاحظة/main_camera_extrinsic_cv الموتر (4، 4) float32 المصفوفة الخارجية للكاميرا الرئيسية في اتفاقية OpenCV.
الخطوات/الملاحظة/main_camera_intrinsic_cv الموتر (3، 3) float32 مصفوفة الكاميرا الرئيسية الجوهرية في اتفاقية OpenCV.
الخطوات/الملاحظة/الحالة الموتر (18،) float32 حالة الروبوت، تتكون من [7x زوايا مفصل الروبوت، 2x موضع القابض، 7x سرعة زاوية مفصل الروبوت، 2x سرعة القابض]. الزاوية بالراديان، والموضع بالمتر.
الخطوات/الملاحظة/target_object_or_part_final_pose الموتر (7،) float32 يتكون الوضع النهائي الذي يجب التلاعب بالكائن المستهدف أو جزء الكائن من [x، y، z، qw، ​​qx، qy، qz]. يتم تمثيل الوضع في الإطار العالمي. تعتبر الحلقة ناجحة إذا تم التلاعب بالكائن المستهدف أو جزء الكائن في هذه الوضعية.
الخطوات/الملاحظة/target_object_or_part_final_pose_valid الموتر (7،) uint8 ما إذا كان كل بُعد من target_object_or_part_final_pose صالحًا في البيئة. 1 = صالح؛ 0 = غير صالح (وفي هذه الحالة يجب تجاهل الأبعاد المقابلة في target_object_or_part_final_pose). "غير صالح" يعني أنه لا يوجد اختبار نجاح في الوضع النهائي للكائن المستهدف أو جزء الكائن في الأبعاد المقابلة.
الخطوات/الملاحظة/target_object_or_part_initial_pose الموتر (7،) float32 يتكون الوضع الأولي للكائن المستهدف أو جزء الكائن المراد معالجته من [x، y، z، qw، ​​qx، qy، qz]. يتم تمثيل الوضع في الإطار العالمي. يتم استخدام هذا المتغير لتحديد الكائن الهدف أو جزء الكائن عند وجود كائنات أو أجزاء كائن متعددة في البيئة
الخطوات/الملاحظة/target_object_or_part_initial_pose_valid الموتر (7،) uint8 ما إذا كان كل بُعد من target_object_or_part_initial_pose صالحًا في البيئة. 1 = صالح؛ 0 = غير صالح (وفي هذه الحالة يجب تجاهل الأبعاد المقابلة في target_object_or_part_initial_pose).
الخطوات/الملاحظة/tcp_pose الموتر (7،) float32 وضعية النقطة المركزية لأداة الروبوت في الإطار العالمي، تتكون من [x، y، z، qw، ​​qx، qy، qz]. نقطة مركز الأداة هي المركز بين إصبعي القابض.
الخطوات/الملاحظة/wrist_camera_cam2world_gl الموتر (4، 4) float32 التحول من إطار كاميرا المعصم إلى الإطار العالمي في اتفاقية OpenGL/Blender.
الخطوات/الملاحظة/wrist_camera_extrinsic_cv الموتر (4، 4) float32 مصفوفة خارجية لكاميرا المعصم في اتفاقية OpenCV.
الخطوات/الملاحظة/wrist_camera_intrinsic_cv الموتر (3، 3) float32 مصفوفة كاميرا المعصم الجوهرية في اتفاقية OpenCV.
الخطوات/الملاحظة/عمق_الرسغ صورة (256، 256، 1) uint16 كاميرا المعصم مراقبة العمق. اقسم قيمة العمق على 2**10 لتحصل على العمق بالأمتار.
الخطوات/الملاحظة/wrist_image صورة (256، 256، 3) uint8 مراقبة كاميرا المعصم RGB.
خطوات/مكافأة العددية float32 مكافأة إذا تم توفيرها، 1 في الخطوة النهائية للعروض التوضيحية.
  • الاقتباس :
@inproceedings{gu2023maniskill2,
  title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
  author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
  booktitle={International Conference on Learning Representations},
  year={2023}
}