maniskill_dataset_converted_externally_to_rlds

  • شرح :

Franka شبیه سازی شده در حال انجام وظایف دستکاری مختلف

شکاف مثال ها
'train' 30,213
  • ساختار ویژگی :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'episode_id': Text(shape=(), dtype=string),
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(7,), dtype=float32),
        'discount': Scalar(shape=(), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'base_pose': Tensor(shape=(7,), dtype=float32),
            'depth': Image(shape=(256, 256, 1), dtype=uint16),
            'image': Image(shape=(256, 256, 3), dtype=uint8),
            'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'state': Tensor(shape=(18,), dtype=float32),
            'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'tcp_pose': Tensor(shape=(7,), dtype=float32),
            'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16),
            'wrist_image': Image(shape=(256, 256, 3), dtype=uint8),
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
episode_metadata FeaturesDict
episode_metadata/episode_id متن رشته شناسه اپیزود.
episode_metadata/file_path متن رشته مسیر فایل داده اصلی
مراحل مجموعه داده
مراحل/عمل تانسور (7،) float32 عمل ربات، شامل [3 برابر موقعیت هدف افکتور انتهایی دلتا، 3 برابر جهت گیری هدف دلتای افکتور انتهایی در قالب زاویه محور، موقعیت هدف گیره 1 برابر (تقلید برای دو انگشت)] است. برای موقعیت هدف دلتا، یک حرکت -1 به حرکت ربات 0.1- متر و عمل 1 نقشه به حرکت 0.1 متر نشان می دهد. برای جهت گیری هدف دلتا، زاویه کدگذاری شده آن به محدوده [-0.1rad، 0.1rad] برای اجرای ربات نگاشت می شود. برای مثال، عمل [1، 0، 0] به معنای چرخش در امتداد محور x 0.1 راد است. برای موقعیت هدف گریپر، عمل 1- به معنای بسته و عمل 1 به معنای باز است.
مراحل/تخفیف اسکالر float32 تخفیف در صورت ارائه، پیش فرض 1 است.
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
Steps/language_embedding تانسور (512،) float32 تعبیه زبان کونا. به https://tfhub.dev/google/universal-sentence-encoder-large/5 مراجعه کنید
مراحل/زبان_آموزش متن رشته آموزش زبان.
مراحل / مشاهده FeaturesDict
steps/observation/base_pose تانسور (7،) float32 ژست پایه ربات در قاب جهان، شامل [x، y، z، qw، ​​qx، qy، qz] است. سه بعد اول موقعیت های xyz را بر حسب متر نشان می دهند. چهار بعد آخر نمایش چهارگانه چرخش است.
مراحل / مشاهده / عمق تصویر (256، 256، 1) uint16 مشاهده عمق دوربین اصلی مقدار عمق را بر 2**10 تقسیم کنید تا عمق را بر حسب متر بدست آورید.
مراحل / مشاهده / تصویر تصویر (256، 256، 3) uint8 دوربین اصلی رصد RGB.
steps/observation/main_camera_cam2world_gl تانسور (4، 4) float32 تبدیل از قاب دوربین اصلی به قاب جهانی در کنوانسیون OpenGL/Blender.
steps/observation/main_camera_extrinsic_cv تانسور (4، 4) float32 ماتریس بیرونی دوربین اصلی در قرارداد OpenCV.
Steps/observation/main_camera_intinsic_cv تانسور (3، 3) float32 ماتریس ذاتی دوربین اصلی در قرارداد OpenCV.
مراحل / مشاهده / حالت تانسور (18،) float32 حالت ربات، شامل [7x زاویه اتصال ربات، 2x موقعیت گیره، 7x سرعت زاویه مفصل ربات، 2x سرعت گیره] است. زاویه بر حسب رادیان، موقعیت بر حسب متر.
steps/observation/target_object_or_part_final_pose تانسور (7،) float32 حالت نهایی که شی مورد نظر یا قسمت شیء مورد نظر باید دستکاری شود، شامل [x، y، z، qw، ​​qx، qy، qz] است. ژست در قاب جهان نشان داده شده است. اگر شی مورد نظر یا قسمت شی در این حالت دستکاری شود، یک قسمت موفق در نظر گرفته می شود.
Steps/observation/target_object_or_part_final_pose_valid تانسور (7،) uint8 اینکه آیا هر بعد از target_object_or_part_final_pose در یک محیط معتبر است. 1 = معتبر 0 = نامعتبر (در این صورت باید ابعاد مربوطه را در target_object_or_part_final_pose نادیده گرفت). "نامعتبر" به این معنی است که هیچ بررسی موفقیت آمیزی در وضعیت نهایی شی هدف یا قسمت شی در ابعاد مربوطه وجود ندارد.
steps/observation/target_object_or_part_initial_pose تانسور (7،) float32 حالت اولیه شی مورد نظر یا قسمت شی که باید دستکاری شود، شامل [x، y، z، qw، ​​qx، qy، qz] است. ژست در قاب جهان نشان داده شده است. این متغیر برای تعیین شی یا قسمت شی مورد نظر زمانی که چندین شی یا قسمت شی در یک محیط وجود دارد استفاده می شود
Steps/observation/target_object_or_part_initial_pose_valid تانسور (7،) uint8 اینکه آیا هر بعد target_object_or_part_initial_pose در یک محیط معتبر است. 1 = معتبر 0 = نامعتبر (در این صورت باید ابعاد مربوطه را در target_object_or_part_initial_pose نادیده گرفت).
steps/observation/tcp_pose تانسور (7،) float32 ژست ابزار-مرکز-نقطه ربات در قاب جهان، از [x، y، z، qw، ​​qx، qy، qz] تشکیل شده است. نقطه مرکز ابزار مرکز بین دو انگشت گیره است.
steps/observation/wrist_camera_cam2world_gl تانسور (4، 4) float32 تبدیل از قاب دوربین مچ به قاب جهانی در کنوانسیون OpenGL/Blender.
steps/observation/wrist_camera_extrinsic_cv تانسور (4، 4) float32 ماتریس بیرونی دوربین مچ دست در قرارداد OpenCV.
steps/observation/wrist_camera_intinsic_cv تانسور (3، 3) float32 ماتریس ذاتی دوربین مچ دست در قرارداد OpenCV.
مراحل/مشاهده/عمق_مچ تصویر (256، 256، 1) uint16 مشاهده عمق دوربین مچ دست. مقدار عمق را بر 2**10 تقسیم کنید تا عمق را بر حسب متر بدست آورید.
مراحل/مشاهده/مچ_تصویر تصویر (256، 256، 3) uint8 مشاهده RGB دوربین مچ دست.
مراحل/پاداش اسکالر float32 در صورت ارائه پاداش، 1 در مرحله آخر برای دموها.
  • نقل قول :
@inproceedings{gu2023maniskill2,
  title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
  author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
  booktitle={International Conference on Learning Representations},
  year={2023}
}