maniskill_dataset_converted_externally_to_rlds

  • বর্ণনা :

সিমুলেটেড ফ্রাঙ্কা বিভিন্ন ম্যানিপুলেশন কাজ সম্পাদন করছে

বিভক্ত উদাহরণ
'train' 30,213
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'episode_id': Text(shape=(), dtype=string),
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(7,), dtype=float32),
        'discount': Scalar(shape=(), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'base_pose': Tensor(shape=(7,), dtype=float32),
            'depth': Image(shape=(256, 256, 1), dtype=uint16),
            'image': Image(shape=(256, 256, 3), dtype=uint8),
            'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'state': Tensor(shape=(18,), dtype=float32),
            'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32),
            'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8),
            'tcp_pose': Tensor(shape=(7,), dtype=float32),
            'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32),
            'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32),
            'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16),
            'wrist_image': Image(shape=(256, 256, 3), dtype=uint8),
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_metadata ফিচারসডিক্ট
episode_metadata/episode_id পাঠ্য স্ট্রিং পর্ব আইডি।
episode_metadata/file_path পাঠ্য স্ট্রিং মূল ডেটা ফাইলের পথ।
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (৭,) float32 রোবট অ্যাকশনের মধ্যে রয়েছে [3x এন্ড ইফেক্টর ডেল্টা টার্গেট পজিশন, 3x এন্ড ইফেক্টর ডেল্টা টার্গেট অরিয়েন্টেশন অক্ষ-কোণ বিন্যাসে, 1x গ্রিপার টার্গেট পজিশন (দুই আঙ্গুলের জন্য নকল)]। ডেল্টা টার্গেট পজিশনের জন্য, -0.1m এর একটি রোবট মুভমেন্টের জন্য -1 ম্যাপের একটি অ্যাকশন এবং 0.1m গতিতে 1টি ম্যাপের অ্যাকশন। ডেল্টা টার্গেট ওরিয়েন্টেশনের জন্য, রোবট এক্সিকিউশনের জন্য এর এনকোড করা কোণটি [-0.1rad, 0.1rad] এর রেঞ্জে ম্যাপ করা হয়। উদাহরণস্বরূপ, [1, 0, 0] এর একটি ক্রিয়া মানে x-অক্ষ বরাবর 0.1 rad দ্বারা ঘোরানো। গ্রিপার টার্গেট পজিশনের জন্য, -1-এর অ্যাকশন মানে বন্ধ, এবং 1-এর অ্যাকশন মানে খোলা।
পদক্ষেপ/ছাড় স্কেলার float32 ডিসকাউন্ট দেওয়া হলে, ডিফল্ট 1.
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/ভাষা_এম্বেডিং টেনসর (512,) float32 কোন ভাষা এম্বেডিং. https://tfhub.dev/google/universal-sentence-encoder-large/5 দেখুন
পদক্ষেপ/ভাষা_নির্দেশ পাঠ্য স্ট্রিং ভাষার নির্দেশনা।
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/বেস_পোজ টেনসর (৭,) float32 বিশ্ব ফ্রেমে রোবট বেস পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। প্রথম তিনটি মাত্রা মিটারে xyz অবস্থানের প্রতিনিধিত্ব করে। শেষ চারটি মাত্রা হল ঘূর্ণনের quaternion উপস্থাপনা।
পদক্ষেপ/পর্যবেক্ষণ/গভীরতা ছবি (256, 256, 1) uint16 প্রধান ক্যামেরার গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন।
পদক্ষেপ/পর্যবেক্ষণ/চিত্র ছবি (256, 256, 3) uint8 প্রধান ক্যামেরা আরজিবি পর্যবেক্ষণ।
পদক্ষেপ/পর্যবেক্ষণ/main_camera_cam2world_gl টেনসর (৪, ৪) float32 ওপেনজিএল/ব্লেন্ডার কনভেনশনে মূল ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর।
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_বহির্ভূত_সিভি টেনসর (৪, ৪) float32 OpenCV কনভেনশনে প্রধান ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_ইন্ট্রিনসিক_সিভি টেনসর (৩, ৩) float32 OpenCV কনভেনশনে প্রধান ক্যামেরার অন্তর্নিহিত ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/রাষ্ট্র টেনসর (18,) float32 রোবট অবস্থা, [7x রোবট জয়েন্ট অ্যাঙ্গেল, 2x গ্রিপার পজিশন, 7x রোবট জয়েন্ট অ্যাঙ্গেল বেগ, 2x গ্রিপার বেগ] নিয়ে গঠিত। রেডিয়ানে কোণ, মিটারে অবস্থান।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অথবা_পার্ট_ফাইনাল_পোজ টেনসর (৭,) float32 চূড়ান্ত ভঙ্গি যার দিকে লক্ষ্যবস্তু বা বস্তুর অংশকে ম্যানিপুলেট করা দরকার, সেটি [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. একটি পর্ব সফল বলে বিবেচিত হয় যদি লক্ষ্য বস্তু বা বস্তুর অংশ এই ভঙ্গিতে ম্যানিপুলেট করা হয়।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_ফাইনাল_পজে_ভাল টেনসর (৭,) uint8 টার্গেট_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)। "অবৈধ" এর অর্থ হল সংশ্লিষ্ট মাত্রায় লক্ষ্য বস্তু বা বস্তুর অংশের চূড়ান্ত ভঙ্গিতে কোনো সফলতা যাচাই করা হয়নি।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজ টেনসর (৭,) float32 লক্ষ্যবস্তু বা বস্তুর অংশের প্রাথমিক ভঙ্গি যা ম্যানিপুলেট করা হবে, তাতে রয়েছে [x, y, z, qw, qx, qy, qz]। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. এই ভেরিয়েবলটি লক্ষ্য বস্তু বা বস্তুর অংশ নির্দিষ্ট করতে ব্যবহৃত হয় যখন একাধিক বস্তু বা বস্তুর অংশ একটি পরিবেশে উপস্থিত থাকে
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অর_অংশ_প্রাথমিক_ভঙ্গি_বৈধ টেনসর (৭,) uint8 লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)।
পদক্ষেপ/পর্যবেক্ষণ/tcp_pose টেনসর (৭,) float32 বিশ্ব ফ্রেমে রোবট টুল-সেন্টার-পয়েন্ট পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। টুল-সেন্টার-পয়েন্ট হল দুটি গ্রিপার আঙ্গুলের মধ্যবর্তী কেন্দ্র।
steps/observation/wrist_camera_cam2world_gl টেনসর (৪, ৪) float32 OpenGL/ব্লেন্ডার কনভেনশনে রিস্ট ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর।
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_extrinsic_cv টেনসর (৪, ৪) float32 OpenCV কনভেনশনে রিস্ট ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_intrinsic_cv টেনসর (৩, ৩) float32 OpenCV কনভেনশনে রিস্ট ক্যামেরা ইন্ট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_গভীরতা ছবি (256, 256, 1) uint16 কব্জি ক্যামেরা গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন।
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_চিত্র ছবি (256, 256, 3) uint8 কব্জি ক্যামেরা আরজিবি পর্যবেক্ষণ।
পদক্ষেপ/পুরস্কার স্কেলার float32 প্রদান করা হলে পুরস্কার, ডেমোর জন্য চূড়ান্ত ধাপে 1।
  • উদ্ধৃতি :
@inproceedings{gu2023maniskill2,
  title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
  author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
  booktitle={International Conference on Learning Representations},
  year={2023}
}