bc_z

  • विवरण :

टेलिओप्ड Google रोबोट अधिकतर टेबल से जगह चुनता है

विभाजित करना उदाहरण
'train' 39,350
'val' 3,914
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
कदम डेटासेट
कदम/कार्रवाई फीचर्सडिक्ट
चरण/कार्रवाई/भविष्य/अक्ष_कोण_अवशिष्ट टेन्सर (30,) फ्लोट32 रोटेशन के लिए अगले 10 कार्य। प्रत्येक क्रिया वर्तमान अक्ष कोण में जोड़ने के लिए एक 3डी डेल्टा है।
चरण/कार्रवाई/भविष्य/लक्ष्य_बंद करें टेन्सर (10,) int64 ग्रिपर के लिए अगले 10 कार्य। प्रत्येक क्रिया वह मान है जिसमें ग्रिपर क्लोजर को बदला जाना चाहिए (विशेष रूप से यह डेल्टा नहीं है।)
चरण/कार्रवाई/भविष्य/xyz_अवशिष्ट टेन्सर (30,) फ्लोट32 पदों के लिए अगली 10 कार्रवाइयां. प्रत्येक क्रिया वर्तमान स्थिति में जोड़ने के लिए एक 3डी डेल्टा है।
चरण/पहला है टेन्सर बूल
चरण/अंतिम है टेन्सर बूल
चरण/is_terminal टेन्सर बूल
चरण/अवलोकन फीचर्सडिक्ट
चरण/अवलोकन/एपिसोड_सफलता टेन्सर फ्लोट32 0-1 सफलता का लेबल
चरण/अवलोकन/छवि छवि (171, 213, 3) uint8 रोबोट की कैमरा छवि, डाउनसैंपल 3x
चरण/अवलोकन/प्राकृतिक_भाषा_एम्बेडिंग टेन्सर (512,) फ्लोट32 यूनिवर्सल सेंटेंस एनकोडर ( https://tfhub.dev/google/universal-sentence-encoder/4 ) के माध्यम से कार्य का एम्बेडिंग
चरण/अवलोकन/प्राकृतिक_भाषा_निर्देश टेन्सर डोरी रोबोट को जो काम करने के लिए कहा गया था.
कदम/अवलोकन/वर्तमान/स्वायत्त टेन्सर int64 एपिसोड्स DAgger के माध्यम से एकत्र किए जाते हैं। यह 0/1 लेबल है कि क्या कार्रवाई पॉलिसी या टेलीऑपरेटर की ओर से है। 1=नीति से.
चरण/अवलोकन/वर्तमान/अक्ष_कोण टेन्सर (3,) फ्लोट32 अक्ष-कोण प्रतिनिधित्व में अंतिम प्रभावकार का वर्तमान घुमाव।
कदम/अवलोकन/वर्तमान/हस्तक्षेप टेन्सर int64 एपिसोड्स DAgger के माध्यम से एकत्र किए जाते हैं। यह 0/1 लेबल है कि क्या कार्रवाई पॉलिसी या टेलीऑपरेटर की ओर से है। 1=टेलीऑपरेटर से. यह वर्तमान/स्वायत्त के बिल्कुल विपरीत है
चरण/अवलोकन/वर्तमान/संवेदन_बंद करें टेन्सर (1,) फ्लोट32 वर्तमान में ग्रिपर कितना बंद है। 0 से 1 तक स्केल किया गया, लेकिन 0 से 1 तक के सभी मान पहुंच योग्य नहीं हैं। डेटा में रेंज लगभग 0.2 से 1 है
चरण/अवलोकन/वर्तमान/xyz टेन्सर (3,) फ्लोट32 रोबोट फ़्रेम में अक्ष-कोण प्रतिनिधित्व में अंतिम प्रभावकार की वर्तमान स्थिति
चरण/अवलोकन/अनुक्रम_लंबाई टेन्सर int64 एपिसोड की लंबाई
कदम/इनाम अदिश फ्लोट32
  • उद्धरण :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }