हरकत

  • विवरण :

म्यूजोको लोकोमोशन कार्यों के पर्यावरण इनाम पर प्रशिक्षित एसएसी एजेंट के साथ डेटासेट बनाए गए थे। इन डेटासेट का उपयोग व्हाट मैटर्स फॉर एडवरसैरियल इमीटेशन लर्निंग? में किया जाता है। ओरसिनी एट अल। 2021

डेटासेट चरणों और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

चलन/ant_sac_1M_single_policy_stochastic (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • Config विवरण : चींटी के लिए 1M चरणों के लिए प्रशिक्षित SAC एजेंट द्वारा उत्पन्न डेटासेट।

  • डाउनलोड आकार : 6.49 MiB

  • डेटासेट का आकार : 23.02 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कदम डेटासेट
कदम / कार्रवाई टेन्सर (8,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन टेन्सर (111,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32

लोकोमोशन/hopper_sac_1M_single_policy_stochastic

  • कॉन्फ़िगरेशन विवरण : हूपर के लिए 1M चरणों के लिए प्रशिक्षित SAC एजेंट द्वारा उत्पन्न डेटासेट।

  • डाउनलोड आकार : 2.26 MiB

  • डेटासेट का आकार : 2.62 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कदम डेटासेट
कदम / कार्रवाई टेन्सर (3,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन टेन्सर (1 1,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32

लोकोमोशन/हाफचीताह_सैक_1एम_सिंगल_पॉलिसी_स्टोचैस्टिक

  • Config विवरण : हाफ चीता के लिए 1M चरणों के लिए प्रशिक्षित SAC एजेंट द्वारा उत्पन्न डेटासेट।

  • डाउनलोड आकार : 4.49 MiB

  • डेटासेट का आकार : 4.93 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कदम डेटासेट
कदम / कार्रवाई टेन्सर (6,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन टेन्सर (17,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32

हरकत/walker2d_sac_1M_single_policy_stochastic

  • कॉन्फ़िगरेशन विवरण : वॉकर2डी के लिए 1M चरणों के लिए प्रशिक्षित SAC एजेंट द्वारा उत्पन्न डेटासेट।

  • डाउनलोड आकार : 4.35 MiB

  • डेटासेट का आकार : 4.91 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कदम डेटासेट
कदम / कार्रवाई टेन्सर (6,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन टेन्सर (17,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32

लोकोमोशन/ह्यूमनॉइड_सैक_15एम_सिंगल_पॉलिसी_स्टोचैस्टिक

  • कॉन्फ़िगरेशन विवरण : ह्यूमनॉइड के लिए 15M चरणों के लिए प्रशिक्षित SAC एजेंट द्वारा उत्पन्न डेटासेट।

  • डाउनलोड आकार : 192.78 MiB

  • डेटासेट का आकार : 300.94 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 200
  • फ़ीचर संरचना :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
कदम डेटासेट
कदम / कार्रवाई टेन्सर (17,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन टेन्सर (376,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32