एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

rlu_dmlab_seekavoid_arena01

  • विवरण:

आरएल अनप्लग्ड ऑफ़लाइन सुदृढीकरण सीखने के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी की सुविधा के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो एक सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।

DeepMind लैब डाटासेट को चुनौती देने, आंशिक रूप से नमूदार से कई स्तरों है Deepmind लैब सूट । DeepMind लैब डाटासेट द्वारा वितरित R2D2 प्रशिक्षण के द्वारा एकत्र किया जाता है Kapturowski एट अल।, 2018 व्यक्तिगत कार्यों पर खरोंच से एजेंटों। हमने पूरे प्रशिक्षण के दौरान सभी अभिनेताओं के अनुभव को हर कार्य के लिए कई बार रिकॉर्ड किया। डाटासेट पीढ़ी प्रक्रिया के विवरण में वर्णित Gulcehre एट अल।, 2021

: हम पाँच अलग अलग DeepMind लैब के स्तर के लिए डेटासेट जारी seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object । हम यह भी के लिए स्नैपशॉट डेटासेट जारी seekavoid_arena_01 स्तर है कि हम एप्सिलॉन-लालची एल्गोरिथ्म के लिए epsilons के विभिन्न स्तरों के साथ एक प्रशिक्षित R2D2 स्नैपशॉट से डेटासेट उत्पन्न होती है जब वातावरण में एजेंट का मूल्यांकन।

डीपमाइंड लैब डेटासेट काफी बड़े पैमाने पर है। यदि आप मेमोरी के साथ बड़े पैमाने पर ऑफ़लाइन RL मॉडल में रुचि रखते हैं, तो हम आपको इसे आज़माने की सलाह देते हैं।

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार: 381.13 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' १३४,७०७

rlu_dmlab_seekavoid_arena01/training_1

  • डेटासेट का आकार: 360.77 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 128,472

rlu_dmlab_seekavoid_arena01/training_2

  • डेटासेट का आकार: 378.58 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' १३३,५४५

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_0_eps_0.0

  • डेटासेट का आकार: 94.83 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_1_eps_0.0

  • डेटासेट का आकार: 94.68 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_0_eps_0.01

  • डेटासेट का आकार: 94.77 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_1_eps_0.01

  • डेटासेट का आकार: 94.65 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_0_eps_0.25

  • डेटासेट का आकार: 93.96 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340

rlu_dmlab_seekavoid_arena01/स्नैपशॉट_1_eps_0.25

  • डेटासेट का आकार: 93.93 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 33,340