एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

rlu_dmlab_rooms_select_nonmatching_object

  • विवरण:

आरएल अनप्लग्ड ऑफ़लाइन सुदृढीकरण सीखने के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी की सुविधा के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो एक सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।

DeepMind लैब डाटासेट को चुनौती देने, आंशिक रूप से नमूदार से कई स्तरों है Deepmind लैब सूट । DeepMind लैब डाटासेट द्वारा वितरित R2D2 प्रशिक्षण के द्वारा एकत्र किया जाता है Kapturowski एट अल।, 2018 व्यक्तिगत कार्यों पर खरोंच से एजेंटों। हमने पूरे प्रशिक्षण के दौरान सभी अभिनेताओं के अनुभव को हर कार्य के लिए कई बार रिकॉर्ड किया। डाटासेट पीढ़ी प्रक्रिया के विवरण में वर्णित Gulcehre एट अल।, 2021

: हम पाँच अलग अलग DeepMind लैब के स्तर के लिए डेटासेट जारी seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object । हम यह भी के लिए स्नैपशॉट डेटासेट जारी seekavoid_arena_01 स्तर है कि हम एप्सिलॉन-लालची एल्गोरिथ्म के लिए epsilons के विभिन्न स्तरों के साथ एक प्रशिक्षित R2D2 स्नैपशॉट से डेटासेट उत्पन्न होती है जब वातावरण में एजेंट का मूल्यांकन।

डीपमाइंड लैब डेटासेट काफी बड़े पैमाने पर है। यदि आप मेमोरी के साथ बड़े पैमाने पर ऑफ़लाइन RL मॉडल में रुचि रखते हैं, तो हम आपको इसे आज़माने की सलाह देते हैं।

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार: 1.26 TiB

  • विभाजन:

विभाजित करना उदाहरण
'train' ६६७,३४९

rlu_dmlab_rooms_select_nonmatching_object/training_1

  • डेटासेट का आकार: 1.23 TiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 666,923

rlu_dmlab_rooms_select_nonmatching_object/training_2

  • डेटासेट का आकार: 1.24 TiB

  • विभाजन:

विभाजित करना उदाहरण
'train' ६६६,९२७