rlu_dmlab_rooms_select_nonmatching_object

  • תיאור :

RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי הנתונים API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.

מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.

למערך הנתונים של DeepMind Lab יש כמה רמות מחבילת Deepmind Lab המאתגרת, הניתנת לצפייה חלקית. מערך הנתונים של DeepMind Lab נאסף על ידי הכשרה המופצת R2D2 על ידי סוכנים Kapturowski et al., 2018 מאפס במשימות בודדות. הקלטנו את החוויה של כל השחקנים במהלך ריצות אימון שלמות כמה פעמים עבור כל משימה. הפרטים של תהליך יצירת הנתונים מתוארים ב- Gulcehre et al., 2021 .

אנו משחררים מערכי נתונים עבור חמש רמות שונות של DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . אנו גם משחררים את מערכי הנתונים של תמונת המצב עבור רמת seekavoid_arena_01 שיצרנו את מערכי הנתונים מתצלום R2D2 מאומן עם רמות שונות של אפסילון עבור האלגוריתם החמדני של אפסילון בעת ​​הערכת הסוכן בסביבה.

מערך הנתונים של DeepMind Lab הוא בקנה מידה גדול למדי. אנו ממליצים לך לנסות את זה אם אתה מעוניין בדגמי RL לא מקוונים בקנה מידה גדול עם זיכרון.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ tf.int64
episode_return מוֹתֵחַ tf.float32
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ tf.int64
צעדים/הנחה מוֹתֵחַ tf.float32
צעדים/הוא_ראשון מוֹתֵחַ tf.bool
שלבים/הוא_אחרון מוֹתֵחַ tf.bool
steps/is_terminal מוֹתֵחַ tf.bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/פעולה_אחרונה מוֹתֵחַ tf.int64
צעדים/תצפית/תגמול_אחרון מוֹתֵחַ tf.float32
צעדים/תצפית/פיקסלים תמונה (72, 96, 3) tf.uint8
צעדים/פרס מוֹתֵחַ tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (תצורת ברירת המחדל)

  • גודל מערך נתונים : 1.11 TiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 667,349

rlu_dmlab_rooms_select_nonmatching_object/training_1

  • גודל מערך נתונים : 1.08 TiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 666,923

rlu_dmlab_rooms_select_nonmatching_object/training_2

  • גודל מערך נתונים : 1.09 TiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 666,927