- תיאור :
RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי הנתונים API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.
מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.
למערך הנתונים של DeepMind Lab יש כמה רמות מחבילת Deepmind Lab המאתגרת, הניתנת לצפייה חלקית. מערך הנתונים של DeepMind Lab נאסף על ידי הכשרה המופצת R2D2 על ידי סוכנים Kapturowski et al., 2018 מאפס במשימות בודדות. הקלטנו את החוויה של כל השחקנים במהלך ריצות אימון שלמות כמה פעמים עבור כל משימה. הפרטים של תהליך יצירת הנתונים מתוארים ב- Gulcehre et al., 2021 .
אנו משחררים מערכי נתונים עבור חמש רמות שונות של DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. אנו גם משחררים את מערכי הנתונים של תמונת המצב עבור רמת seekavoid_arena_01
שיצרנו את מערכי הנתונים מתצלום R2D2 מאומן עם רמות שונות של אפסילון עבור האלגוריתם החמדני של אפסילון בעת הערכת הסוכן בסביבה.
מערך הנתונים של DeepMind Lab הוא בקנה מידה גדול למדי. אנו ממליצים לך לנסות את זה אם אתה מעוניין בדגמי RL לא מקוונים בקנה מידה גדול עם זיכרון.
דף הבית : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
קוד מקור :
tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
גרסאות :
-
1.0.0
: שחרור ראשוני. -
1.1.0
: נוסף is_last. -
1.2.0
(ברירת מחדל): BGR -> תיקון RGB לתצפיות בפיקסלים.
-
גודל הורדה :
Unknown size
שמור אוטומטי במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
פרק_מזהה | מוֹתֵחַ | tf.int64 | ||
episode_return | מוֹתֵחַ | tf.float32 | ||
צעדים | מערך נתונים | |||
צעדים/פעולה | מוֹתֵחַ | tf.int64 | ||
צעדים/הנחה | מוֹתֵחַ | tf.float32 | ||
צעדים/הוא_ראשון | מוֹתֵחַ | tf.bool | ||
שלבים/הוא_אחרון | מוֹתֵחַ | tf.bool | ||
steps/is_terminal | מוֹתֵחַ | tf.bool | ||
צעדים/תצפית | FeaturesDict | |||
צעדים/תצפית/פעולה_אחרונה | מוֹתֵחַ | tf.int64 | ||
צעדים/תצפית/תגמול_אחרון | מוֹתֵחַ | tf.float32 | ||
צעדים/תצפית/פיקסלים | תמונה | (72, 96, 3) | tf.uint8 | |
צעדים/פרס | מוֹתֵחַ | tf.float32 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_select_nonmatching_object/training_0 (תצורת ברירת המחדל)
גודל מערך נתונים :
1.11 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 667,349 |
- דוגמאות ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object/training_1
גודל מערך נתונים :
1.08 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 666,923 |
- דוגמאות ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object/training_2
גודל מערך נתונים :
1.09 TiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 666,927 |
- דוגמאות ( tfds.as_dataframe ):