rlu_dmlab_explore_object_rewards_few

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه داده‌ها را با یک API یکپارچه ارائه می‌کنیم که کار با تمام داده‌های مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان می‌کند.

مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.

مجموعه داده DeepMind Lab دارای چندین سطح از مجموعه چالش برانگیز و نیمه قابل مشاهده Deepmind Lab است . مجموعه داده های آزمایشگاه DeepMind با آموزش توزیع شده R2D2 توسط Kapturowski و همکاران، عوامل 2018 از ابتدا در وظایف فردی جمع آوری شده است. ما تجربه را در تمام بازیگران در طول دوره های آموزشی چند بار برای هر کار ثبت کردیم. جزئیات فرآیند تولید مجموعه داده در Gulcehre و همکاران، 2021 توضیح داده شده است.

مجموعه داده‌هایی را برای پنج سطح مختلف DeepMind Lab منتشر می‌کنیم: seekavoid_arena_01 ، explore_rewards_few ، explore_rewards_many ، rooms_watermaze ، rooms_select_nonmatching_object . ما همچنین مجموعه داده‌های عکس فوری را برای سطح seekavoid_arena_01 می‌کنیم که مجموعه داده‌ها را از یک عکس فوری R2D2 با سطوح مختلف اپسیلون برای الگوریتم epsilon-greedy هنگام ارزیابی عامل در محیط تولید کردیم.

مجموعه داده DeepMind Lab نسبتاً بزرگ است. توصیه می کنیم اگر به مدل های RL آفلاین در مقیاس بزرگ با حافظه علاقه دارید آن را امتحان کنید.

شکاف مثال ها
'train' 89,144
  • ساختار ویژگی :
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
قسمت_id تانسور int64
قسمت_بازگشت تانسور float32
مراحل مجموعه داده
مراحل/عمل تانسور int64
مراحل/تخفیف تانسور float32
Steps/is_first تانسور بوول
Steps/is_last تانسور بوول
Steps/is_terminal تانسور بوول
مراحل / مشاهده FeaturesDict
مراحل/مشاهده/آخرین_عمل تانسور int64
مراحل/مشاهده/آخرین_پاداش تانسور float32
مراحل / مشاهده / پیکسل تصویر (72، 96، 3) uint8
مراحل/پاداش تانسور float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (پیکربندی پیش فرض)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2