ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

rlu_dmlab_explore_object_rewards_many

  • รายละเอียด:

RL Unplugged เป็นชุดของการวัดประสิทธิภาพสำหรับการเรียนรู้การเสริมแรงแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงข้อควรพิจารณาต่อไปนี้: เพื่อให้ง่ายต่อการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวมศูนย์ ซึ่งทำให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดโปรแกรมได้ง่ายเมื่อสร้างไปป์ไลน์ทั่วไปแล้ว

ชุด DeepMind Lab มีหลายระดับจากความท้าทายที่สังเกตได้บางส่วน ชุด Deepmind แล็บ ชุด DeepMind Lab เป็นที่เก็บรวบรวมโดยการฝึกอบรมการกระจาย R2D2 โดย Kapturowski et al., 2018 ตัวแทนจากรอยขีดข่วนในงานของแต่ละบุคคล เราบันทึกประสบการณ์ของนักแสดงทุกคนระหว่างการฝึกสองสามครั้งสำหรับทุกงาน รายละเอียดของกระบวนการสร้างชุดข้อมูลที่อธิบายไว้ใน Gulcehre et al., 2021

เราได้เปิดตัวชุดข้อมูลที่แตกต่างกันสำหรับห้าระดับ DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object นอกจากนี้เรายังปล่อยชุดข้อมูลภาพรวมสำหรับ seekavoid_arena_01 ระดับที่เราสร้างชุดข้อมูลจากภาพรวม R2D2 รับการฝึกอบรมที่มีระดับแตกต่างกันของ Epsilons สำหรับวิธี epsilon โลภเมื่อประเมินตัวแทนในสภาพแวดล้อมที่

ชุดข้อมูล DeepMind Lab มีขนาดค่อนข้างใหญ่ เราขอแนะนำให้คุณลองใช้หากคุณสนใจโมเดล RL ออฟไลน์ขนาดใหญ่ที่มีหน่วยความจำ

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_many/training_0 (การกำหนดค่าเริ่มต้น)

  • ขนาดชุด: 1.81 TiB

  • แยก:

แยก ตัวอย่าง
'train' 111,370

rlu_dmlab_explore_object_rewards_many/training_1

  • ขนาดชุด: 1.75 TiB

  • แยก:

แยก ตัวอย่าง
'train' 111,367

rlu_dmlab_explore_object_rewards_many/training_2

  • ขนาดชุด: 1.78 TiB

  • แยก:

แยก ตัวอย่าง
'train' 111,367