rlu_dmlab_seekavoid_arena01

  • Açıklama :

RL Unplugged, çevrimdışı pekiştirme öğrenimi için bir dizi testtir. RL Unplugged aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için veri kümelerine, genel bir işlem hattı oluşturulduktan sonra uygulamacının süitteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini takip eder.

DeepMind Lab veri kümesi, zorlu, kısmen gözlemlenebilir Deepmind Lab paketinden birkaç seviyeye sahiptir. DeepMind Lab veri seti, Kapturowski ve diğerleri, 2018 aracıları tarafından bireysel görevlerde sıfırdan dağıtılan R2D2 eğitimi ile toplanır. Her görev için tüm eğitim çalışmaları sırasında tüm aktörler arasındaki deneyimi birkaç kez kaydettik. Veri seti oluşturma sürecinin detayları Gülcehre ve diğerleri, 2021'de açıklanmıştır.

Beş farklı DeepMind Lab düzeyi için veri kümeleri yayınlıyoruz: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Ayrıca, ortamdaki aracıyı değerlendirirken epsilon-açgözlü algoritması için eğitimli bir R2D2 anlık görüntüsünden veri kümelerini oluşturduğumuz seekavoid_arena_01 düzeyi için anlık görüntü veri kümelerini yayınlıyoruz.

DeepMind Lab veri seti oldukça büyük ölçeklidir. Hafızalı büyük ölçekli offline RL modellerine ilginiz varsa denemenizi tavsiye ederiz.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
bölüm_kimliği tensör tf.int64
bölüm_dönüş tensör tf.float32
adımlar veri kümesi
adımlar/eylem tensör tf.int64
adımlar/indirim tensör tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/son_eylem tensör tf.int64
adımlar/gözlem/last_reward tensör tf.float32
adımlar/gözlem/pikseller resim (72, 96, 3) tf.uint8
adımlar/ödül tensör tf.float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (varsayılan yapılandırma)

  • Veri kümesi boyutu : 356.86 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 134.707

rlu_dmlab_seekavoid_arena01/training_1

  • Veri kümesi boyutu : 337.09 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 128.472

rlu_dmlab_seekavoid_arena01/training_2

  • Veri kümesi boyutu : 355.62 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 133,545

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.0

  • Veri kümesi boyutu : 89.16 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.0

  • Veri kümesi boyutu : 89.03 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.01

  • Veri kümesi boyutu : 89.12 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.01

  • Veri kümesi boyutu : 89.02 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.25

  • Veri kümesi boyutu : 88.57 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.25

  • Veri kümesi boyutu : 88.51 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 33.340