- Açıklama :
RL Unplugged, çevrimdışı pekiştirme öğrenimi için bir dizi testtir. RL Unplugged aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için veri kümelerine, genel bir işlem hattı oluşturulduktan sonra uygulamacının süitteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini takip eder.
DeepMind Lab veri kümesi, zorlu, kısmen gözlemlenebilir Deepmind Lab paketinden birkaç seviyeye sahiptir. DeepMind Lab veri seti, Kapturowski ve diğerleri, 2018 aracıları tarafından bireysel görevlerde sıfırdan dağıtılan R2D2 eğitimi ile toplanır. Her görev için tüm eğitim çalışmaları sırasında tüm aktörler arasındaki deneyimi birkaç kez kaydettik. Veri seti oluşturma sürecinin detayları Gülcehre ve diğerleri, 2021'de açıklanmıştır.
Beş farklı DeepMind Lab düzeyi için veri kümeleri yayınlıyoruz: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Ayrıca, ortamdaki aracıyı değerlendirirken epsilon-açgözlü algoritması için eğitimli bir R2D2 anlık görüntüsünden veri kümelerini oluşturduğumuz seekavoid_arena_01
düzeyi için anlık görüntü veri kümelerini yayınlıyoruz.
DeepMind Lab veri seti oldukça büyük ölçeklidir. Hafızalı büyük ölçekli offline RL modellerine ilginiz varsa denemenizi tavsiye ederiz.
Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kaynak kodu :
tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
Sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
: is_last eklendi. -
1.2.0
(varsayılan): BGR -> Piksel gözlemleri için RGB düzeltmesi.
-
İndirme boyutu :
Unknown size
Otomatik önbelleğe alındı ( belgeler ): Hayır
Özellik yapısı :
FeaturesDict({
'episode_id': tf.int64,
'episode_return': tf.float32,
'steps': Dataset({
'action': tf.int64,
'discount': tf.float32,
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': FeaturesDict({
'last_action': tf.int64,
'last_reward': tf.float32,
'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
}),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | tf.int64 | ||
bölüm_dönüş | tensör | tf.float32 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | tf.int64 | ||
adımlar/indirim | tensör | tf.float32 | ||
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/son_eylem | tensör | tf.int64 | ||
adımlar/gözlem/last_reward | tensör | tf.float32 | ||
adımlar/gözlem/pikseller | resim | (72, 96, 3) | tf.uint8 | |
adımlar/ödül | tensör | tf.float32 |
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
alıntı :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_select_nonmatching_object/training_0 (varsayılan yapılandırma)
Veri kümesi boyutu :
1.11 TiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 667.349 |
- Örnekler ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object/training_1
Veri kümesi boyutu :
1.08 TiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 666.923 |
- Örnekler ( tfds.as_dataframe ):
rlu_dmlab_rooms_select_nonmatching_object/training_2
Veri kümesi boyutu :
1.09 TiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 666.927 |
- Örnekler ( tfds.as_dataframe ):