rlu_dmlab_rooms_select_nonmatching_object

Açıklama :

RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için veri kümelerine, genel bir boru hattı oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.

DeepMind Lab veri kümesi, zorlu, kısmen gözlemlenebilir Deepmind Lab paketinden birkaç seviyeye sahiptir. DeepMind Lab veri seti, Kapturowski ve diğerleri, 2018 aracıları tarafından dağıtılan R2D2 eğitimiyle bireysel görevlerde sıfırdan toplanır. Tüm eğitim boyunca tüm oyuncuların deneyimini her görev için birkaç kez kaydettik. Veri seti oluşturma sürecinin detayları Gulcehre ve diğerleri, 2021'de açıklanmıştır.

Beş farklı DeepMind Lab düzeyi için veri kümeleri yayınlıyoruz: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Ayrıca ortamdaki etmeni değerlendirirken epsilon açgözlü algoritması için farklı seviyelerde epsilonlara sahip eğitimli bir R2D2 anlık görüntüsünden oluşturduğumuz seekavoid_arena_01 düzeyi için anlık görüntü veri kümelerini de yayınlıyoruz.

DeepMind Lab veri seti oldukça büyük ölçeklidir. Hafızalı büyük ölçekli offline RL modelleriyle ilgileniyorsanız denemenizi öneririz.

Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kaynak kodu : tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
sürümler :
- 1.0.0 : İlk sürüm.
- 1.1.0 : is_last eklendi.
- 1.2.0 (varsayılan): BGR -> Piksel gözlemleri için RGB düzeltmesi.
İndirme boyutu : Unknown size
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
bölüm_kimliği	tensör		int64
bölüm_dönüş	tensör		şamandıra32
adımlar	veri kümesi
adımlar/eylem	tensör		int64
adımlar/indirim	tensör		şamandıra32
adımlar/ilk_ilk	tensör		bool
adımlar/is_last	tensör		bool
adımlar/is_terminali	tensör		bool
adımlar/gözlem	ÖzelliklerDict
adımlar/gözlem/son_eylem	tensör		int64
adımlar/gözlem/son_ödül	tensör		şamandıra32
adımlar/gözlem/pikseller	resim	(72, 96, 3)	uint8
adımlar/ödül	tensör		şamandıra32

Denetlenen anahtarlar (Bkz as_supervised doc ): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (varsayılan yapılandırma)

Veri kümesi boyutu : 1.11 TiB
bölmeler :

Bölmek	örnekler
`'train'`	667.349

Örnekler ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_1

Veri kümesi boyutu : 1.08 TiB
bölmeler :

Bölmek	örnekler
`'train'`	666.923

Örnekler ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_2

Veri kümesi boyutu : 1.09 TiB
bölmeler :

Bölmek	örnekler
`'train'`	666.927

Örnekler ( tfds.as_dataframe ):