rlu_dmlab_rooms_watermaze

  • opis :

RL Unplugged to zestaw testów porównawczych do uczenia się ze wzmacnianiem w trybie offline. RL Unplugged został zaprojektowany z myślą o następujących kwestiach: aby ułatwić użytkowanie, zapewniamy zestawy danych z ujednoliconym interfejsem API, który ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustaleniu ogólnego potoku.

Zestawy danych są zgodne z formatem RLDS, aby reprezentować kroki i epizody.

Zbiór danych DeepMind Lab ma kilka poziomów z wymagającego, częściowo obserwowalnego zestawu Deepmind Lab . Zbiór danych DeepMind Lab jest gromadzony poprzez szkolenie rozproszonych agentów R2D2 przez Kapturowski et al., 2018 od podstaw w zakresie poszczególnych zadań. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego treningu kilka razy dla każdego zadania. Szczegóły procesu generowania zestawu danych opisano w Gulcehre i in., 2021 .

Udostępniamy zestawy danych dla pięciu różnych poziomów DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Udostępniamy również zestawy danych migawek dla poziomu seekavoid_arena_01 , które wygenerowaliśmy na podstawie przeszkolonej migawki R2D2 z różnymi poziomami epsilonów dla algorytmu epsilon-greedy podczas oceny agenta w środowisku.

Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię modele RL offline na dużą skalę z pamięcią.

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_odcinka Napinacz int64
odcinek_powrót Napinacz pływak32
kroki Zbiór danych
kroki/działanie Napinacz int64
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja FunkcjeDict
kroki/obserwacja/ostatnia_akcja Napinacz int64
kroki/obserwacja/ostatnia_nagroda Napinacz pływak32
kroki/obserwacja/piksele Obraz (72, 96, 3) uint8
kroki/nagroda Napinacz pływak32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze/training_0 (domyślna konfiguracja)

  • Rozmiar zestawu danych : 894.50 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 67 876

rlu_dmlab_rooms_waterlaze/training_1

  • Rozmiar zestawu danych : 898.74 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 66 922

rlu_dmlab_rooms_watermaze/training_2

  • Rozmiar zestawu danych : 825.49 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 67081