Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

rlu_dmlab_seekavoid_arena01

  • opis:

RL Unplugged to zestaw benchmarków do uczenia się ze wzmocnieniem offline. RL Unplugged został zaprojektowany z myślą o następujących kwestiach: aby ułatwić korzystanie, dostarczamy zestawom danych zunifikowane API, które ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustanowieniu ogólnego potoku.

Zbiór danych DeepMind Lab posiada kilka poziomów z wyzwaniem, częściowo obserwowalnym pakietu Deepmind Lab . Zestaw danych DeepMind Lab zebrano przez szkolenie rozproszonego R2D2 przez Kapturowski i wsp., 2018 agentów od zera w poszczególnych zadań. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego szkolenia kilka razy dla każdego zadania. Szczegóły sposobu wytwarzania zestawu danych jest opisany w Gulcehre i in., 2021 .

Wydamy zbiorów danych dla pięciu różnych poziomach DeepMind Lab seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Mamy również zwolnić migawkę zestawów danych dla seekavoid_arena_01 poziomie, że wygenerowane zestawy danych z przeszkoloną R2D2 migawce z różnych poziomów Epsilonów dla algorytmu epsilon-chciwy przy ocenie czynnika w środowisku.

Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię wielkoskalowe modele RL offline z pamięcią.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (konfiguracja domyślna)

  • Zbiór danych rozmiar: 381.13 GiB

  • dzieli:

Podział Przykłady
'train' 134 707

rlu_dmlab_seekavoid_arena01/training_1

  • Zbiór danych rozmiar: 360.77 GiB

  • dzieli:

Podział Przykłady
'train' 128 472

rlu_dmlab_seekavoid_arena01/training_2

  • Zbiór danych rozmiar: 378.58 GiB

  • dzieli:

Podział Przykłady
'train' 133 545

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.0

  • Zbiór danych rozmiar: 94.83 GiB

  • dzieli:

Podział Przykłady
'train' 33,340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.0

  • Zbiór danych rozmiar: 94.68 GiB

  • dzieli:

Podział Przykłady
'train' 33,340

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.01

  • Zbiór danych rozmiar: 94.77 GiB

  • dzieli:

Podział Przykłady
'train' 33,340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.01

  • Zbiór danych rozmiar: 94.65 GiB

  • dzieli:

Podział Przykłady
'train' 33,340

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.25

  • Zbiór danych rozmiar: 93.96 GiB

  • dzieli:

Podział Przykłady
'train' 33,340

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.25

  • Zbiór danych rozmiar: 93.93 GiB

  • dzieli:

Podział Przykłady
'train' 33,340