rlu_dmlab_explore_object_rewards_few

  • Descrizione :

RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato sulla base delle seguenti considerazioni: per facilitare la facilità d'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.

Il set di dati DeepMind Lab ha diversi livelli rispetto alla suite Deepmind Lab , impegnativa e parzialmente osservabile. Il set di dati di DeepMind Lab viene raccolto addestrando gli agenti R2D2 distribuiti da Kapturowski et al., 2018 da zero su singole attività. Abbiamo registrato l'esperienza di tutti gli attori durante l'intera formazione alcune volte per ogni attività. I dettagli del processo di generazione del set di dati sono descritti in Gulcehre et al., 2021 .

Rilasciamo set di dati per cinque diversi livelli di DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Rilasciamo anche i set di dati snapshot per il livello seekavoid_arena_01 che abbiamo generato i set di dati da uno snapshot R2D2 addestrato con diversi livelli di epsilon per l'algoritmo epsilon-greedy durante la valutazione dell'agente nell'ambiente.

Il set di dati di DeepMind Lab è piuttosto ampio. Ti consigliamo di provarlo se sei interessato a modelli RL offline su larga scala con memoria.

Diviso Esempi
'train' 89.144
  • Struttura delle caratteristiche :
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
episodio_id Tensore int64
episodio_ritorno Tensore galleggiante32
passi Set di dati
passi/azione Tensore int64
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione CaratteristicheDict
passi/osservazione/ultima_azione Tensore int64
passi/osservazione/ultima_ricompensa Tensore galleggiante32
passi/osservazione/pixel Immagine (72, 96, 3) uint8
passi/ricompensa Tensore galleggiante32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (configurazione predefinita)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2