¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

rlu_dmlab_rooms_watermaze

  • Descripción:

RL Unplugged es un conjunto de puntos de referencia para el aprendizaje por refuerzo fuera de línea. El RL Unplugged está diseñado en torno a las siguientes consideraciones: para facilitar la facilidad de uso, proporcionamos los conjuntos de datos con una API unificada que facilita al profesional trabajar con todos los datos en la suite una vez que se ha establecido una canalización general.

Conjunto de datos DeepMind Lab tiene varios niveles, desde el desafiante, parcialmente observable en suite Deepmind laboratorio . Conjunto de datos DeepMind Lab se recoge mediante la formación distribuida R2D2 por Kapturowski et al., 2018 agentes a partir de cero en las tareas individuales. Registramos la experiencia de todos los actores durante toda la capacitación varias veces para cada tarea. Los detalles del proceso de generación de conjunto de datos se describen en Gulcehre et al., 2021 .

Liberamos conjuntos de datos para cinco niveles diferentes DeepMind de laboratorio: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . También liberamos los conjuntos de datos de instantáneas para seekavoid_arena_01 nivel que generamos los conjuntos de datos de una instantánea R2D2 entrenado con diferentes niveles de Epsilons para el algoritmo codicioso cuando épsilon-evaluar el agente en el medio ambiente.

El conjunto de datos de DeepMind Lab es bastante grande. Le recomendamos que lo pruebe si está interesado en modelos RL fuera de línea a gran escala con memoria.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze / training_0 (configuración predeterminada)

  • Tamaño de conjunto de datos: 967.84 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 67,876

rlu_dmlab_rooms_watermaze / training_1

  • Tamaño de conjunto de datos: 967.66 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 66,922

rlu_dmlab_rooms_watermaze / training_2

  • Tamaño de conjunto de datos: 892.60 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 67,081