rlu_dmlab_rooms_select_nonmatching_object

  • Description:

RL Unplugged est une suite de références pour l'apprentissage par renforcement hors ligne. Le RL Unplugged est conçu autour des considérations suivantes : pour faciliter l'utilisation, nous fournissons aux ensembles de données une API unifiée qui permet au praticien de travailler facilement avec toutes les données de la suite une fois qu'un pipeline général a été établi.

DeepMind ensemble de données Lab a plusieurs niveaux de la remise en question, partiellement observable Suite Deepmind Lab . DeepMind ensemble de données de laboratoire sont collectées par la formation R2D2 distribués par Kapturowski et al., 2018 agents à partir de zéro sur les tâches individuelles. Nous avons enregistré l'expérience de tous les acteurs pendant l'intégralité des sessions de formation à plusieurs reprises pour chaque tâche. Les détails du processus de génération de jeu de données est décrite dans Gulcehre et al., 2021 .

Nous diffusons des ensembles de données pour cinq différents niveaux de laboratoire DeepMind: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Nous publions également les jeux de données instantané pour seekavoid_arena_01 niveau que nous avons généré les ensembles de données à partir d' un instantané R2D2 formés avec différents niveaux de epsilons pour l'algorithme epsilon-gourmand lors de l' évaluation de l'agent dans l'environnement.

L'ensemble de données DeepMind Lab est assez volumineux. Nous vous recommandons de l'essayer si vous êtes intéressé par les modèles RL hors ligne à grande échelle avec mémoire.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (configuration par défaut)

  • Dataset Taille: 1.26 TiB

  • scissions:

Diviser Exemples
'train' 667 349

rlu_dmlab_rooms_select_nonmatching_object/training_1

  • Dataset Taille: 1.23 TiB

  • scissions:

Diviser Exemples
'train' 666 923

rlu_dmlab_rooms_select_nonmatching_object/training_2

  • Dataset Taille: 1.24 TiB

  • scissions:

Diviser Exemples
'train' 666 927