rlu_dmlab_rooms_select_nonmatching_object

Descriptif :

RL Unplugged est une suite de références pour l'apprentissage par renforcement hors ligne. Le RL Unplugged est conçu autour des considérations suivantes : pour faciliter l'utilisation, nous fournissons les ensembles de données avec une API unifiée qui permet au praticien de travailler facilement avec toutes les données de la suite une fois qu'un pipeline général a été établi.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

L'ensemble de données DeepMind Lab comporte plusieurs niveaux de la suite Deepmind Lab difficile et partiellement observable. L'ensemble de données DeepMind Lab est collecté par la formation distribuée R2D2 par Kapturowski et al., 2018 agents à partir de zéro sur des tâches individuelles. Nous avons enregistré l'expérience de tous les acteurs pendant des cycles de formation complets à quelques reprises pour chaque tâche. Les détails du processus de génération de l'ensemble de données sont décrits dans Gulcehre et al., 2021 .

Nous publions des ensembles de données pour cinq niveaux DeepMind Lab différents : seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Nous publions également les ensembles de données d'instantanés pour le niveau seekavoid_arena_01 que nous avons générés à partir d'un instantané R2D2 formé avec différents niveaux d'epsilons pour l'algorithme epsilon-greedy lors de l'évaluation de l'agent dans l'environnement.

L'ensemble de données DeepMind Lab est assez vaste. Nous vous recommandons de l'essayer si vous êtes intéressé par les modèles RL hors ligne à grande échelle avec mémoire.

Page d' accueil : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Code source : tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 : Ajout de is_last.
- 1.2.0 (par défaut) : BGR -> Correction RVB pour les observations de pixels.
Taille du téléchargement : Unknown size
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
épisode_id	Tenseur		int64
retour_épisode	Tenseur		float32
pas	Base de données
étapes/action	Tenseur		int64
étapes/réduction	Tenseur		float32
étapes/is_first	Tenseur		bourdonner
pas/est_dernier	Tenseur		bourdonner
étapes/is_terminal	Tenseur		bourdonner
étapes/observation	FonctionnalitésDict
étapes/observation/dernière_action	Tenseur		int64
étapes/observation/dernière_récompense	Tenseur		float32
pas/observation/pixels	Image	(72, 96, 3)	uint8
pas/récompense	Tenseur		float32

Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (configuration par défaut)

Taille du jeu de données : 1.11 TiB
Fractionnements :

Diviser	Exemples
`'train'`	667 349

Exemples ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_1

Taille du jeu de données : 1.08 TiB
Fractionnements :

Diviser	Exemples
`'train'`	666 923

Exemples ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_2

Taille du jeu de données : 1.09 TiB
Fractionnements :

Diviser	Exemples
`'train'`	666 927

Exemples ( tfds.as_dataframe ):