TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

d4rl_mujoco_halfcheetah

Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source : tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
Versions :
- 1.0.0 : Version initiale.
- 1.0.1 : Prise en charge des métadonnées des épisodes et des étapes, et unification de la forme des récompenses dans toutes les configurations.
- 1.1.0 : Ajout de is_last.
- 1.2.0 (par défaut) : Mis à jour pour prendre en compte l'observation suivante.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_halfcheetah/v0-expert (configuration par défaut)

Taille du téléchargement : 83.44 MiB
Taille de l'ensemble de données : 98.43 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 002

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v0-medium

Taille du téléchargement : 82.92 MiB
Taille de l'ensemble de données : 98.43 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 002

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v0-medium-expert

Taille du téléchargement : 166.36 MiB
Taille de l'ensemble de données : 196.86 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	2 004

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v0-mixed

Taille du téléchargement : 8.60 MiB
Taille de l'ensemble de données : 9.94 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	101

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v0-random

Taille du téléchargement : 84.79 MiB
Taille de l'ensemble de données : 98.43 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 002

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-expert

Taille du téléchargement : 146.94 MiB
Taille de l'ensemble de données : 451.88 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-medium

Taille du téléchargement : 146.65 MiB
Taille de l'ensemble de données : 451.88 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-medium-expert

Taille du téléchargement : 293.00 MiB
Taille de l'ensemble de données : 342.37 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 000

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-medium-replay

Taille du téléchargement : 57.68 MiB
Taille de l'ensemble de données : 34.59 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	202

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-full-replay

Taille du téléchargement : 285.01 MiB
Taille de l'ensemble de données : 171.22 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v1-random

Taille du téléchargement : 145.19 MiB
Taille de l'ensemble de données : 171.18 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(9,)	flotteur32
étapes/infos/qvel	Tenseur	(9,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-expert

Taille du téléchargement : 226.46 MiB
Taille de l'ensemble de données : 451.88 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-full-replay

Taille du téléchargement : 277.88 MiB
Taille de l'ensemble de données : 171.22 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-medium

Taille du téléchargement : 226.71 MiB
Taille de l'ensemble de données : 451.88 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 17)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(6,)	flotteur32
politique/last_fc/poids	Tenseur	(6, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(6,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(6, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-medium-expert

Taille du téléchargement : 452.58 MiB
Taille de l'ensemble de données : 342.37 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 000

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-medium-replay

Taille du téléchargement : 56.69 MiB
Taille de l'ensemble de données : 34.59 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	202

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah/v2-random

Taille du téléchargement : 226.34 MiB
Taille de l'ensemble de données : 171.18 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	1 000

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(9,)	flotteur64
étapes/infos/qvel	Tenseur	(9,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_halfcheetah Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.