locomotion

Description :

Les ensembles de données ont été créés avec un agent SAC formé à la récompense environnementale des tâches de locomotion MuJoCo. Ces ensembles de données sont utilisés dans What Matters for Adversarial Imitation Learning ? Orsini et coll. 2021 .

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Page d'accueil : https://github.com/google-research/rlds
Code source : tfds.rlds.datasets.locomotion.Locomotion
Versions :
- 1.0.0 (par défaut) : version initiale.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configuration par défaut)

Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Ant.
Taille du téléchargement : 6.49 MiB
Taille de l'ensemble de données : 23.02 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

locomotion/hopper_sac_1M_single_policy_stochastic

Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Hopper.
Taille du téléchargement : 2.26 MiB
Taille de l'ensemble de données : 2.62 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

locomotion/halfcheetah_sac_1M_single_policy_stochastic

Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour HalfCheetah.
Taille du téléchargement : 4.49 MiB
Taille de l'ensemble de données : 4.93 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

locomotion/walker2d_sac_1M_single_policy_stochastic

Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Walker2d.
Taille du téléchargement : 4.35 MiB
Taille de l'ensemble de données : 4.91 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	50

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(6,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(17,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

locomotion/humanoid_sac_15M_single_policy_stochastic

Description de la configuration : Ensemble de données généré par un agent SAC formé pour 15 millions d'étapes pour Humanoid.
Taille du téléchargement : 192.78 MiB
Taille de l'ensemble de données : 300.94 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	200

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(17,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(376,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :