locomotion

  • Descriptif :

Les jeux de données ont été créés avec un agent SAC formé sur l'environnement de récompense des tâches de locomotion MuJoCo. Ces ensembles de données sont utilisés dans What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.s

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configuration par défaut)

  • Description de la configuration : jeu de données généré par un agent SAC formé pour 1 M d'étapes pour Ant.

  • Taille du téléchargement : 6.49 MiB

  • Taille du jeu de données : 23.02 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (8,) float32
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (111,) float32
pas/récompense Tenseur float32

locomotion/hopper_sac_1M_single_policy_stochastic

  • Description de la configuration : jeu de données généré par un agent SAC formé pour 1 M d'étapes pour Hopper.

  • Taille du téléchargement : 2.26 MiB

  • Taille du jeu de données : 2.62 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (3,) float32
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (11,) float32
pas/récompense Tenseur float32

locomotion/halfcheetah_sac_1M_single_policy_stochastic

  • Description de la configuration : jeu de données généré par un agent SAC formé pour les étapes 1M pour HalfCheetah.

  • Taille du téléchargement : 4.49 MiB

  • Taille du jeu de données : 4.93 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (6,) float32
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (17,) float32
pas/récompense Tenseur float32

locomotion/walker2d_sac_1M_single_policy_stochastic

  • Description de la configuration : Jeu de données généré par un agent SAC formé pour 1M d'étapes pour Walker2d.

  • Taille du téléchargement : 4.35 MiB

  • Taille du jeu de données : 4.91 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/action Tenseur (6,) float32
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (17,) float32
pas/récompense Tenseur float32

locomotion/humanoid_sac_15M_single_policy_stochastic

  • Description de la configuration : jeu de données généré par un agent SAC formé pour les étapes 15M pour Humanoid.

  • Taille du téléchargement : 192.78 MiB

  • Taille du jeu de données : 300.94 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (17,) float32
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (376,) float32
pas/récompense Tenseur float32