locomoción

  • Descripción :

Los conjuntos de datos se crearon con un agente SAC capacitado en la recompensa ambiental de las tareas de locomoción de MuJoCo. Estos conjuntos de datos se utilizan en What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomoción/ant_sac_1M_single_policy_stochastic (configuración predeterminada)

  • Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Ant.

  • Tamaño de la descarga : 6.49 MiB

  • Tamaño del conjunto de datos : 23.02 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 50
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(111,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
pasos conjunto de datos
pasos/acción Tensor (8,) tf.float32
pasos/descuento Tensor tf.float32
pasos/es_primero Tensor tf.bool
pasos/es_último Tensor tf.bool
pasos/es_terminal Tensor tf.bool
pasos/observación Tensor (111,) tf.float32
pasos/recompensa Tensor tf.float32

locomoción/hopper_sac_1M_single_policy_stochastic

  • Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Hopper.

  • Tamaño de la descarga : 2.26 MiB

  • Tamaño del conjunto de datos : 2.62 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 50
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(11,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
pasos conjunto de datos
pasos/acción Tensor (3,) tf.float32
pasos/descuento Tensor tf.float32
pasos/es_primero Tensor tf.bool
pasos/es_último Tensor tf.bool
pasos/es_terminal Tensor tf.bool
pasos/observación Tensor (11,) tf.float32
pasos/recompensa Tensor tf.float32

locomoción/halfcheetah_sac_1M_single_policy_stochastic

  • Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para HalfCheetah.

  • Tamaño de la descarga : 4.49 MiB

  • Tamaño del conjunto de datos : 4.93 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 50
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
pasos conjunto de datos
pasos/acción Tensor (6,) tf.float32
pasos/descuento Tensor tf.float32
pasos/es_primero Tensor tf.bool
pasos/es_último Tensor tf.bool
pasos/es_terminal Tensor tf.bool
pasos/observación Tensor (17,) tf.float32
pasos/recompensa Tensor tf.float32

locomoción/walker2d_sac_1M_single_policy_stochastic

  • Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Walker2d.

  • Tamaño de la descarga : 4.35 MiB

  • Tamaño del conjunto de datos : 4.91 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 50
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(17,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
pasos conjunto de datos
pasos/acción Tensor (6,) tf.float32
pasos/descuento Tensor tf.float32
pasos/es_primero Tensor tf.bool
pasos/es_último Tensor tf.bool
pasos/es_terminal Tensor tf.bool
pasos/observación Tensor (17,) tf.float32
pasos/recompensa Tensor tf.float32

locomoción/humanoid_sac_15M_single_policy_stochastic

  • Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 15 millones de pasos para Humanoid.

  • Tamaño de la descarga : 192.78 MiB

  • Tamaño del conjunto de datos : 300.94 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'train' 200
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=tf.float32),
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(376,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
pasos conjunto de datos
pasos/acción Tensor (17,) tf.float32
pasos/descuento Tensor tf.float32
pasos/es_primero Tensor tf.bool
pasos/es_último Tensor tf.bool
pasos/es_terminal Tensor tf.bool
pasos/observación Tensor (376,) tf.float32
pasos/recompensa Tensor tf.float32