Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

locomoción

Descripción :

Los conjuntos de datos se crearon con un agente SAC capacitado en la recompensa ambiental de las tareas de locomoción de MuJoCo. Estos conjuntos de datos se utilizan en What Matters for Adversarial Imitation Learning? Orsini et al. 2021 .

Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.

Página de inicio: https://github.com/google-research/rlds
Código fuente : tfds.rlds.locomotion.Locomotion
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomoción/ant_sac_1M_single_policy_stochastic (configuración predeterminada)

Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Ant.
Tamaño de la descarga : 6.49 MiB
Tamaño del conjunto de datos : 23.02 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	50

Estructura de características :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
pasos	conjunto de datos
pasos/acción	Tensor	(8,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	Tensor	(111,)	flotar32
pasos/recompensa	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

locomoción/hopper_sac_1M_single_policy_stochastic

Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Hopper.
Tamaño de la descarga : 2.26 MiB
Tamaño del conjunto de datos : 2.62 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	50

Estructura de características :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
pasos	conjunto de datos
pasos/acción	Tensor	(3,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	Tensor	(11,)	flotar32
pasos/recompensa	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

locomoción/halfcheetah_sac_1M_single_policy_stochastic

Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para HalfCheetah.
Tamaño de la descarga : 4.49 MiB
Tamaño del conjunto de datos : 4.93 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	50

Estructura de características :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
pasos	conjunto de datos
pasos/acción	Tensor	(6,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	Tensor	(17,)	flotar32
pasos/recompensa	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

locomoción/walker2d_sac_1M_single_policy_stochastic

Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 1 millón de pasos para Walker2d.
Tamaño de la descarga : 4.35 MiB
Tamaño del conjunto de datos : 4.91 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	50

Estructura de características :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
pasos	conjunto de datos
pasos/acción	Tensor	(6,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	Tensor	(17,)	flotar32
pasos/recompensa	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

locomoción/humanoid_sac_15M_single_policy_stochastic

Descripción de la configuración : conjunto de datos generado por un agente SAC capacitado para 15 millones de pasos para Humanoid.
Tamaño de la descarga : 192.78 MiB
Tamaño del conjunto de datos : 300.94 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	200

Estructura de características :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
pasos	conjunto de datos
pasos/acción	Tensor	(17,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	Tensor	(376,)	flotar32
pasos/recompensa	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):