¡TFDS ahora admite el formato Croissant 🥐 ! Lea la documentación para saber más.

Se usó la API de Cloud Translation para traducir esta página.

rlu_locomoción

Descripción :

RL Unplugged es un conjunto de puntos de referencia para el aprendizaje por refuerzo fuera de línea. El RL Unplugged está diseñado en torno a las siguientes consideraciones: para facilitar el uso, proporcionamos los conjuntos de datos con una API unificada que facilita al profesional trabajar con todos los datos en la suite una vez que se ha establecido una canalización general.

Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.

Estas tareas se componen de las tareas de locomoción del corredor que involucran al CMU Humanoid, para las cuales los esfuerzos anteriores han utilizado datos de captura de movimiento Merel et al., 2019a , Merel et al., 2019b o entrenamiento desde cero Song et al., 2020 . Además, el repositorio de DM Locomotion contiene un conjunto de tareas adaptadas para adaptarse a un roedor virtual Merel et al., 2020 . Hacemos hincapié en que las tareas de locomoción de DM presentan la combinación de un control continuo desafiante de alto DoF junto con la percepción de ricas observaciones egocéntricas. Para obtener detalles sobre cómo se generó el conjunto de datos, consulte el documento.

Le recomendamos que pruebe los métodos de RL fuera de línea en el conjunto de datos de DeepMind Locomotion, si está interesado en un conjunto de datos de RL fuera de línea muy desafiante con espacio de acción continua.

Página de inicio: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código fuente : tfds.rl_unplugged.rlu_locomotion.RluLocomotion
Versiones :
- 1.0.0 (predeterminado): Versión inicial.
Tamaño de descarga : Unknown size
Almacenamiento automático en caché ( documentación ): No
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (configuración predeterminada)

Tamaño del conjunto de datos : 1.88 GiB
Divisiones :

Separar	Ejemplos
`'train'`	4,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(56,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/andador/cuerpo_altura	Tensor	(1,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/walker/end_effectors_pos	Tensor	(12,)	flotar32
pasos/observación/andador/articulaciones_pos	Tensor	(56,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(56,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/humanoid_gaps

Tamaño del conjunto de datos : 4.57 GiB
Divisiones :

Separar	Ejemplos
`'train'`	8,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(56,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/andador/cuerpo_altura	Tensor	(1,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/walker/end_effectors_pos	Tensor	(12,)	flotar32
pasos/observación/andador/articulaciones_pos	Tensor	(56,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(56,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/humanoid_walls

Tamaño del conjunto de datos : 2.36 GiB
Divisiones :

Separar	Ejemplos
`'train'`	4,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(56,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/andador/cuerpo_altura	Tensor	(1,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/walker/end_effectors_pos	Tensor	(12,)	flotar32
pasos/observación/andador/articulaciones_pos	Tensor	(56,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(56,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/rodent_bowl_escape

Tamaño del conjunto de datos : 16.46 GiB
Divisiones :

Separar	Ejemplos
`'train'`	2,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(38,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/caminante/apéndices_pos	Tensor	(15,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/andador/articulaciones_pos	Tensor	(30,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(30,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_toque	Tensor	(4,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/andador/tendons_pos	Tensor	(8,)	flotar32
pasos/observación/andador/tendons_vel	Tensor	(8,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/rodent_gaps

Tamaño del conjunto de datos : 8.90 GiB
Divisiones :

Separar	Ejemplos
`'train'`	2,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(38,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/caminante/apéndices_pos	Tensor	(15,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/andador/articulaciones_pos	Tensor	(30,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(30,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_toque	Tensor	(4,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/andador/tendons_pos	Tensor	(8,)	flotar32
pasos/observación/andador/tendons_vel	Tensor	(8,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/rodent_mazes

Tamaño del conjunto de datos : 20.71 GiB
Divisiones :

Separar	Ejemplos
`'train'`	2,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(38,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/caminante/apéndices_pos	Tensor	(15,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/andador/articulaciones_pos	Tensor	(30,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(30,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_toque	Tensor	(4,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/andador/tendons_pos	Tensor	(8,)	flotar32
pasos/observación/andador/tendons_vel	Tensor	(8,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):

rlu_locomotion/rodent_two_touch

Tamaño del conjunto de datos : 23.05 GiB
Divisiones :

Separar	Ejemplos
`'train'`	2,000

Estructura de características :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
episodio_id	Tensor		int64
pasos	conjunto de datos
pasos/acción	Tensor	(38,)	flotar32
pasos/descuento	Tensor		flotar32
pasos/es_primero	Tensor		bool
pasos/es_último	Tensor		bool
pasos/es_terminal	Tensor		bool
pasos/observación	CaracterísticasDict
pasos/observación/andador	CaracterísticasDict
pasos/observación/caminante/apéndices_pos	Tensor	(15,)	flotar32
pasos/observación/caminante/egocentric_camera	Imagen	(64, 64, 3)	uint8
pasos/observación/andador/articulaciones_pos	Tensor	(30,)	flotar32
pasos/observación/andador/articulaciones_vel	Tensor	(30,)	flotar32
pasos/observación/andador/sensores_acelerómetro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_gyro	Tensor	(3,)	flotar32
pasos/observación/andador/sensores_toque	Tensor	(4,)	flotar32
pasos/observación/andador/sensores_velocimetro	Tensor	(3,)	flotar32
pasos/observación/andador/tendons_pos	Tensor	(8,)	flotar32
pasos/observación/andador/tendons_vel	Tensor	(8,)	flotar32
pasos/observación/caminante/mundo_zaxis	Tensor	(3,)	flotar32
pasos/recompensa	Tensor		flotar32
marca de tiempo	Tensor		int64

Ejemplos ( tfds.as_dataframe ):