Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

rlu_control_suite

Descrição :

RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi projetado com base nas seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.

Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.

DeepMind Control Suite Tassa et al., 2018 é um conjunto de tarefas de controle implementadas em MuJoCo Todorov et al., 2012 . Consideramos um subconjunto das tarefas fornecidas no pacote que cobrem uma ampla gama de dificuldades.

A maioria dos conjuntos de dados neste domínio são gerados usando D4PG. Para os ambientes Manipulator insert ball e Manipulator insert peg usamos V-MPO Song et al., 2020 para gerar os dados, pois o D4PG é incapaz de resolver essas tarefas. Lançamos conjuntos de dados para 9 tarefas de suíte de controle. Para obter detalhes sobre como o conjunto de dados foi gerado, consulte o artigo.

O DeepMind Control Suite é um benchmark de RL de ação contínua tradicional. Em particular, recomendamos que você teste sua abordagem no DeepMind Control Suite se estiver interessado em comparar com outros métodos de RL off-line de última geração.

Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código -fonte: tfds.rl_unplugged.rlu_control_suite.RluControlSuite
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não compatível.
Citação :

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (configuração padrão)

Tamanho do conjunto de dados : 2.12 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	40

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(1,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/posição	tensor	(3,)	float32
passos/observação/velocidade	tensor	(2,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/cheetah_run

Tamanho do conjunto de dados : 36.58 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	300

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(6,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/posição	tensor	(8,)	float32
passos/observação/velocidade	tensor	(9,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/finger_turn_hard

Tamanho do conjunto de dados : 47.61 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	500

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(2,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/dist_to_target	tensor	(1,)	float32
passos/observação/posição	tensor	(4,)	float32
passos/observação/posição_alvo	tensor	(2,)	float32
passos/observação/velocidade	tensor	(3,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/fish_swim

Tamanho do conjunto de dados : 32.81 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	200

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(5,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/ângulos_articulações	tensor	(7,)	float32
passos/observação/alvo	tensor	(3,)	float32
passos/observação/vertical	tensor	(1,)	float32
passos/observação/velocidade	tensor	(13,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/humanoid_run

Tamanho do conjunto de dados : 1.21 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	3.000

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(21,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/com_velocity	tensor	(3,)	float32
passos/observação/extremidades	tensor	(12,)	float32
passos/observação/head_height	tensor	(1,)	float32
passos/observação/ângulos_articulações	tensor	(21,)	float32
passos/observação/torso_vertical	tensor	(3,)	float32
passos/observação/velocidade	tensor	(27,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/manipulator_insert_ball

Tamanho do conjunto de dados : 385.41 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	1.500

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(5,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/arm_pos	tensor	(16,)	float32
passos/observação/arm_vel	tensor	(8,)	float32
passos/observação/mão_pos	tensor	(4,)	float32
passos/observação/object_pos	tensor	(4,)	float32
passos/observação/object_vel	tensor	(3,)	float32
passos/observação/target_pos	tensor	(4,)	float32
passos/observação/toque	tensor	(5,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/manipulator_insert_peg

Tamanho do conjunto de dados : 385.73 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'train'`	1.500

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(5,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/arm_pos	tensor	(16,)	float32
passos/observação/arm_vel	tensor	(8,)	float32
passos/observação/mão_pos	tensor	(4,)	float32
passos/observação/object_pos	tensor	(4,)	float32
passos/observação/object_vel	tensor	(3,)	float32
passos/observação/target_pos	tensor	(4,)	float32
passos/observação/toque	tensor	(5,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/walker_stand

Tamanho do conjunto de dados : 31.78 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	200

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(6,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/altura	tensor	(1,)	float32
passos/observação/orientações	tensor	(14,)	float32
passos/observação/velocidade	tensor	(9,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite/walker_walk

Tamanho do conjunto de dados : 31.78 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	200

Estrutura de recursos :

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
episódio_id	tensor		int64
degraus	conjunto de dados
passos/ação	tensor	(6,)	float32
passos/desconto	tensor		float32
passos/é_primeiro	tensor		bool
passos/é_último	tensor		bool
passos/is_terminal	tensor		bool
passos/observação	RecursosDict
passos/observação/altura	tensor	(1,)	float32
passos/observação/orientações	tensor	(14,)	float32
passos/observação/velocidade	tensor	(9,)	float32
passos/recompensa	tensor		float32
carimbo de data/hora	tensor		int64

Exemplos ( tfds.as_dataframe ):

rlu_control_suite Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.