- Descriptif :
D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d'analyse comparative.
Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.
Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit
Page d' accueil : https://sites.google.com/view/d4rl/home
Code source :
tfds.d4rl.d4rl_adroit_relocate.D4rlAdroitRelocate
Versions :
-
1.0.0
: Version initiale. -
1.1.0
(par défaut) : is_last ajouté.
-
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_relocate/v0-human (configuration par défaut)
Taille du téléchargement :
4.87 MiB
Taille du jeu de données :
5.48 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 60 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(36,), dtype=float32),
'qvel': Tensor(shape=(36,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/qpos | Tenseur | (36,) | float32 | |
étapes/infos/qvel | Tenseur | (36,) | float32 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
d4rl_adroit_relocate/v0-cloned
Taille du téléchargement :
647.11 MiB
Taille du jeu de données :
550.50 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 5 519 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(36,), dtype=float64),
'qvel': Tensor(shape=(36,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float64),
'reward': float64,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float64 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/qpos | Tenseur | (36,) | float64 | |
étapes/infos/qvel | Tenseur | (36,) | float64 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float64 | |
pas/récompense | Tenseur | float64 |
- Exemples ( tfds.as_dataframe ):
d4rl_adroit_relocate/v0-expert
Taille du téléchargement :
581.53 MiB
Taille du jeu de données :
778.97 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 5 000 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(30,), dtype=float32),
'action_mean': Tensor(shape=(30,), dtype=float32),
'qpos': Tensor(shape=(36,), dtype=float32),
'qvel': Tensor(shape=(36,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/action_logstd | Tenseur | (30,) | float32 | |
étapes/infos/action_mean | Tenseur | (30,) | float32 | |
étapes/infos/qpos | Tenseur | (36,) | float32 | |
étapes/infos/qvel | Tenseur | (36,) | float32 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-humain
Taille du téléchargement :
5.92 MiB
Taille du jeu de données :
6.94 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 25 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'hand_qpos': Tensor(shape=(30,), dtype=float32),
'obj_pos': Tensor(shape=(3,), dtype=float32),
'palm_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(36,), dtype=float32),
'qvel': Tensor(shape=(36,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/hand_qpos | Tenseur | (30,) | float32 | |
étapes/infos/obj_pos | Tenseur | (3,) | float32 | |
étapes/infos/palm_pos | Tenseur | (3,) | float32 | |
étapes/infos/qpos | Tenseur | (36,) | float32 | |
étapes/infos/qvel | Tenseur | (36,) | float32 | |
étapes/infos/target_pos | Tenseur | (3,) | float32 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-cloned
Taille du téléchargement :
554.39 MiB
Taille du jeu de données :
1.86 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 3 758 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(39, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(30,), dtype=float32),
'weight': Tensor(shape=(256, 30), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'hand_qpos': Tensor(shape=(30,), dtype=float32),
'obj_pos': Tensor(shape=(3,), dtype=float32),
'palm_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(36,), dtype=float32),
'qvel': Tensor(shape=(36,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
algorithme | Tenseur | chaîne de caractères | ||
politique | FonctionnalitésDict | |||
politique/fc0 | FonctionnalitésDict | |||
politique/fc0/biais | Tenseur | (256,) | float32 | |
politique/fc0/poids | Tenseur | (39, 256) | float32 | |
politique/fc1 | FonctionnalitésDict | |||
politique/fc1/biais | Tenseur | (256,) | float32 | |
politique/fc1/poids | Tenseur | (256, 256) | float32 | |
politique/dernier_fc | FonctionnalitésDict | |||
politique/last_fc/biais | Tenseur | (30,) | float32 | |
politique/last_fc/poids | Tenseur | (256, 30) | float32 | |
politique/non-linéarité | Tenseur | chaîne de caractères | ||
politique/sortie_distribution | Tenseur | chaîne de caractères | ||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/hand_qpos | Tenseur | (30,) | float32 | |
étapes/infos/obj_pos | Tenseur | (3,) | float32 | |
étapes/infos/palm_pos | Tenseur | (3,) | float32 | |
étapes/infos/qpos | Tenseur | (36,) | float32 | |
étapes/infos/qvel | Tenseur | (36,) | float32 | |
étapes/infos/target_pos | Tenseur | (3,) | float32 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
d4rl_adroit_relocate/v1-expert
Taille du téléchargement :
682.47 MiB
Taille du jeu de données :
1012.49 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 5 000 |
- Structure des fonctionnalités :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 39), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 32), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(30,), dtype=float32),
'weight': Tensor(shape=(30, 32), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(30,), dtype=float32),
'weight': Tensor(shape=(30, 32), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(30,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(30,), dtype=float32),
'action_mean': Tensor(shape=(30,), dtype=float32),
'hand_qpos': Tensor(shape=(30,), dtype=float32),
'obj_pos': Tensor(shape=(3,), dtype=float32),
'palm_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(36,), dtype=float32),
'qvel': Tensor(shape=(36,), dtype=float32),
'target_pos': Tensor(shape=(3,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
algorithme | Tenseur | chaîne de caractères | ||
politique | FonctionnalitésDict | |||
politique/fc0 | FonctionnalitésDict | |||
politique/fc0/biais | Tenseur | (32,) | float32 | |
politique/fc0/poids | Tenseur | (32, 39) | float32 | |
politique/fc1 | FonctionnalitésDict | |||
politique/fc1/biais | Tenseur | (32,) | float32 | |
politique/fc1/poids | Tenseur | (32, 32) | float32 | |
politique/dernier_fc | FonctionnalitésDict | |||
politique/last_fc/biais | Tenseur | (30,) | float32 | |
politique/last_fc/poids | Tenseur | (30, 32) | float32 | |
politique/last_fc_log_std | FonctionnalitésDict | |||
politique/last_fc_log_std/biais | Tenseur | (30,) | float32 | |
politique/last_fc_log_std/poids | Tenseur | (30, 32) | float32 | |
politique/non-linéarité | Tenseur | chaîne de caractères | ||
politique/sortie_distribution | Tenseur | chaîne de caractères | ||
pas | Base de données | |||
étapes/action | Tenseur | (30,) | float32 | |
étapes/réduction | Tenseur | float32 | ||
étapes/infos | FonctionnalitésDict | |||
étapes/infos/action_log_std | Tenseur | (30,) | float32 | |
étapes/infos/action_mean | Tenseur | (30,) | float32 | |
étapes/infos/hand_qpos | Tenseur | (30,) | float32 | |
étapes/infos/obj_pos | Tenseur | (3,) | float32 | |
étapes/infos/palm_pos | Tenseur | (3,) | float32 | |
étapes/infos/qpos | Tenseur | (36,) | float32 | |
étapes/infos/qvel | Tenseur | (36,) | float32 | |
étapes/infos/target_pos | Tenseur | (3,) | float32 | |
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | Tenseur | (39,) | float32 | |
pas/récompense | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):