d4rl_adroit_hammer

  • Descriptif :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d'analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_hammer/v0-human (configuration par défaut)

  • Taille du téléchargement : 5.33 MiB

  • Taille du jeu de données : 6.10 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 70
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(33,), dtype=float32),
            'qvel': Tensor(shape=(33,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float32
étapes/infos FonctionnalitésDict
étapes/infos/qpos Tenseur (33,) float32
étapes/infos/qvel Tenseur (33,) float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float32
pas/récompense Tenseur float32

d4rl_adroit_hammer/v0-cloned

  • Taille du téléchargement : 644.69 MiB

  • Taille du jeu de données : 538.97 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 5 594
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(33,), dtype=float64),
            'qvel': Tensor(shape=(33,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float64),
        'reward': float64,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float64
étapes/infos FonctionnalitésDict
étapes/infos/qpos Tenseur (33,) float64
étapes/infos/qvel Tenseur (33,) float64
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float64
pas/récompense Tenseur float64

d4rl_adroit_hammer/v0-expert

  • Taille du téléchargement : 529.91 MiB

  • Taille du jeu de données : 737.00 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 5 000
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(26,), dtype=float32),
            'action_mean': Tensor(shape=(26,), dtype=float32),
            'qpos': Tensor(shape=(33,), dtype=float32),
            'qvel': Tensor(shape=(33,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float32
étapes/infos FonctionnalitésDict
étapes/infos/action_logstd Tenseur (26,) float32
étapes/infos/action_mean Tenseur (26,) float32
étapes/infos/qpos Tenseur (33,) float32
étapes/infos/qvel Tenseur (33,) float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float32
pas/récompense Tenseur float32

d4rl_adroit_hammer/v1-humain

  • Taille du téléchargement : 5.35 MiB

  • Taille du jeu de données : 6.34 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 25
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'board_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(33,), dtype=float32),
            'qvel': Tensor(shape=(33,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float32
étapes/infos FonctionnalitésDict
étapes/infos/board_pos Tenseur (3,) float32
étapes/infos/qpos Tenseur (33,) float32
étapes/infos/qvel Tenseur (33,) float32
étapes/infos/target_pos Tenseur (3,) float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float32
pas/récompense Tenseur float32

d4rl_adroit_hammer/v1-cloné

  • Taille du téléchargement : 425.93 MiB

  • Taille du jeu de données : 1.68 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 3 606
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(46, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(26,), dtype=float32),
            'weight': Tensor(shape=(256, 26), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'board_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(33,), dtype=float32),
            'qvel': Tensor(shape=(33,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur chaîne de caractères
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (256,) float32
politique/fc0/poids Tenseur (46, 256) float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (256,) float32
politique/fc1/poids Tenseur (256, 256) float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (26,) float32
politique/last_fc/poids Tenseur (256, 26) float32
politique/non-linéarité Tenseur chaîne de caractères
politique/sortie_distribution Tenseur chaîne de caractères
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float32
étapes/infos FonctionnalitésDict
étapes/infos/board_pos Tenseur (3,) float32
étapes/infos/qpos Tenseur (33,) float32
étapes/infos/qvel Tenseur (33,) float32
étapes/infos/target_pos Tenseur (3,) float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float32
pas/récompense Tenseur float32

d4rl_adroit_hammer/v1-expert

  • Taille du téléchargement : 531.24 MiB

  • Taille du jeu de données : 843.54 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'train' 5 000
  • Structure des fonctionnalités :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 46), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(26,), dtype=float32),
            'weight': Tensor(shape=(26, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(26,), dtype=float32),
            'weight': Tensor(shape=(26, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(26,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(26,), dtype=float32),
            'action_mean': Tensor(shape=(26,), dtype=float32),
            'board_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(33,), dtype=float32),
            'qvel': Tensor(shape=(33,), dtype=float32),
            'target_pos': Tensor(shape=(3,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(46,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
algorithme Tenseur chaîne de caractères
politique FonctionnalitésDict
politique/fc0 FonctionnalitésDict
politique/fc0/biais Tenseur (32,) float32
politique/fc0/poids Tenseur (32, 46) float32
politique/fc1 FonctionnalitésDict
politique/fc1/biais Tenseur (32,) float32
politique/fc1/poids Tenseur (32, 32) float32
politique/dernier_fc FonctionnalitésDict
politique/last_fc/biais Tenseur (26,) float32
politique/last_fc/poids Tenseur (26, 32) float32
politique/last_fc_log_std FonctionnalitésDict
politique/last_fc_log_std/biais Tenseur (26,) float32
politique/last_fc_log_std/poids Tenseur (26, 32) float32
politique/non-linéarité Tenseur chaîne de caractères
politique/sortie_distribution Tenseur chaîne de caractères
pas Base de données
étapes/actions Tenseur (26,) float32
étapes/réduction Tenseur float32
étapes/infos FonctionnalitésDict
étapes/infos/action_log_std Tenseur (26,) float32
étapes/infos/action_mean Tenseur (26,) float32
étapes/infos/board_pos Tenseur (3,) float32
étapes/infos/qpos Tenseur (33,) float32
étapes/infos/qvel Tenseur (33,) float32
étapes/infos/target_pos Tenseur (3,) float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation Tenseur (46,) float32
pas/récompense Tenseur float32