locomozione

  • Descrizione :

I set di dati sono stati creati con un agente SAC addestrato sulla ricompensa ambientale delle attività di locomozione MuJoCo. Questi set di dati vengono utilizzati in What Matters for Adversarial Imitation Learning? Orsino et al. 2021 .

I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configurazione predefinita)

  • Descrizione della configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Ant.

  • Dimensione del download : 6.49 MiB

  • Dimensione del set di dati: 23.02 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (8,) galleggiante32
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (111,) galleggiante32
passi/ricompensa Tensore galleggiante32

locomotion/hopper_sac_1M_single_policy_stochastic

  • Descrizione della configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Hopper.

  • Dimensione del download : 2.26 MiB

  • Dimensione del set di dati: 2.62 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (3,) galleggiante32
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (11,) galleggiante32
passi/ricompensa Tensore galleggiante32

locomotion/halfcheetah_sac_1M_single_policy_stochastic

  • Descrizione della configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per HalfCheetah.

  • Dimensione del download : 4.49 MiB

  • Dimensione del set di dati: 4.93 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (6,) galleggiante32
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (17,) galleggiante32
passi/ricompensa Tensore galleggiante32

locomotion/walker2d_sac_1M_single_policy_stochastic

  • Descrizione della configurazione : set di dati generato da un agente SAC addestrato per 1 milione di passaggi per Walker2d.

  • Dimensione del download : 4.35 MiB

  • Dimensione del set di dati: 4.91 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (6,) galleggiante32
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (17,) galleggiante32
passi/ricompensa Tensore galleggiante32

locomotion/humanoid_sac_15M_single_policy_stochastic

  • Descrizione della configurazione : set di dati generato da un agente SAC addestrato per 15 milioni di passaggi per Humanoid.

  • Dimensione del download : 192.78 MiB

  • Dimensione del set di dati: 300.94 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione Tensore (17,) galleggiante32
passi/sconto Tensore galleggiante32
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione Tensore (376,) galleggiante32
passi/ricompensa Tensore galleggiante32