lokomocja

  • opis :

Zestawy danych zostały utworzone przy udziale agenta SAC przeszkolonego w zakresie nagrody środowiskowej za zadania związane z poruszaniem się MuJoCo. Te zestawy danych są używane w What Matters for Adversarial Imitation Learning? Orsini i in. 2021 .

Zbiory danych są zgodne z formatem RLDS, aby reprezentować kroki i odcinki

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Ant.

  • Rozmiar pliku do pobrania : 6.49 MiB

  • Rozmiar zestawu danych : 23.02 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 50
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kroki Zbiór danych
kroki/działanie Napinacz (8,) pływak32
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja Napinacz (111,) pływak32
kroki/nagroda Napinacz pływak32

lokomocja/hopper_sac_1M_single_policy_stochastic

  • Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Hoppera.

  • Rozmiar pliku do pobrania : 2.26 MiB

  • Rozmiar zestawu danych : 2.62 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 50
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kroki Zbiór danych
kroki/działanie Napinacz (3,) pływak32
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja Napinacz (11,) pływak32
kroki/nagroda Napinacz pływak32

lokomocja/halfcheetah_sac_1M_single_policy_stochastic

  • Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla HalfCheetah.

  • Rozmiar pliku do pobrania : 4.49 MiB

  • Rozmiar zestawu danych : 4.93 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 50
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kroki Zbiór danych
kroki/działanie Napinacz (6,) pływak32
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja Napinacz (17,) pływak32
kroki/nagroda Napinacz pływak32

lokomocja/walker2d_sac_1M_single_policy_stochastic

  • Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Walker2d.

  • Rozmiar pliku do pobrania : 4.35 MiB

  • Rozmiar zestawu danych : 4.91 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 50
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kroki Zbiór danych
kroki/działanie Napinacz (6,) pływak32
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja Napinacz (17,) pływak32
kroki/nagroda Napinacz pływak32

lokomocja/humanoid_sac_15M_single_policy_stochastic

  • Opis konfiguracji: Zbiór danych wygenerowany przez agenta SAC przeszkolonego w zakresie 15 milionów kroków dla Humanoida.

  • Rozmiar pliku do pobrania : 192.78 MiB

  • Rozmiar zestawu danych : 300.94 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 200
  • Struktura funkcji :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kroki Zbiór danych
kroki/działanie Napinacz (17,) pływak32
kroki/rabat Napinacz pływak32
kroki/jest_pierwszy Napinacz bool
kroki/jest_ostatni Napinacz bool
kroki/jest_terminalem Napinacz bool
kroki/obserwacja Napinacz (376,) pływak32
kroki/nagroda Napinacz pływak32