- opis :
Zestawy danych zostały utworzone przy udziale agenta SAC przeszkolonego w zakresie nagrody środowiskowej za zadania związane z poruszaniem się MuJoCo. Te zestawy danych są używane w What Matters for Adversarial Imitation Learning? Orsini i in. 2021 .
Zbiory danych są zgodne z formatem RLDS, aby reprezentować kroki i odcinki
Strona główna : https://github.com/google-research/rlds
Kod źródłowy :
tfds.rlds.locomotion.Locomotion
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (domyślna konfiguracja)
Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Ant.
Rozmiar pliku do pobrania :
6.49 MiB
Rozmiar zestawu danych :
23.02 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | (8,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | Napinacz | (111,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/hopper_sac_1M_single_policy_stochastic
Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Hoppera.
Rozmiar pliku do pobrania :
2.26 MiB
Rozmiar zestawu danych :
2.62 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | (3,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | Napinacz | (11,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/halfcheetah_sac_1M_single_policy_stochastic
Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla HalfCheetah.
Rozmiar pliku do pobrania :
4.49 MiB
Rozmiar zestawu danych :
4.93 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | (6,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | Napinacz | (17,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/walker2d_sac_1M_single_policy_stochastic
Opis konfiguracji: zestaw danych wygenerowany przez agenta SAC przeszkolonego w zakresie 1 mln kroków dla Walker2d.
Rozmiar pliku do pobrania :
4.35 MiB
Rozmiar zestawu danych :
4.91 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 50 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | (6,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | Napinacz | (17,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
lokomocja/humanoid_sac_15M_single_policy_stochastic
Opis konfiguracji: Zbiór danych wygenerowany przez agenta SAC przeszkolonego w zakresie 15 milionów kroków dla Humanoida.
Rozmiar pliku do pobrania :
192.78 MiB
Rozmiar zestawu danych :
300.94 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 200 |
- Struktura funkcji :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | (17,) | pływak32 | |
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | Napinacz | (376,) | pływak32 | |
kroki/nagroda | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):