TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

rlu_rwrl

Описание :

RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

Примеры в наборе данных представляют переходы SAR, сохраняемые при запуске частично обученного онлайн-агента, как описано в https://arxiv.org/abs/1904.12901 . Мы следуем формату набора данных RLDS, как указано в https://github.com/google-research . /rlds#формат набора данных

Всего мы выпускаем 40 наборов данных по 8 задачам — без комбинированных задач и с простыми комбинированными задачами на тележках, ходячих, четвероногих и гуманоидных задачах. Каждая задача содержит наборы данных 5 различных размеров: 1%, 5%, 20%, 40% и 100%. Обратите внимание, что меньший набор данных не обязательно будет подмножеством больших. Подробнее о том, как был сгенерирован набор данных, см. в документе.

Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код : tfds.rl_unplugged.rlu_rwrl.RluRwrl
Версии :
- 1.0.0 : Первоначальный выпуск.
- 1.0.1 (по умолчанию): исправлена ошибка в наборе данных RLU RWRL, из-за которой в одном из наборов данных гуманоидов были дублированные идентификаторы эпизодов.
Размер загрузки : Unknown size
Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@misc{gulcehre2020rl,
    title={RL Unplugged: Benchmarks for Offline Reinforcement Learning},
    author={Caglar Gulcehre and Ziyu Wang and Alexander Novikov and Tom Le Paine
        and  Sergio Gómez Colmenarejo and Konrad Zolna and Rishabh Agarwal and
        Josh Merel and Daniel Mankowitz and Cosmin Paduraru and Gabriel
        Dulac-Arnold and Jerry Li and Mohammad Norouzi and Matt Hoffman and
        Ofir Nachum and George Tucker and Nicolas Heess and Nando deFreitas},
    year={2020},
    eprint={2006.13888},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

rlu_rwrl/cartpole_swingup_combined_challenge_none_1_percent (конфигурация по умолчанию)

Размер набора данных : 172.43 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	5

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_none_5_percent

Размер набора данных : 862.13 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	25

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_none_20_percent

Размер набора данных : 3.37 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_none_40_percent

Размер набора данных : 6.74 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_none_100_percent

Размер набора данных : 16.84 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	500

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_none_1_percent

Размер набора данных : 1.77 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	5

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_none_5_percent

Размер набора данных : 8.86 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	25

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_none_20_percent

Размер набора данных : 35.46 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_none_40_percent

Размер набора данных : 70.92 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_none_100_percent

Размер набора данных : 177.29 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'train'`	500

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_none_1_percent

Размер набора данных : 6.27 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_none_5_percent

Размер набора данных : 31.34 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	250

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_none_20_percent

Размер набора данных : 125.37 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	1000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_none_40_percent

Размер набора данных : 250.75 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	2000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_none_100_percent

Размер набора данных : 626.86 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	5000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_none_1_percent

Размер набора данных : 69.40 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_none_5_percent

Размер набора данных : 346.98 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	1000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_none_20_percent

Размер набора данных : 1.36 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	4000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_none_40_percent

Размер набора данных : 2.71 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	8000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_none_100_percent

Размер набора данных : 6.78 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	20 000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_easy_1_percent

Размер набора данных : 369.84 KiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	5

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_easy_5_percent

Размер набора данных : 1.81 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	25

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_easy_20_percent

Размер набора данных : 7.22 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_easy_40_percent

Размер набора данных : 14.45 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/cartpole_swingup_combined_challenge_easy_100_percent

Размер набора данных : 36.12 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	500

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(1,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/позиция	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(2,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_easy_1_percent

Размер набора данных : 1.97 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	5

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_easy_5_percent

Размер набора данных : 9.83 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	25

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_easy_20_percent

Размер набора данных : 39.31 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	100

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_easy_40_percent

Размер набора данных : 78.63 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/quadruped_walk_combined_challenge_easy_100_percent

Размер набора данных : 196.57 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'train'`	500

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(12,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/эгоцентрическое_состояние	Тензор	(44,)	поплавок32
шаги/наблюдение/force_torque	Тензор	(24,)	поплавок32
шаги/наблюдение/иму	Тензор	(6,)	поплавок32
шаги/наблюдение/torso_upright	Тензор	(1,)	поплавок32
шаги/наблюдение/torso_velocity	Тензор	(3,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_easy_1_percent

Размер набора данных : 8.20 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	50

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_easy_5_percent

Размер набора данных : 40.98 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	250

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_easy_20_percent

Размер набора данных : 163.93 MiB .
Автокэширование ( документация ): только когда shuffle_files=False (поезд)
Сплиты :

Расколоть	Примеры
`'train'`	1000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_easy_40_percent

Размер набора данных : 327.86 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	2000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/walker_walk_combined_challenge_easy_100_percent

Размер набора данных : 819.65 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	5000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(6,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/высота	Тензор	(1,)	поплавок32
шаги/наблюдение/ориентация	Тензор	(14,)	поплавок32
шаги/наблюдение/скорость	Тензор	(9,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_easy_1_percent

Размер набора данных : 77.11 MiB .
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'train'`	200

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_easy_5_percent

Размер набора данных : 385.54 MiB .
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	1000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_easy_20_percent

Размер набора данных : 1.51 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	4000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_easy_40_percent

Размер набора данных : 3.01 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	8000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):

rlu_rwrl/humanoid_walk_combined_challenge_easy_100_percent

Размер набора данных : 7.53 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	20 000

Структура функции :

FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор	(21,)	поплавок32
шаги/скидка	Тензор	(1,)	поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/com_velocity	Тензор	(3,)	поплавок32
шаги/наблюдение/манекен-0	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-1	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-2	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-3	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-4	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-5	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-6	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-7	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-8	Тензор	(1,)	поплавок32
шаги/наблюдение/манекен-9	Тензор	(1,)	поплавок32
шаги/наблюдение/конечности	Тензор	(12,)	поплавок32
шаги/наблюдение/head_height	Тензор	(1,)	поплавок32
шаги/наблюдение/joint_angles	Тензор	(21,)	поплавок32
шаги/наблюдение/torso_vertical	Тензор	(3,)	поплавок32
шаги/наблюдение/скорость	Тензор	(27,)	поплавок32
шаги/награда	Тензор	(1,)	поплавок32

Примеры ( tfds.as_dataframe ):