- विवरण :
D4RL ऑफ़लाइन रीइन्फोर्समेंट लर्निंग के लिए एक ओपन-सोर्स बेंचमार्क है। यह प्रशिक्षण और बेंचमार्किंग एल्गोरिदम के लिए मानकीकृत वातावरण और डेटासेट प्रदान करता है।
डेटासेट चरण और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।
कॉन्फिग विवरण : https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym में कार्य और इसके संस्करणों के बारे में अधिक विवरण देखें
स्रोत कोड :
tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज। -
1.0.1
: एपिसोड और स्टेप मेटाडेटा के लिए समर्थन, और सभी कॉन्फ़िगरेशन में इनाम के आकार का एकीकरण। -
1.1.0
: is_last जोड़ा गया। -
1.2.0
(डिफ़ॉल्ट): अगले अवलोकन को ध्यान में रखते हुए अपडेट किया गया।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_ halfcheetah/v0-expert (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
83.44 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-मध्यम
डाउनलोड आकार :
82.92 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v0-मध्यम-विशेषज्ञ
डाउनलोड आकार :
166.36 MiB
डेटासेट का आकार :
196.86 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,004 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v0-mixed
डाउनलोड आकार :
8.60 MiB
डेटासेट का आकार :
9.94 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 101 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v0-random
डाउनलोड आकार :
84.79 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-expert
डाउनलोड आकार :
146.94 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | विशेषताएं डिक्ट | |||
नीति/fc0 | विशेषताएं डिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc0/वजन | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/fc1 | विशेषताएं डिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | फ्लोट32 | |
पॉलिसी/last_fc | विशेषताएं डिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/last_fc_log_std | विशेषताएं डिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
पॉलिसी/आउटपुट_डिस्ट्रीब्यूशन | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट32 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-medium
डाउनलोड आकार :
146.65 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | विशेषताएं डिक्ट | |||
नीति/fc0 | विशेषताएं डिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc0/वजन | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/fc1 | विशेषताएं डिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | फ्लोट32 | |
पॉलिसी/last_fc | विशेषताएं डिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/last_fc_log_std | विशेषताएं डिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
पॉलिसी/आउटपुट_डिस्ट्रीब्यूशन | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट32 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-मध्यम-विशेषज्ञ
डाउनलोड आकार :
293.00 MiB
डेटासेट का आकार :
342.37 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट32 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v1-मीडियम-रिप्ले
डाउनलोड आकार :
57.68 MiB
डेटासेट का आकार :
34.59 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 202 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float64),
'reward': float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट64 | |
चरण/छूट | टेन्सर | फ्लोट64 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट64 | |
कदम / इनाम | टेन्सर | फ्लोट64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-पूर्ण-पुनरावृत्ति
डाउनलोड आकार :
285.01 MiB
डेटासेट का आकार :
171.22 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float64),
'reward': float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट64 | |
चरण/छूट | टेन्सर | फ्लोट64 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट64 | |
कदम / इनाम | टेन्सर | फ्लोट64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-random
डाउनलोड आकार :
145.19 MiB
डेटासेट का आकार :
171.18 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट32 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v2-expert
डाउनलोड का आकार :
226.46 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | विशेषताएं डिक्ट | |||
नीति/fc0 | विशेषताएं डिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc0/वजन | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/fc1 | विशेषताएं डिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | फ्लोट32 | |
पॉलिसी/last_fc | विशेषताएं डिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/last_fc_log_std | विशेषताएं डिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
पॉलिसी/आउटपुट_डिस्ट्रीब्यूशन | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v2-फुल-रीप्ले
डाउनलोड आकार :
277.88 MiB
डेटासेट का आकार :
171.22 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-मीडियम
डाउनलोड आकार :
226.71 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | विशेषताएं डिक्ट | |||
नीति/fc0 | विशेषताएं डिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc0/वजन | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/fc1 | विशेषताएं डिक्ट | |||
नीति/fc1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
नीति/fc1/वजन | टेन्सर | (256, 256) | फ्लोट32 | |
पॉलिसी/last_fc | विशेषताएं डिक्ट | |||
नीति/last_fc/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/last_fc_log_std | विशेषताएं डिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/वजन | टेन्सर | (6, 256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
पॉलिसी/आउटपुट_डिस्ट्रीब्यूशन | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v2-मीडियम-एक्सपर्ट
डाउनलोड का आकार :
452.58 MiB
डेटासेट का आकार :
342.37 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_ halfcheetah/v2-मीडियम-रिप्ले
डाउनलोड आकार :
56.69 MiB
डेटासेट का आकार :
34.59 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 202 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-random
डाउनलोड का आकार :
226.34 MiB
डेटासेट का आकार :
171.18 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
चरण/छूट | टेन्सर | फ्लोट32 | ||
कदम/जानकारी | विशेषताएं डिक्ट | |||
कदम/जानकारी/action_log_probs | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/qpos | टेन्सर | (9,) | फ्लोट64 | |
कदम/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):