- תיאור :
סוייר דוחף וקוטף חפצים בפח
דף הבית : https://arxiv.org/abs/2206.11894
קוד מקור :
tfds.robotics.rtx.StanfordMaskVitConvertedExternallyToRlds
גרסאות :
-
0.1.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
76.17 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 9,109 |
'val' | 91 |
- מבנה תכונה :
FeaturesDict({
'episode_metadata': FeaturesDict({
'file_path': Text(shape=(), dtype=string),
}),
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': Scalar(shape=(), dtype=float32),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'language_embedding': Tensor(shape=(512,), dtype=float32),
'language_instruction': Text(shape=(), dtype=string),
'observation': FeaturesDict({
'end_effector_pose': Tensor(shape=(5,), dtype=float32),
'finger_sensors': Tensor(shape=(1,), dtype=float32),
'high_bound': Tensor(shape=(5,), dtype=float32),
'image': Image(shape=(480, 480, 3), dtype=uint8),
'low_bound': Tensor(shape=(5,), dtype=float32),
'state': Tensor(shape=(15,), dtype=float32),
}),
'reward': Scalar(shape=(), dtype=float32),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
episode_metadata | FeaturesDict | |||
episode_metadata/file_path | טֶקסט | חוּט | נתיב לקובץ הנתונים המקורי. | |
צעדים | מערך נתונים | |||
צעדים/פעולה | מוֹתֵחַ | (5,) | לצוף32 | פעולת רובוט, מורכבת מ[3x שינוי במיקום האפקטור הקצה, 1x פיהוק תפס, 1x פתיחה/סגירה תפס (-1 פירושו לפתוח את התפסן, 1 פירושו סגירה)]. |
צעדים/הנחה | סקלר | לצוף32 | הנחה אם ניתנת, ברירת המחדל היא 1. | |
צעדים/הוא_ראשון | מוֹתֵחַ | bool | ||
צעדים/הוא_אחרון | מוֹתֵחַ | bool | ||
steps/is_terminal | מוֹתֵחַ | bool | ||
שלבים/הטבעת_שפה | מוֹתֵחַ | (512,) | לצוף32 | הטבעת שפת Kona. ראה https://tfhub.dev/google/universal-sentence-encoder-large/5 |
שלבים/הוראת_שפה | טֶקסט | חוּט | הוראת שפה. | |
צעדים/תצפית | FeaturesDict | |||
צעדים/תצפית/תנוחה_קצה | מוֹתֵחַ | (5,) | לצוף32 | תנוחת קצה רובוט, מורכבת מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. זהו המצב המשמש בנייר MaskViT. |
צעדים/תצפית/חיישני_אצבע | מוֹתֵחַ | (1,) | לצוף32 | 1x חיישני אצבע תפס Sawyer. |
צעדים/תצפית/גבוה_גבוה | מוֹתֵחַ | (5,) | לצוף32 | סף גבוה לנורמליזציה של תנוחת ה-End Effector. מורכב מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. |
צעדים/תצפית/תמונה | תמונה | (480, 480, 3) | uint8 | תצפית RGB של מצלמה ראשית. |
צעדים/תצפית/נמוך | מוֹתֵחַ | (5,) | לצוף32 | סף נמוך לנורמליזציה של תנוחת הקצה. מורכב מ[3x מיקום קרטזיאני, 1x פיהוק תפס, 1x מיקום תפס]. |
צעדים/תצפית/מצב | מוֹתֵחַ | (15,) | לצוף32 | מצב רובוט, מורכב מ[7x זוויות מפרק רובוט, 7x מהירויות מפרק רובוט, 1x מיקום תפס]. |
צעדים/פרס | סקלר | לצוף32 | תגמול אם מסופק, 1 בשלב האחרון להדגמות. |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ): חסר.
ציטוט :
@inproceedings{gupta2022maskvit,
title={MaskViT: Masked Visual Pre-Training for Video Prediction},
author={Agrim Gupta and Stephen Tian and Yunzhi Zhang and Jiajun Wu and Roberto Martín-Martín and Li Fei-Fei},
booktitle={International Conference on Learning Representations},
year={2022}
}