s3o4d

בסיס הנתונים שתוארה לראשונה "3D סטנפורד אובייקטים" קטע העיתון מהסדינים ידי Subspace דיפוזיה . נתון מורכבים 100,000 הדמיות כול אובייקטים באני הדרקון מן מאגר סריקת 3D סטנפורד . אולי יתווספו אובייקטים נוספים בעתיד, אך רק הארנב והדרקון משמשים בעיתון. כל אובייקט מוצג עם תאורה שנדגמה באופן אחיד מנקודה בכדור 2 וסיבוב תלת-ממדי שנדגם באופן אחיד. המצבים הסמויים האמיתיים מסופקים כמערכי NumPy יחד עם התמונות. התאורה ניתנת כווקטור 3 עם נורמת יחידה, בעוד שהסיבוב מסופק הן כקווטרניון והן כמטריצה ​​אורתוגונלית 3x3.

ישנם קווי דמיון רב בין S3O4D ואת מערכי נתוני benchmark ML קיימים כמו NORB , 3D כיסאות , 3D צורות ועוד רבים אחרים, אשר כוללים גם עיבודים של סט של אובייקטים בתנאי תנוחת תאורה שונים. עם זאת, אף אחד מערכי נתונים הקיימים אלה כוללים את הסעפת מלאה סיבובים ב 3D - רוב כוללים רק קבוצת משנה של שינויים בגובה אזימוט. תמונות S3O4D נדגמות באופן אחיד ובלתי תלוי מכל שטח הסיבובים והתאורות, כלומר מערך הנתונים מכיל אובייקטים הפוכים ומאירים מאחור או מתחת. אנו מאמינים כי הדבר הופך את S3O4D למותאם באופן ייחודי למחקר על מודלים גנרטיביים שבהם לחלל הסמוי יש טופולוגיה לא טריוויאלית, כמו גם לשיטות למידה כלליות רבות שבהן העקמומיות של הסעפת חשובה.

לְפַצֵל דוגמאות
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • מאפיינים:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

רְאִיָה

  • ציטוט:
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}