s3o4d

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

مجموعه داده برای اولین بار در بخش "اشیاء سه بعدی استانفورد" از مقاله Disentangling by Subspace Diffusion توضیح داده شد. داده ها شامل 100000 رندر هر یک از اشیاء Bunny و Dragon از مخزن اسکن سه بعدی استانفورد است. ممکن است در آینده اشیاء بیشتری اضافه شوند، اما فقط Bunny و Dragon در مقاله استفاده می شوند. هر جسم با یک نور نمونه برداری یکنواخت از یک نقطه در کره 2، و یک چرخش سه بعدی نمونه برداری یکنواخت ارائه می شود. حالت های پنهان واقعی به صورت آرایه های NumPy همراه با تصاویر ارائه می شوند. نورپردازی به صورت یک بردار 3 با هنجار واحد ارائه می شود، در حالی که چرخش هم به صورت کواترنیون و هم به صورت ماتریس متعامد 3×3 ارائه می شود.

شباهت‌های زیادی بین S3O4D و مجموعه داده‌های معیار ML موجود مانند NORB ، صندلی‌های سه‌بعدی ، شکل‌های سه‌بعدی و بسیاری دیگر وجود دارد، که همچنین شامل رندرهایی از مجموعه‌ای از اشیاء تحت شرایط مختلف حالت و روشنایی است. با این حال، هیچ یک از این مجموعه داده‌های موجود شامل منیفولد کامل چرخش‌های سه‌بعدی نمی‌شوند - بیشتر آنها فقط زیر مجموعه‌ای از تغییرات ارتفاع و آزیموت را شامل می‌شوند. تصاویر S3O4D به طور یکنواخت و مستقل از فضای کامل چرخش ها و روشنایی ها نمونه برداری می شوند، به این معنی که مجموعه داده شامل اشیایی است که وارونه هستند و از پشت یا زیر آن روشن می شوند. ما معتقدیم که این باعث می‌شود S3O4D به‌طور منحصربه‌فردی برای تحقیق در مورد مدل‌های مولد که در آن فضای پنهان دارای توپولوژی غیرمعمول است، و همچنین برای روش‌های یادگیری منیفولد کلی که انحنای منیفولد مهم است، مناسب باشد.

شکاف مثال ها
'bunny_test' 20000
'bunny_train' 80000
'dragon_test' 20000
'dragon_train' 80000
  • ساختار ویژگی :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
روشنایی تانسور (3،) float32
تصویر تصویر (256، 256، 3) uint8
برچسب ClassLabel int64
pose_mat تانسور (3، 3) float32
pose_quat تانسور (4،) float32

تجسم

  • نقل قول :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}