s3o4d

सबस्पेस डिफ्यूजन द्वारा डिसेंटैंगलिंग पेपर के "स्टैनफोर्ड 3डी ऑब्जेक्ट्स" खंड में पहले वर्णित डेटासेट। डेटा में स्टैनफोर्ड 3डी स्कैनिंग रिपॉजिटरी से बनी और ड्रैगन वस्तुओं में से प्रत्येक में 100,000 रेंडरिंग शामिल हैं। भविष्य में और अधिक वस्तुएं जोड़ी जा सकती हैं, लेकिन कागज में केवल बनी और ड्रैगन का उपयोग किया जाता है। प्रत्येक वस्तु को 2-गोले पर एक बिंदु से समान रूप से नमूना रोशनी और समान रूप से नमूना 3डी रोटेशन के साथ प्रस्तुत किया जाता है। वास्तविक अव्यक्त अवस्थाओं को छवियों के साथ NumPy सरणियों के रूप में प्रदान किया जाता है। प्रकाश को इकाई मानदंड के साथ 3-वेक्टर के रूप में दिया जाता है, जबकि रोटेशन को क्वाटरनियन और 3x3 ऑर्थोगोनल मैट्रिक्स दोनों के रूप में प्रदान किया जाता है।

S3O4D और मौजूदा ML बेंचमार्क डेटासेट जैसे NORB , 3D चेयर्स , 3D शेप्स और कई अन्य के बीच कई समानताएं हैं, जिसमें विभिन्न पोज़ और रोशनी की स्थितियों के तहत वस्तुओं के एक सेट का रेंडरिंग भी शामिल है। हालांकि, इनमें से किसी भी मौजूदा डेटासेट में 3डी में कई गुना घुमाव शामिल नहीं है - अधिकांश में ऊंचाई और दिगंश में परिवर्तनों का केवल एक सबसेट शामिल है। S3O4D छवियों को समान रूप से और स्वतंत्र रूप से रोटेशन और रोशनी के पूर्ण स्थान से नमूना लिया जाता है, जिसका अर्थ है कि डेटासेट में ऐसी वस्तुएं होती हैं जो उलटी होती हैं और पीछे या नीचे से प्रकाशित होती हैं। हमारा मानना ​​है कि यह S3O4D को जनरेटिव मॉडल पर शोध के लिए विशिष्ट रूप से अनुकूल बनाता है जहां अव्यक्त स्थान में गैर-तुच्छ टोपोलॉजी है, साथ ही सामान्य मैनिफोल्ड लर्निंग विधियों के लिए जहां मैनिफोल्ड की वक्रता महत्वपूर्ण है।

विभाजित करना उदाहरण
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • फ़ीचर संरचना :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
रोशनी टेन्सर (3,) फ्लोट32
छवि छवि (256, 256, 3) uint8
लेबल क्लासलेबल int64
pos_mat टेन्सर (3, 3) फ्लोट32
pos_quat टेन्सर (4,) फ्लोट32

VISUALIZATION

  • उद्धरण :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}