s3o4d

ডেটাসেটটি প্রথমে সাবস্পেস ডিফিউশন দ্বারা ডিসেন্ট্যাংলিং পেপারের "স্ট্যানফোর্ড 3D অবজেক্টস" বিভাগে বর্ণিত হয়েছে। স্ট্যানফোর্ড 3D স্ক্যানিং রিপোজিটরি থেকে বানি এবং ড্রাগন অবজেক্টের প্রতিটি 100,000 রেন্ডারিং নিয়ে ডেটা রয়েছে। ভবিষ্যতে আরও অবজেক্ট যোগ করা যেতে পারে, তবে কাগজে শুধুমাত্র বানি এবং ড্রাগন ব্যবহার করা হয়। প্রতিটি বস্তুকে 2-গোলকের একটি বিন্দু থেকে অভিন্ন নমুনাযুক্ত আলোকসজ্জা এবং একটি অভিন্ন নমুনাযুক্ত 3D ঘূর্ণন দিয়ে রেন্ডার করা হয়। সত্যিকারের সুপ্ত অবস্থাগুলি চিত্রগুলির সাথে NumPy অ্যারে হিসাবে সরবরাহ করা হয়েছে৷ আলোকে ইউনিটের আদর্শের সাথে একটি 3-ভেক্টর হিসাবে দেওয়া হয়, যখন ঘূর্ণনটি একটি quaternion এবং একটি 3x3 অর্থোগোনাল ম্যাট্রিক্স উভয়ই দেওয়া হয়।

S3O4D এবং বিদ্যমান ML বেঞ্চমার্ক ডেটাসেটের মধ্যে অনেক মিল রয়েছে যেমন NORB , 3D চেয়ারস, 3D আকৃতি এবং আরও অনেকগুলি, যার মধ্যে বিভিন্ন পোজ এবং আলোকসজ্জার অবস্থার অধীনে বস্তুর সেটের রেন্ডারিংও অন্তর্ভুক্ত রয়েছে। যাইহোক, এই বিদ্যমান ডেটাসেটগুলির মধ্যে কোনওটিই 3D-তে সম্পূর্ণ বহুগুণ ঘূর্ণনকে অন্তর্ভুক্ত করে না - বেশিরভাগই উচ্চতা এবং আজিমুথের পরিবর্তনগুলির একটি উপসেট অন্তর্ভুক্ত করে। S3O4D চিত্রগুলি ঘূর্ণন এবং আলোকসজ্জার পূর্ণ স্থান থেকে অভিন্নভাবে এবং স্বাধীনভাবে নমুনা করা হয়, যার অর্থ ডেটাসেটে এমন বস্তু রয়েছে যা উল্টোদিকে থাকে এবং পিছনে বা নীচে থেকে আলোকিত হয়৷ আমরা বিশ্বাস করি যে এটি S3O4D কে জেনারেটিভ মডেলের গবেষণার জন্য অনন্যভাবে উপযোগী করে তোলে যেখানে সুপ্ত স্থানের নন-তুচ্ছ টপোলজি রয়েছে, সেইসাথে সাধারণ বহুগুণ শেখার পদ্ধতির জন্য যেখানে বহুগুণের বক্রতা গুরুত্বপূর্ণ।

বিভক্ত উদাহরণ
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আলোকসজ্জা টেনসর (৩,) float32
ইমেজ ছবি (256, 256, 3) uint8
লেবেল ক্লাসলেবেল int64
pose_mat টেনসর (৩, ৩) float32
pose_quat টেনসর (৪,) float32

ভিজ্যুয়ালাইজেশন

  • উদ্ধৃতি :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}