s3o4d

  • Tanım :

Veri seti ilk olarak Disentangling by Subspace Diffusion makalesinin "Stanford 3D Objects" bölümünde açıklanmıştır. Veriler , Stanford 3D Tarama Havuzundaki Bunny ve Dragon nesnelerinin her birinin 100.000 görselinden oluşuyor. Gelecekte daha fazla nesne eklenebilir ancak yazıda yalnızca Tavşan ve Ejderha kullanılmıştır. Her nesne, 2-küre üzerindeki bir noktadan eşit şekilde örneklenmiş bir aydınlatma ve eşit şekilde örneklenmiş bir 3D döndürme ile oluşturulur. Gerçek gizli durumlar, görüntülerle birlikte NumPy dizileri olarak sağlanır. Aydınlatma birim normlu 3-vektör olarak verilirken, dönme hem kuaterniyon hem de 3x3 ortogonal matris olarak sağlanmaktadır.

S3O4D ile NORB , 3D Sandalyeler , 3D Şekiller ve diğerleri gibi mevcut ML kıyaslama veri kümeleri arasında pek çok benzerlik vardır; bunlar aynı zamanda bir dizi nesnenin farklı poz ve aydınlatma koşulları altında görüntülenmesini de içerir. Bununla birlikte, mevcut veri kümelerinin hiçbiri 3B'deki dönüşlerin tam manifoldunu içermiyor; çoğu yalnızca yükseklik ve azimuttaki değişikliklerin bir alt kümesini içeriyor. S3O4D görüntüleri, tüm döndürme ve aydınlatma alanından eşit ve bağımsız olarak örneklenir; bu, veri kümesinin baş aşağı olan ve arkadan veya alttan aydınlatılan nesneler içerdiği anlamına gelir. Bunun S3O4D'yi, gizli uzayın önemsiz olmayan bir topolojiye sahip olduğu üretken modeller üzerindeki araştırmalara ve ayrıca manifold eğriliğinin önemli olduğu genel manifold öğrenme yöntemlerine yönelik araştırmalar için benzersiz bir şekilde uygun hale getirdiğine inanıyoruz.

Bölmek Örnekler
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Özellik yapısı :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
aydınlatma Tensör (3,) kayan nokta32
resim Resim (256, 256, 3) uint8
etiket SınıfEtiketi int64
poz_mat Tensör (3, 3) kayan nokta32
poz_quat Tensör (4,) kayan nokta32

Görselleştirme

  • Alıntı :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}