s3o4d

Veri kümesi ilk olarak Disentangling by Subspace Diffusion adlı makalenin "Stanford 3D Objects" bölümünde açıklanmıştır. Veriler, Stanford 3D Scanning Repository'deki Bunny ve Dragon nesnelerinin her biri için 100.000 görüntüden oluşuyor. Gelecekte daha fazla nesne eklenebilir, ancak kağıtta yalnızca Tavşan ve Ejderha kullanılmıştır. Her nesne, 2-küre üzerindeki bir noktadan eşit olarak örneklenmiş bir aydınlatma ve tek tip olarak örneklenmiş bir 3B döndürme ile işlenir. Gerçek gizli durumlar, görüntülerle birlikte NumPy dizileri olarak sağlanır. Aydınlatma birim normlu 3-vektör olarak verilirken, döndürme hem dördey hem de 3x3 ortogonal matris olarak sağlanır.

S3O4D ile NORB , 3D Chairs , 3D Shapes ve bir dizi nesnenin farklı poz ve aydınlatma koşulları altında görüntülenmesini de içeren diğerleri gibi mevcut ML kıyaslama veri kümeleri arasında pek çok benzerlik vardır. Bununla birlikte, bu mevcut veri kümelerinin hiçbiri 3B'deki tam dönüş manifoldunu içermez - çoğu yalnızca yükseklik ve azimut değişikliklerinin bir alt kümesini içerir. S3O4D görüntüleri, döndürme ve aydınlatmaların tüm alanından eşit ve bağımsız olarak örneklenir; bu, veri setinin baş aşağı duran ve arkadan veya alttan aydınlatılan nesneler içerdiği anlamına gelir. Bunun, S3O4D'yi, gizli uzayın önemsiz olmayan topolojiye sahip olduğu üretken modeller üzerindeki araştırmaların yanı sıra manifoldun eğriliğinin önemli olduğu genel manifold öğrenme yöntemleri için benzersiz bir şekilde uygun hale getirdiğine inanıyoruz.

Bölmek örnekler
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Özellik yapısı :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
aydınlatma tensör (3,) şamandıra32
görüntü resim (256, 256, 3) uint8
etiket SınıfEtiketi int64
poz_mat tensör (3, 3) şamandıra32
poz_quat tensör (4,) şamandıra32

görselleştirme

  • Alıntı :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}