s3o4d

Tanım :

Veri seti ilk olarak Disentangling by Subspace Diffusion makalesinin "Stanford 3D Objects" bölümünde açıklanmıştır. Veriler , Stanford 3D Tarama Havuzundaki Bunny ve Dragon nesnelerinin her birinin 100.000 görselinden oluşuyor. Gelecekte daha fazla nesne eklenebilir ancak yazıda yalnızca Tavşan ve Ejderha kullanılmıştır. Her nesne, 2-küre üzerindeki bir noktadan eşit şekilde örneklenmiş bir aydınlatma ve eşit şekilde örneklenmiş bir 3D döndürme ile oluşturulur. Gerçek gizli durumlar, görüntülerle birlikte NumPy dizileri olarak sağlanır. Aydınlatma birim normlu 3-vektör olarak verilirken, dönme hem kuaterniyon hem de 3x3 ortogonal matris olarak sağlanmaktadır.

S3O4D ile NORB , 3D Sandalyeler , 3D Şekiller ve diğerleri gibi mevcut ML kıyaslama veri kümeleri arasında pek çok benzerlik vardır; bunlar aynı zamanda bir dizi nesnenin farklı poz ve aydınlatma koşulları altında görüntülenmesini de içerir. Bununla birlikte, mevcut veri kümelerinin hiçbiri 3B'deki dönüşlerin tam manifoldunu içermiyor; çoğu yalnızca yükseklik ve azimuttaki değişikliklerin bir alt kümesini içeriyor. S3O4D görüntüleri, tüm döndürme ve aydınlatma alanından eşit ve bağımsız olarak örneklenir; bu, veri kümesinin baş aşağı olan ve arkadan veya alttan aydınlatılan nesneler içerdiği anlamına gelir. Bunun S3O4D'yi, gizli uzayın önemsiz olmayan bir topolojiye sahip olduğu üretken modeller üzerindeki araştırmalara ve ayrıca manifold eğriliğinin önemli olduğu genel manifold öğrenme yöntemlerine yönelik araştırmalar için benzersiz bir şekilde uygun hale getirdiğine inanıyoruz.

Ek Belgeler : Kodlu Makaleleri Keşfedin
Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Kaynak kodu : tfds.datasets.s3o4d.Builder
Sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
İndirme boyutu : 911.68 MiB
Veri kümesi boyutu : 1.01 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölünmeler :

Bölmek	Örnekler
`'bunny_test'`	20.000
`'bunny_train'`	80.000
`'dragon_test'`	20.000
`'dragon_train'`	80.000

Özellik yapısı :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
aydınlatma	Tensör	(3,)	kayan nokta32
resim	Resim	(256, 256, 3)	uint8
etiket	SınıfEtiketi		int64
poz_mat	Tensör	(3, 3)	kayan nokta32
poz_quat	Tensör	(4,)	kayan nokta32

Denetlenen anahtarlar ( as_supervised belgesine bakın): None
Şekil ( tfds.show_examples ):

Görselleştirme

Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}