s3o4d

L'ensemble de données décrite dans la section « Stanford objets 3D » du papier Démêlant par subspatial Diffusion . Les données se compose de 100.000 rendus chacun des objets de lapin et de dragon de la numérisation 3D Repository Stanford . D'autres objets pourraient être ajoutés à l'avenir, mais seuls le lapin et le dragon sont utilisés dans le papier. Chaque objet est rendu avec une illumination uniformément échantillonnée à partir d'un point sur la 2-sphère, et une rotation 3D uniformément échantillonnée. Les véritables états latents sont fournis sous forme de tableaux NumPy avec les images. L'éclairage est donné sous la forme d'un vecteur 3 avec une norme unitaire, tandis que la rotation est fournie à la fois sous la forme d'un quaternion et d'une matrice orthogonale 3x3.

Il existe de nombreuses similitudes entre les S3O4D et les ensembles de données existants de référence ML comme noRb , 3D présidents , Formes 3D et bien d' autres, qui incluent également des rendus d'un ensemble d'objets dans différentes conditions de pose et d' éclairage. Cependant, aucun de ces ensembles de données existants comprennent le collecteur complet des rotations en 3D - la plupart comprennent un sous - ensemble de changements à l' élévation et de l' azimut. Les images S3O4D sont échantillonnées de manière uniforme et indépendante de tout l'espace des rotations et des illuminations, ce qui signifie que l'ensemble de données contient des objets à l'envers et éclairés par derrière ou par dessous. Nous pensons que cela rend S3O4D particulièrement adapté à la recherche sur les modèles génératifs où l'espace latent a une topologie non triviale, ainsi qu'aux méthodes générales d'apprentissage des variétés où la courbure de la variété est importante.

Diviser Exemples
'bunny_test' 20 000
'bunny_train' 80 000
'dragon_test' 20 000
'dragon_train' 80 000
  • Caractéristiques:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

Visualisation

  • citation:
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}