s3o4d

Descripción :

El conjunto de datos se describió por primera vez en la sección "Objetos 3D de Stanford" del artículo Disentangling by Subspace Diffusion . Los datos constan de 100.000 representaciones de cada uno de los objetos Bunny y Dragon del Stanford 3D Scanning Repository . Es posible que se agreguen más objetos en el futuro, pero en el periódico solo se utilizan el Conejito y el Dragón. Cada objeto se representa con una iluminación muestreada uniformemente desde un punto de la 2 esfera y una rotación 3D muestreada uniformemente. Los verdaderos estados latentes se proporcionan como matrices NumPy junto con las imágenes. La iluminación se proporciona como un vector de 3 con norma unitaria, mientras que la rotación se proporciona como un cuaternión y una matriz ortogonal de 3x3.

Existen muchas similitudes entre S3O4D y los conjuntos de datos de referencia de ML existentes como NORB , 3D Chairs , 3D Shapes y muchos otros, que también incluyen representaciones de un conjunto de objetos en diferentes poses y condiciones de iluminación. Sin embargo, ninguno de estos conjuntos de datos existentes incluye la variedad completa de rotaciones en 3D; la mayoría incluye solo un subconjunto de cambios en elevación y azimut. Las imágenes S3O4D se muestrean de manera uniforme e independiente del espacio completo de rotaciones e iluminaciones, lo que significa que el conjunto de datos contiene objetos que están al revés e iluminados desde atrás o desde abajo. Creemos que esto hace que S3O4D sea especialmente adecuado para la investigación de modelos generativos donde el espacio latente tiene una topología no trivial, así como para métodos generales de aprendizaje de variedades donde la curvatura de la variedad es importante.

Documentación adicional : Explorar en artículos con código
Página de inicio : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Código fuente : tfds.datasets.s3o4d.Builder
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Tamaño de descarga : 911.68 MiB
Tamaño del conjunto de datos : 1.01 GiB
Almacenamiento en caché automático ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'bunny_test'`	20.000
`'bunny_train'`	80.000
`'dragon_test'`	20.000
`'dragon_train'`	80.000

Estructura de características :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D
	FuncionesDict
iluminación	Tensor	(3,)	flotador32
imagen	Imagen	(256, 256, 3)	uint8
etiqueta	Etiqueta de clase		int64
pose_mat	Tensor	(3, 3)	flotador32
pose_quat	Tensor	(4,)	flotador32

Claves supervisadas (ver documento as_supervised ): None
Figura ( tfds.show_examples ):

Visualización

Ejemplos ( tfds.as_dataframe ):

Citación :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}