Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

s3o4d

El conjunto de datos descrito por primera vez en el "Stanford 3D Objects" sección del documento desenredado por Subespacial difusión . Los datos consisten en representaciones 100.000 cada uno de los objetos Bunny y dragón del escaneado Repositorio de Stanford 3D . Es posible que se agreguen más objetos en el futuro, pero solo se usan el conejito y el dragón en el documento. Cada objeto se renderiza con una iluminación muestreada uniformemente desde un punto en la 2-esfera y una rotación 3D muestreada uniformemente. Los verdaderos estados latentes se proporcionan como matrices NumPy junto con las imágenes. La iluminación se da como un vector de 3 con norma unitaria, mientras que la rotación se proporciona como un cuaternión y una matriz ortogonal de 3x3.

Hay muchas similitudes entre S3O4D y existentes ML referencia conjuntos de datos como norB , 3D Sillas , formas 3D y muchos otros, que también incluyen representaciones de un conjunto de objetos en diferentes condiciones de iluminación y la pose. Sin embargo, ninguno de estos conjuntos de datos existentes incluyen el colector completo de rotaciones en 3D - la mayoría incluye sólo un subconjunto de los cambios en elevación y azimut. Las imágenes S3O4D se muestrean de manera uniforme e independiente del espacio completo de rotaciones e iluminaciones, lo que significa que el conjunto de datos contiene objetos que están al revés e iluminados por detrás o por debajo. Creemos que esto hace que S3O4D sea especialmente adecuado para la investigación de modelos generativos donde el espacio latente tiene una topología no trivial, así como para métodos generales de aprendizaje múltiple donde la curvatura de la variedad es importante.

Separar Ejemplos de
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • características:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

Visualización

  • Cita:
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}