O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

s3o4d

O conjunto de dados descrita pela primeira vez no "Stanford objetos 3D" do papel desembaraçar por Subspace Difusão . Os dados consistem em 100.000 renderizações cada um dos objetos Coelho e Dragão do Repositório de digitalização Stanford 3D . Mais objetos podem ser adicionados no futuro, mas apenas o Coelho e o Dragão são usados ​​no papel. Cada objeto é renderizado com uma iluminação de amostragem uniforme de um ponto na 2-esfera e uma rotação 3D de amostragem uniforme. Os verdadeiros estados latentes são fornecidos como matrizes NumPy junto com as imagens. A iluminação é fornecida como um vetor 3 com norma unitária, enquanto a rotação é fornecida como um quatérnio e uma matriz ortogonal 3x3.

Há muitas semelhanças entre S3O4D e conjuntos de dados de referência existentes ML como norb , 3D cadeiras , 3D Formas e muitos outros, que também incluem representações de um conjunto de objectos sob diferentes condições de iluminação e de pose. No entanto, nenhum destes conjuntos de dados existentes incluem o colector integral de rotações em 3D - mais incluir apenas um subconjunto de alterações a elevação e azimute. As imagens S3O4D são amostradas de maneira uniforme e independente de todo o espaço de rotações e iluminações, o que significa que o conjunto de dados contém objetos que estão de cabeça para baixo e iluminados por trás ou por baixo. Acreditamos que isso torna S3O4D exclusivamente adequado para pesquisa em modelos generativos onde o espaço latente tem topologia não trivial, bem como para métodos de aprendizagem de variedades gerais onde a curvatura da variedade é importante.

Dividir Exemplos
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Características:
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

Visualização

  • citação:
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}