s3o4d

最初に記載されたデータセット紙のセクション「スタンフォード3Dオブジェクト」部分空間拡散によってほぐしを。データ100,000レンダリングからバニーとドラゴンオブジェクトの各々から成るスタンフォード3Dスキャニングリポジトリ。将来的にはさらに多くのオブジェクトが追加される可能性がありますが、このペーパーではバニーとドラゴンのみが使用されています。各オブジェクトは、2球上の点から均一にサンプリングされた照明と、均一にサンプリングされた3D回転でレンダリングされます。真の潜在状態は、画像とともにNumPy配列として提供されます。照明は単位ノルムの3ベクトルとして与えられ、回転はクォータニオンと3x3直交行列の両方として提供されます。

S3O4Dなど既存のMLのベンチマークデータセットの間に多くの類似点がありNORB3D椅子3D形状も異なるポーズや照明条件の下でオブジェクトのセットのレンダリングが含まれており、他の多くは、。しかし、これらの既存のデータセットのいずれも3Dで回転フルマニフォールドが含まれていない-ほとんどが高度と方位への変更のサブセットのみが含まれます。 S3O4D画像は、回転と照明の全空間から独立して均一にサンプリングされます。つまり、データセットには、上下逆になり、後ろまたは下から照らされるオブジェクトが含まれます。これにより、S3O4Dは、潜在空間が重要なトポロジーを持つ生成モデルの研究や、多様体の曲率が重要な一般的な多様体学習方法に独自に適していると考えています。

スプリット
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • 特長
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=tf.float32),
    'image': Image(shape=(256, 256, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=tf.float32),
    'pose_quat': Tensor(shape=(4,), dtype=tf.float32),
})

視覚化

  • 引用
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}