s3o4d

  • 설명 :

Disentangling by Subspace Diffusion 논문의 "Stanford 3D Objects" 섹션에 처음 설명된 데이터세트입니다. 데이터는 Stanford 3D 스캐닝 저장소 의 Bunny 및 Dragon 개체 각각에 대한 100,000개의 렌더링으로 구성됩니다. 앞으로 더 많은 개체가 추가될 수 있지만 종이에는 토끼와 용만 사용됩니다. 각 객체는 2구체의 한 점에서 균일하게 샘플링된 조명과 균일하게 샘플링된 3D 회전을 사용하여 렌더링됩니다. 실제 잠재 상태는 이미지와 함께 NumPy 배열로 제공됩니다. 조명은 단위 노름을 갖는 3-벡터로 제공되는 반면 회전은 쿼터니언과 3x3 직교 행렬로 제공됩니다.

S3O4D와 NORB , 3D Chairs , 3D Shapes 등과 같은 기존 ML 벤치마크 데이터세트 사이에는 많은 유사점이 있으며, 여기에는 다양한 포즈 및 조명 조건에서 객체 세트의 렌더링도 포함됩니다. 그러나 이러한 기존 데이터 세트 중 어느 것도 3D의 전체 회전 매니폴드를 포함하지 않습니다. 대부분은 고도 및 방위각 변경 사항의 하위 세트만 포함합니다. S3O4D 이미지는 회전 및 조명의 전체 공간에서 균일하고 독립적으로 샘플링됩니다. 즉, 데이터세트에는 거꾸로 되어 있고 뒤에서 또는 아래에서 조명을 받는 개체가 포함되어 있습니다. 우리는 이것이 S3O4D가 잠재 공간이 중요하지 않은 토폴로지를 갖는 생성 모델 연구뿐만 아니라 다양체의 곡률이 중요한 일반적인 다양체 학습 방법에 적합하다고 믿습니다.

나뉘다
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • 기능 구조 :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
조명 텐서 (삼,) float32
영상 영상 (256, 256, 3) uint8
상표 클래스 라벨 정수64
포즈_매트 텐서 (3, 3) float32
포즈_쿼트 텐서 (4,) float32

심상

  • 인용 :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}