s3o4d

Disentangling by Subspace Diffusion 논문의 "Stanford 3D Objects" 섹션에 처음 설명된 데이터 세트입니다. 데이터는 Stanford 3D Scanning Repository 의 Bunny 및 Dragon 개체 각각의 100,000개 렌더링으로 구성됩니다. 앞으로 더 많은 개체가 추가될 수 있지만 종이에는 토끼와 용만 사용됩니다. 각 개체는 2구의 한 지점에서 균일하게 샘플링된 조명과 균일하게 샘플링된 3D 회전으로 렌더링됩니다. 실제 잠재 상태는 이미지와 함께 NumPy 배열로 제공됩니다. 조명은 단위 노름이 있는 3-벡터로 제공되는 반면 회전은 쿼터니언 및 3x3 직교 행렬로 제공됩니다.

S3O4D와 NORB , 3D Chairs , 3D Shapes 등과 같은 기존 ML 벤치마크 데이터 세트 사이에는 많은 유사점이 있습니다. 여기에는 다양한 포즈 및 조명 조건에서 객체 세트의 렌더링도 포함됩니다. 그러나 이러한 기존 데이터 세트 중 어느 것도 3D 회전의 전체 매니폴드 를 포함하지 않습니다. 대부분은 고도 및 방위각에 대한 변경 사항의 하위 집합만 포함합니다. S3O4D 이미지는 회전 및 조명의 전체 공간에서 균일하고 독립적으로 샘플링됩니다. 즉, 데이터 세트에는 거꾸로 되어 있고 뒤에서 또는 아래에서 조명되는 개체가 포함되어 있습니다. 우리는 이것이 S3O4D가 다양체의 곡률이 중요한 일반적인 다양체 학습 방법뿐만 아니라 잠재 공간이 중요하지 않은 토폴로지를 갖는 생성 모델에 대한 연구에 고유하게 적합하다고 믿습니다.

나뉘다
'bunny_test' 20,000
'bunny_train' 80,000
'dragon_test' 20,000
'dragon_train' 80,000
  • 기능 구조 :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
조명 텐서 (삼,) float32
영상 영상 (256, 256, 3) uint8
상표 클래스 레이블 int64
포즈 매트 텐서 (3, 3) float32
포즈_쿼트 텐서 (4,) float32

심상

  • 인용 :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}