s3o4d

Bộ dữ liệu được mô tả lần đầu trong phần "Đối tượng 3D của Stanford" trong bài báo Disentangleling by Subspace Diffusion . Dữ liệu bao gồm 100.000 kết xuất của mỗi đối tượng Thỏ và Rồng từ Kho lưu trữ Quét 3D của Stanford . Nhiều đối tượng có thể được thêm vào trong tương lai, nhưng chỉ có Thỏ và Rồng được sử dụng trong bài báo. Mỗi đối tượng được hiển thị với ánh sáng được lấy mẫu đồng nhất từ ​​một điểm trên 2 hình cầu và xoay 3D được lấy mẫu đồng nhất. Các trạng thái tiềm ẩn thực sự được cung cấp dưới dạng mảng NumPy cùng với hình ảnh. Ánh sáng được cung cấp dưới dạng 3 vectơ với định mức đơn vị, trong khi phép quay được cung cấp dưới dạng ma trận bậc bốn và ma trận trực giao 3x3.

Có nhiều điểm tương đồng giữa S3O4D và bộ dữ liệu điểm chuẩn ML hiện có như NORB , Ghế 3D , Hình dạng 3D và nhiều thứ khác, cũng bao gồm kết xuất của một nhóm đối tượng trong các điều kiện chiếu sáng và tư thế khác nhau. Tuy nhiên, không có bộ dữ liệu nào trong số các bộ dữ liệu hiện có này bao gồm đầy đủ các phép quay trong 3D - hầu hết chỉ bao gồm một tập hợp con các thay đổi đối với độ cao và góc phương vị. Hình ảnh S3O4D được lấy mẫu thống nhất và độc lập với toàn bộ không gian xoay và chiếu sáng, nghĩa là tập dữ liệu chứa các đối tượng lộn ngược và được chiếu sáng từ phía sau hoặc bên dưới. Chúng tôi tin rằng điều này làm cho S3O4D trở nên đặc biệt phù hợp cho nghiên cứu về các mô hình tổng quát trong đó không gian tiềm ẩn có cấu trúc liên kết không tầm thường, cũng như cho các phương pháp học đa tạp chung trong đó độ cong của đa tạp là quan trọng.

Tách ra ví dụ
'bunny_test' 20.000
'bunny_train' 80.000
'dragon_test' 20.000
'dragon_train' 80.000
  • Cấu trúc tính năng :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
chiếu sáng tenxơ (3,) phao32
hình ảnh Hình ảnh (256, 256, 3) uint8
nhãn mác LớpNhãn int64
pose_mat tenxơ (3, 3) phao32
tư thế_quat tenxơ (4,) phao32

Hình dung

  • trích dẫn :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}