s3o4d

Sự miêu tả :

Tập dữ liệu được mô tả lần đầu tiên trong phần "Đối tượng 3D Stanford" của bài báo Giải quyết bằng cách khuếch tán không gian con . Dữ liệu bao gồm 100.000 kết xuất của mỗi đối tượng Bunny và Dragon từ Kho lưu trữ quét 3D của Stanford . Nhiều đồ vật khác có thể được thêm vào trong tương lai, nhưng chỉ có Thỏ và Rồng được sử dụng trong bài báo. Mỗi đối tượng được hiển thị với độ sáng được lấy mẫu thống nhất từ một điểm trên hình cầu 2 và xoay 3D được lấy mẫu thống nhất. Các trạng thái tiềm ẩn thực sự được cung cấp dưới dạng mảng NumPy cùng với hình ảnh. Ánh sáng được cung cấp dưới dạng vectơ 3 chiều với định mức đơn vị, trong khi phép quay được cung cấp cả dưới dạng ma trận bậc bốn và ma trận trực giao 3x3.

Có nhiều điểm tương đồng giữa S3O4D và các bộ dữ liệu điểm chuẩn ML hiện có như NORB , Ghế 3D , Hình dạng 3D và nhiều bộ dữ liệu khác, bao gồm cả kết xuất của một tập hợp đối tượng trong các điều kiện chiếu sáng và tư thế khác nhau. Tuy nhiên, không có bộ dữ liệu hiện có nào bao gồm đầy đủ các phép quay trong 3D - hầu hết chỉ bao gồm một tập hợp con các thay đổi về độ cao và góc phương vị. Hình ảnh S3O4D được lấy mẫu đồng nhất và độc lập với toàn bộ không gian quay và chiếu sáng, nghĩa là tập dữ liệu chứa các vật thể lộn ngược và được chiếu sáng từ phía sau hoặc bên dưới. Chúng tôi tin rằng điều này làm cho S3O4D đặc biệt phù hợp để nghiên cứu về các mô hình tổng quát trong đó không gian tiềm ẩn có cấu trúc liên kết không tầm thường, cũng như cho các phương pháp học đa dạng chung trong đó độ cong của đa tạp là quan trọng.

Tài liệu bổ sung : Khám phá trên giấy tờ có mã
Trang chủ : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Mã nguồn : tfds.datasets.s3o4d.Builder
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : 911.68 MiB
Kích thước tập dữ liệu : 1.01 GiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Chia tách :

Tách ra	Ví dụ
`'bunny_test'`	20.000
`'bunny_train'`	80.000
`'dragon_test'`	20.000
`'dragon_train'`	80.000

Cấu trúc tính năng :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

Tài liệu tính năng :

Tính năng	Lớp học	Hình dạng	loại D
	Tính năngDict
chiếu sáng	Tenxơ	(3,)	phao32
hình ảnh	Hình ảnh	(256, 256, 3)	uint8
nhãn	Nhãn lớp		int64
tư thế_mat	Tenxơ	(3, 3)	phao32
tư thế_quat	Tenxơ	(4,)	phao32

Khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ):

Hình dung

Ví dụ ( tfds.as_dataframe ):

Trích dẫn :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}

s3o4d Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

s3o4d