Визуализация : Исследуйте в Know Your Data
Описание :
Набор данных, впервые описанный в разделе «Stanford 3D Objects» статьи Disentangling by Subspace Diffusion . Данные состоят из 100 000 визуализаций каждого из объектов Bunny и Dragon из Стэнфордского репозитория 3D-сканирования . В будущем могут быть добавлены другие объекты, но в статье используются только Кролик и Дракон. Каждый объект визуализируется с равномерным освещением от точки на 2-сфере и равномерным трехмерным вращением. Истинные скрытые состояния предоставляются в виде массивов NumPy вместе с изображениями. Освещение задается в виде 3-вектора с единичной нормой, а поворот обеспечивается как в виде кватерниона, так и в виде ортогональной матрицы 3x3.
Существует много общего между S3O4D и существующими эталонными наборами данных машинного обучения, такими как NORB , 3D Chairs , 3D Shapes и многими другими, которые также включают рендеринг набора объектов в разных позах и условиях освещения. Однако ни один из этих существующих наборов данных не включает в себя полное многообразие вращений в 3D — большинство включает только подмножество изменений высоты и азимута. Изображения S3O4D сэмплируются равномерно и независимо от полного пространства поворотов и освещенности, что означает, что набор данных содержит объекты, которые перевернуты и освещены сзади или снизу. Мы считаем, что это делает S3O4D уникально подходящим для исследования генеративных моделей, где скрытое пространство имеет нетривиальную топологию, а также для общих методов обучения многообразию, где важна кривизна многообразия.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Исходный код :
tfds.datasets.s3o4d.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
911.68 MiB
Размер набора данных :
1.01 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'bunny_test' | 20 000 |
'bunny_train' | 80 000 |
'dragon_test' | 20 000 |
'dragon_train' | 80 000 |
- Структура функции :
FeaturesDict({
'illumination': Tensor(shape=(3,), dtype=float32),
'image': Image(shape=(256, 256, 3), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pose_mat': Tensor(shape=(3, 3), dtype=float32),
'pose_quat': Tensor(shape=(4,), dtype=float32),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
освещение | Тензор | (3,) | поплавок32 | |
изображение | Изображение | (256, 256, 3) | uint8 | |
этикетка | Метка класса | int64 | ||
pose_mat | Тензор | (3, 3) | поплавок32 | |
pose_quat | Тензор | (4,) | поплавок32 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{pfau2020disentangling,
title={Disentangling by Subspace Diffusion},
author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
S{\'e}bastian},
journal={Advances in Neural Information Processing Systems (NeurIPS)},
year={2020}
}