s3o4d

Описание :

Набор данных впервые описан в разделе «Стэнфордские 3D-объекты» статьи Disentangling by Subspace Diffusion . Данные состоят из 100 000 изображений каждого объекта «Кролик» и «Дракон» из Стэнфордского репозитория 3D-сканирования . В будущем могут быть добавлены и другие объекты, но в статье используются только Кролик и Дракон. Каждый объект визуализируется с равномерно выбранным освещением из точки на 2-сфере и с равномерно выбранным трехмерным вращением. Истинные скрытые состояния предоставляются в виде массивов NumPy вместе с изображениями. Освещение задается в виде 3-вектора с единичной нормой, а вращение предоставляется как в виде кватерниона, так и в виде ортогональной матрицы 3x3.

Существует много общего между S3O4D и существующими наборами эталонных данных ML, такими как NORB , 3D Chairs , 3D Shapes и многими другими, которые также включают в себя рендеринг набора объектов в разных позах и условиях освещения. Однако ни один из этих существующих наборов данных не включает полное разнообразие вращений в 3D — большинство включает только подмножество изменений высоты и азимута. Изображения S3O4D выбираются равномерно и независимо от всего пространства вращений и освещений, то есть набор данных содержит объекты, которые перевернуты и освещены сзади или снизу. Мы считаем, что это делает S3O4D уникально подходящим для исследования генеративных моделей, в которых скрытое пространство имеет нетривиальную топологию, а также для общих методов изучения многообразий, где важна кривизна многообразия.

Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/geomancer#stanford-3d-objects-for-disentangling-s3o4d
Исходный код : tfds.datasets.s3o4d.Builder .
Версии :
- 1.0.0 (по умолчанию): первоначальный выпуск.
Размер загрузки : 911.68 MiB
Размер набора данных : 1.01 GiB
Автокэширование ( документация ): Нет
Расколы :

Расколоть	Примеры
`'bunny_test'`	20 000
`'bunny_train'`	80 000
`'dragon_test'`	20 000
`'dragon_train'`	80 000

Структура функции :

FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип
	ВозможностиDict
освещение	Тензор	(3,)	поплавок32
изображение	Изображение	(256, 256, 3)	uint8
этикетка	Класслейбл		int64
поза_мат	Тензор	(3, 3)	поплавок32
поза_quat	Тензор	(4,)	поплавок32

Контролируемые ключи (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ):

Визуализация

Примеры ( tfds.as_dataframe ):

Цитата :

@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}

s3o4d Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

s3o4d