s3o4d

Набор данных, впервые описанный в разделе «Stanford 3D Objects» статьи Disentangling by Subspace Diffusion . Данные состоят из 100 000 визуализаций каждого из объектов Bunny и Dragon из Стэнфордского репозитория 3D-сканирования . В будущем могут быть добавлены другие объекты, но в статье используются только Кролик и Дракон. Каждый объект визуализируется с равномерным освещением от точки на 2-сфере и равномерным трехмерным вращением. Истинные скрытые состояния предоставляются в виде массивов NumPy вместе с изображениями. Освещение задается в виде 3-вектора с единичной нормой, а поворот обеспечивается как в виде кватерниона, так и в виде ортогональной матрицы 3x3.

Существует много общего между S3O4D и существующими эталонными наборами данных машинного обучения, такими как NORB , 3D Chairs , 3D Shapes и многими другими, которые также включают рендеринг набора объектов в разных позах и условиях освещения. Однако ни один из этих существующих наборов данных не включает в себя полное многообразие вращений в 3D — большинство включает только подмножество изменений высоты и азимута. Изображения S3O4D сэмплируются равномерно и независимо от полного пространства поворотов и освещенности, что означает, что набор данных содержит объекты, которые перевернуты и освещены сзади или снизу. Мы считаем, что это делает S3O4D уникально подходящим для исследования генеративных моделей, где скрытое пространство имеет нетривиальную топологию, а также для общих методов обучения многообразию, где важна кривизна многообразия.

Расколоть Примеры
'bunny_test' 20 000
'bunny_train' 80 000
'dragon_test' 20 000
'dragon_train' 80 000
  • Структура функции :
FeaturesDict({
    'illumination': Tensor(shape=(3,), dtype=float32),
    'image': Image(shape=(256, 256, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pose_mat': Tensor(shape=(3, 3), dtype=float32),
    'pose_quat': Tensor(shape=(4,), dtype=float32),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
освещение Тензор (3,) поплавок32
изображение Изображение (256, 256, 3) uint8
этикетка Метка класса int64
pose_mat Тензор (3, 3) поплавок32
pose_quat Тензор (4,) поплавок32

Визуализация

  • Цитата :
@article{pfau2020disentangling,
  title={Disentangling by Subspace Diffusion},
  author={Pfau, David and Higgins, Irina and Botev, Aleksandar and Racani\`ere,
  S{\'e}bastian},
  journal={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2020}
}