dsprites

dSprites مجموعه داده ای از اشکال دوبعدی است که به صورت رویه ای از 6 عامل نهفته مستقل از حقیقت پایه تولید می شود. این عوامل عبارتند از رنگ ، شکل ، مقیاس ، چرخش ، موقعیت های x و y یک جن.

تمام ترکیب‌های ممکن از این پنهان‌ها دقیقاً یک بار وجود دارند و تعداد N = 737280 تصویر را ایجاد می‌کنند.

مقادیر عامل پنهان

  • رنگ سفید
  • شکل: مربع، بیضی، قلب
  • مقیاس: 6 مقدار با فاصله خطی در [0.5, 1]
  • جهت: 40 مقدار در [0، 2 pi]
  • موقعیت X: 32 مقدار در [0، 1]
  • موقعیت Y: 32 مقدار در [0، 1]

ما هر بار یک نهفته را تغییر دادیم (شروع از موقعیت Y، سپس موقعیت X و غیره)، و به طور متوالی تصاویر را به ترتیب ثابت ذخیره کردیم. از این رو ترتیب در امتداد بعد اول ثابت است و به شما امکان می دهد تا به مقدار نهفته های مربوط به آن تصویر برگردید.

ما مقادیر پنهان را عمداً انتخاب کردیم تا کوچکترین تغییرات گام را داشته باشیم و در عین حال اطمینان حاصل کنیم که همه خروجی های پیکسل متفاوت هستند. نویز اضافه نشد

شکاف مثال ها
'train' 737280
  • ساختار ویژگی :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تصویر تصویر (64، 64، 1) uint8
label_orientation ClassLabel int64
label_scale ClassLabel int64
برچسب_شکل ClassLabel int64
label_x_position ClassLabel int64
label_y_position ClassLabel int64
ارزش_گرا تانسور float32
ارزش_مقیاس تانسور float32
ارزش_شکل تانسور float32
ارزش_x_موقعیت تانسور float32
value_y_position تانسور float32

تجسم

  • نقل قول :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}