dsprites

dSprites est un ensemble de données de formes 2D générées de manière procédurale à partir de 6 facteurs latents indépendants de la vérité terrain. Ces facteurs sont la couleur , la forme , l'échelle , la rotation , les positions x et y d'un sprite.

Toutes les combinaisons possibles de ces latentes sont présentes exactement une fois, générant N = 737280 images au total.

Valeurs des facteurs latents

  • Couleur blanche
  • Forme : carré, ellipse, cœur
  • Échelle : 6 valeurs espacées linéairement dans [0,5, 1]
  • Orientation : 40 valeurs en [0, 2 pi]
  • Position X : 32 valeurs dans [0, 1]
  • Position Y : 32 valeurs dans [0, 1]

Nous avons fait varier une latente à la fois (en partant de la position Y, puis de la position X, etc.) et avons stocké séquentiellement les images dans un ordre fixe. Par conséquent, l'ordre le long de la première dimension est fixe et vous permet de remonter à la valeur des latentes correspondant à cette image.

Nous avons délibérément choisi les valeurs latentes pour avoir les plus petits changements d'étape tout en veillant à ce que toutes les sorties de pixels soient différentes. Aucun bruit n'a été ajouté.

Diviser Exemples
'train' 737 280
  • Structure des fonctionnalités :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
image Image (64, 64, 1) uint8
label_orientation Étiquette de classe int64
label_scale Étiquette de classe int64
label_shape Étiquette de classe int64
étiquette_x_position Étiquette de classe int64
label_y_position Étiquette de classe int64
orientation_valeur Tenseur float32
value_scale Tenseur float32
value_shape Tenseur float32
valeur_x_position Tenseur float32
valeur_y_position Tenseur float32

Visualisation

  • Citation :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}