sprites

  • Description :

dSprites est un ensemble de données de formes 2D générées de manière procédurale à partir de 6 facteurs latents indépendants de la vérité terrain. Ces facteurs sont la couleur , la forme , l'échelle , la rotation , les positions x et y d'un sprite.

Toutes les combinaisons possibles de ces latents sont présentes exactement une fois, générant N = 737 280 images au total.

Valeurs des facteurs latents

  • Couleur blanche
  • Forme : carré, ellipse, cœur
  • Échelle : 6 valeurs espacées linéairement en [0,5, 1]
  • Orientation : 40 valeurs en [0, 2 pi]
  • Position X : 32 valeurs dans [0, 1]
  • Position Y : 32 valeurs dans [0, 1]

Nous avons fait varier une latente à la fois (en commençant par la position Y, puis la position X, etc.) et avons stocké séquentiellement les images dans un ordre fixe. Par conséquent, l'ordre le long de la première dimension est fixe et vous permet de revenir à la valeur des latents correspondant à cette image.

Nous avons délibérément choisi les valeurs latentes pour obtenir les plus petits changements tout en garantissant que toutes les sorties de pixels étaient différentes. Aucun bruit n'a été ajouté.

Diviser Exemples
'train' 737 280
  • Structure des fonctionnalités :
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
image Image (64, 64, 1) uint8
étiquette_orientation Étiquette de classe int64
étiquette_scale Étiquette de classe int64
forme_étiquette Étiquette de classe int64
étiquette_x_position Étiquette de classe int64
étiquette_y_position Étiquette de classe int64
valeur_orientation Tenseur flotteur32
valeur_échelle Tenseur flotteur32
forme_valeur Tenseur flotteur32
valeur_x_position Tenseur flotteur32
valeur_y_position Tenseur flotteur32

Visualisation

  • Citation :
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}