スプライト

dSprites は、6 つのグラウンド トゥルースに依存しない潜在因子から手続き的に生成された 2D 形状のデータセットです。これらの要因は、スプライトのcolorshapescalerotationxおよびy位置です。

これらの潜在のすべての可能な組み合わせは、N = 737280 の合計画像を生成する 1 回だけ存在します。

潜在因子の値

  • 色: 白
  • 形状:四角、楕円、ハート
  • スケール: [0.5, 1] で線形に配置された 6 つの値
  • 方向: [0, 2 pi] の 40 の値
  • 位置 X: [0, 1] の 32 個の値
  • 位置 Y: [0, 1] の 32 個の値

一度に 1 つの潜在を変更し (位置 Y から開始し、次に位置 X など)、画像を固定された順序で順次保存しました。したがって、最初の次元に沿った順序は固定されており、その画像に対応する潜在の値に戻すことができます。

すべてのピクセル出力が異なるようにしながら、最小のステップ変化を持つように潜在値を慎重に選択しました。ノイズは追加されませんでした。

スプリット
'train' 737,280
  • 機能構造:
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=uint8),
    'label_orientation': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=int64, num_classes=32),
    'value_orientation': float32,
    'value_scale': float32,
    'value_shape': float32,
    'value_x_position': float32,
    'value_y_position': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
画像画像(64、64、1) uint8
label_orientationクラスラベルint64
label_scaleクラスラベルint64
label_shapeクラスラベルint64
label_x_positionクラスラベルint64
label_y_positionクラスラベルint64
value_orientationテンソルfloat32
value_scaleテンソルfloat32
値_形状テンソルfloat32
value_x_positionテンソルfloat32
value_y_positionテンソルfloat32

視覚化

  • 引用
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}