MLコミュニティデーは11月9日です! TensorFlow、JAXからの更新のために私たちに参加し、より多くの詳細をご覧ください

dsprites

dSpritesは、6つのグラウンドトゥルースに依存しない潜在因子から手続き的に生成された2D形状のデータセットです。これらの要因は、スプライトの形状スケール回転、xy位置です。

これらの潜在性のすべての可能な組み合わせは、1回だけ存在し、N = 737280の合計画像を生成します。

潜在因子値

  • 色:白
  • 形:正方形、楕円、ハート
  • スケール:[0.5、1]で直線的に配置された6つの値
  • 方向:[0、2pi]の40の値
  • 位置X:[0、1]の32個の値
  • 位置Y:[0、1]の32個の値

潜在的なものを一度に1つずつ変化させ(位置Yから開始し、位置Xなど)、固定された順序で画像を順番に保存しました。したがって、最初の次元に沿った順序は固定されており、その画像に対応する潜在値の値にマップして戻すことができます。

すべてのピクセル出力が異なることを確認しながら、ステップの変化が最小になるように、意図的に潜在値を選択しました。ノイズは追加されませんでした。

スプリット
'train' 737,280
  • 特長
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=tf.uint8),
    'label_orientation': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'value_orientation': tf.float32,
    'value_scale': tf.float32,
    'value_shape': tf.float32,
    'value_x_position': tf.float32,
    'value_y_position': tf.float32,
})

視覚化

  • 引用
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}