एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

डीस्प्राइट्स

dSprites 2डी आकृतियों का एक डेटासेट है जो प्रक्रियात्मक रूप से 6 जमीनी सच्चाई स्वतंत्र अव्यक्त कारकों से उत्पन्न होता है। इन कारकों में रंग, आकार, पैमाने, रोटेशन, एक्स और स्प्राइट के y स्थान नहीं हैं।

इन अव्यक्तों के सभी संभावित संयोजन ठीक एक बार मौजूद होते हैं, जिससे N = ७३७२८० कुल छवियां उत्पन्न होती हैं।

गुप्त कारक मान

  • रंग सफेद
  • आकार: वर्ग, अंडाकार, दिल
  • स्केल: ६ मान रैखिक रूप से [०.५, १] में दूरी पर हैं
  • अभिविन्यास: [0, 2 pi] में ४० मान
  • स्थिति X: [0, 1] में 32 मान
  • स्थिति Y: [0, 1] में 32 मान

हम एक समय में एक अव्यक्त को बदलते हैं (स्थिति Y से शुरू करते हुए, फिर स्थिति X, आदि), और क्रमिक रूप से छवियों को निश्चित क्रम में संग्रहीत करते हैं। इसलिए पहले आयाम के साथ क्रम तय हो गया है और आपको उस छवि से संबंधित अव्यक्त के मान पर वापस मैप करने की अनुमति मिलती है।

हमने यह सुनिश्चित करते हुए कि सभी पिक्सेल आउटपुट अलग थे, हमने जानबूझकर सबसे छोटे चरण परिवर्तन करने के लिए गुप्त मानों को चुना। कोई शोर नहीं जोड़ा गया था।

विभाजित करना उदाहरण
'train' 737,280
  • विशेषताएं:
FeaturesDict({
    'image': Image(shape=(64, 64, 1), dtype=tf.uint8),
    'label_orientation': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
    'label_scale': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'label_x_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'label_y_position': ClassLabel(shape=(), dtype=tf.int64, num_classes=32),
    'value_orientation': tf.float32,
    'value_scale': tf.float32,
    'value_shape': tf.float32,
    'value_x_position': tf.float32,
    'value_y_position': tf.float32,
})

VISUALIZATION

  • प्रशस्ति पत्र:
@misc{dsprites17,
author = {Loic Matthey and Irina Higgins and Demis Hassabis and Alexander Lerchner},
title = {dSprites: Disentanglement testing Sprites dataset},
howpublished= {https://github.com/deepmind/dsprites-dataset/},
year = "2017",
}