09:00 पीएसटी पर एमएल संगोष्ठी इस मंगलवार, 19 अक्टूबर में पहले महिलाओं में ट्यून रजिस्टर अब

गड़बड़

  • विवरण:

फ्री यूनिवर्सल साउंड सेपरेशन (एफयूएसएस) डेटासेट मनमाना ध्वनि मिश्रण और स्रोत-स्तरीय संदर्भों का एक डेटाबेस है, जो मनमाने ध्वनि पृथक्करण पर प्रयोगों में उपयोग के लिए है।

यह DCASE2020 चैलेंज टास्क 4: साउंड इवेंट डिटेक्शन एंड सेपरेशन इन डोमेस्टिक एनवायरनमेंट के लिए आधिकारिक साउंड सेपरेशन डेटा है।

अवलोकन: FUSS ऑडियो डेटा को फ्रीसाउंड डेटासेट (FSD50k) के पूर्व-रिलीज़ से प्राप्त किया जाता है, जो ऑडियोसेट ओन्टोलॉजी से लेबल के साथ एनोटेट किए गए फ्रीसाउंड सामग्री से बना एक ध्वनि घटना डेटासेट है। FSD50K लेबल का उपयोग करते हुए, इन स्रोत फ़ाइलों की जांच इस तरह की गई है कि उनमें केवल एक ही प्रकार की ध्वनि होने की संभावना है। इन स्रोत फ़ाइलों के लिए लेबल प्रदान नहीं किए गए हैं, और इन्हें चुनौती का हिस्सा नहीं माना जाता है। DCASE टास्क4 साउंड सेपरेशन और इवेंट डिटेक्शन चैलेंज के उद्देश्य के लिए, सिस्टम को FSD50K लेबल का उपयोग नहीं करना चाहिए, भले ही वे FSD50K रिलीज़ पर उपलब्ध हो सकते हैं।

मिश्रण बनाने के लिए, स्रोतों की 10 सेकंड की क्लिप को सिम्युलेटेड रूम इंपल्स प्रतिक्रियाओं के साथ जोड़ा जाता है और एक साथ जोड़ा जाता है। प्रत्येक 10 सेकंड के मिश्रण में 1 और 4 स्रोत होते हैं। 10 सेकंड से अधिक लंबी स्रोत फ़ाइलों को "पृष्ठभूमि" स्रोत माना जाता है। प्रत्येक मिश्रण में एक पृष्ठभूमि स्रोत होता है, जो पूरी अवधि के लिए सक्रिय रहता है। हम प्रदान करते हैं: डेटासेट बनाने के लिए एक सॉफ़्टवेयर नुस्खा, कक्ष आवेग प्रतिक्रियाएँ, और मूल स्रोत ऑडियो।

विभाजित करना उदाहरण
'test' 1,000
'train' २०,०००
'validation' 1,000
  • विशेषताएं:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('mixture_audio', 'sources')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

उपद्रव/प्रतिध्वनि (डिफ़ॉल्ट विन्यास)

  • कॉन्फ़िग विवरण: डिफ़ॉल्ट गूंज उठा ऑडियो।

  • डाउनलोड का आकार: 7.35 GiB

  • डेटासेट का आकार: 43.20 GiB

  • उदाहरण ( tfds.as_dataframe ):

उपद्रव/असंसाधित

  • कॉन्फ़िग विवरण: अतिरिक्त प्रतिध्वनि बिना असंसाधित ऑडियो।

  • डाउनलोड का आकार: 8.28 GiB

  • डेटासेट का आकार: 45.58 GiB

  • उदाहरण ( tfds.as_dataframe ):