מהומה

  • תיאור :

ערכת הנתונים של Free Universal Sound Separation (FUSS) היא מסד נתונים של תערובות סאונד שרירותיות והפניות ברמת המקור, לשימוש בניסויים על הפרדת צלילים שרירותית.

אלו הם הנתונים הרשמיים של הפרדת הקול עבור משימה 4 של אתגר DCASE2020: זיהוי והפרדת אירועי קול בסביבות ביתיות.

סקירה כללית: נתוני אודיו של FUSS מקורם במהדורה מוקדמת של מערך הנתונים של Freesound המכונה (FSD50k), מערך נתונים של אירועי סאונד המורכב מתוכן Freesound עם הערות עם תוויות מהאונטולוגיה של AudioSet. באמצעות התוויות FSD50K, קובצי המקור הללו נבדקו כך שהם כנראה מכילים רק סוג אחד של צליל. תוויות אינן מסופקות עבור קובצי מקור אלה, ואינן נחשבות לחלק מהאתגר. לצורך אתגר הפרדת סאונד וזיהוי אירועים של DCASE Task4, מערכות לא צריכות להשתמש בתוויות FSD50K, למרות שהן עשויות להיות זמינות עם שחרור FSD50K.

כדי ליצור תערובות, קטעי מקורות של 10 שניות מסובבים עם תגובות הדמיות של דחף החדר ומוסיפים יחד. כל תערובת של 10 שניות מכילה בין 1 ל-4 מקורות. קובצי מקור שאורכם יותר מ-10 שניות נחשבים למקורות "רקע". כל תערובת מכילה מקור רקע אחד, הפעיל לכל משך הזמן. אנו מספקים: מתכון תוכנה ליצירת מערך הנתונים, תגובות הדחף בחדר ומקור השמע המקורי.

לְפַצֵל דוגמאות
'test' 1,000
'train' 20,000
'validation' 1,000
  • מבנה תכונה :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
ריבות מוֹתֵחַ tf.string
mix_audio שֶׁמַע (160000,) tf.int16
קטעים סדר פעולות
מקטעים/סיום_זמן_שניות מוֹתֵחַ tf.float32
פלחים/תווית מוֹתֵחַ tf.string
segments/start_time_seconds מוֹתֵחַ tf.float32
מקורות סדר פעולות
מקורות/שמע שֶׁמַע (160000,) tf.int16
מקורות/תווית ClassLabel tf.int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

רעש/הדהוד (תצורת ברירת מחדל)

  • תיאור תצורה : ברירת המחדל של אודיו מהדהוד.

  • גודל הורדה : 7.35 GiB

  • גודל מערך נתונים : 43.20 GiB

מהומה/לא מעובד

  • תיאור תצורה : אודיו לא מעובד ללא הדהוד נוסף.

  • גודל הורדה : 8.28 GiB

  • גודל מערך נתונים : 45.58 GiB