מהומה

  • תיאור :

ערכת הנתונים של Free Universal Sound Separation (FUSS) היא מסד נתונים של תערובות סאונד שרירותיות והפניות ברמת המקור, לשימוש בניסויים על הפרדת צלילים שרירותית.

אלו הם הנתונים הרשמיים של הפרדת הקול עבור אתגר DCASE2020 משימה 4: זיהוי והפרדת אירועי קול בסביבות ביתיות.

סקירה כללית: נתוני אודיו של FUSS מקורם במהדורה מוקדמת של מערך הנתונים של Freesound הידוע בשם (FSD50k), מערך נתונים של אירועי סאונד המורכב מתוכן Freesound עם הערות עם תוויות מהאונטולוגיה של AudioSet. באמצעות התוויות FSD50K, קובצי המקור הללו נבדקו כך שסביר להניח שהם מכילים רק סוג אחד של צליל. תוויות אינן מסופקות עבור קובצי מקור אלו, ואינן נחשבות לחלק מהאתגר. לצורך אתגר הפרדת סאונד וזיהוי אירועים של DCASE Task4, מערכות לא צריכות להשתמש בתוויות FSD50K, למרות שהן עשויות להיות זמינות עם שחרור FSD50K.

כדי ליצור תערובות, קטעים של 10 שניות של מקורות מסובבים עם תגובות מדומה של דחף חדר ומוסיפים יחד. כל תערובת של 10 שניות מכילה בין 1 ל-4 מקורות. קבצי מקור שאורכם יותר מ-10 שניות נחשבים למקורות "רקע". כל תערובת מכילה מקור רקע אחד, הפעיל לכל משך הזמן. אנו מספקים: מתכון תוכנה ליצירת מערך הנתונים, תגובות דחף החדר והשמע המקורי.

לְפַצֵל דוגמאות
'test' 1,000
'train' 20,000
'validation' 1,000
  • מבנה תכונה :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
ריבות מוֹתֵחַ חוּט
mix_audio שֶׁמַע (160000,) int16
קטעים סדר פעולות
מקטעים/זמן_סיום_שניות מוֹתֵחַ לצוף32
פלחים/תווית מוֹתֵחַ חוּט
segments/start_time_seconds מוֹתֵחַ לצוף32
מקורות סדר פעולות
מקורות/שמע שֶׁמַע (160000,) int16
מקורות/תווית ClassLabel int64
  • מפתחות בפיקוח (ראה כמסמך בפיקוח): (' as_supervised ('mixture_audio', 'sources')

  • איור ( tfds.show_examples ): לא נתמך.

  • ציטוט :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

רעש/הדהוד (תצורת ברירת מחדל)

  • תיאור תצורה : ברירת המחדל של אודיו מהדהוד.

  • גודל הורדה : 7.35 GiB

  • גודל מערך נתונים : 43.20 GiB

  • דוגמאות ( tfds.as_dataframe ):

מהומה/לא מעובד

  • תיאור תצורה : אודיו לא מעובד ללא הדהוד נוסף.

  • גודל הורדה : 8.28 GiB

  • גודל מערך נתונים : 45.58 GiB

  • דוגמאות ( tfds.as_dataframe ):