- תיאור :
ערכת הנתונים של Free Universal Sound Separation (FUSS) היא מסד נתונים של תערובות סאונד שרירותיות והפניות ברמת המקור, לשימוש בניסויים על הפרדת צלילים שרירותית.
אלו הם הנתונים הרשמיים של הפרדת הקול עבור אתגר DCASE2020 משימה 4: זיהוי והפרדת אירועי קול בסביבות ביתיות.
סקירה כללית: נתוני אודיו של FUSS מקורם במהדורה מוקדמת של מערך הנתונים של Freesound הידוע בשם (FSD50k), מערך נתונים של אירועי סאונד המורכב מתוכן Freesound עם הערות עם תוויות מהאונטולוגיה של AudioSet. באמצעות התוויות FSD50K, קובצי המקור הללו נבדקו כך שסביר להניח שהם מכילים רק סוג אחד של צליל. תוויות אינן מסופקות עבור קובצי מקור אלו, ואינן נחשבות לחלק מהאתגר. לצורך אתגר הפרדת סאונד וזיהוי אירועים של DCASE Task4, מערכות לא צריכות להשתמש בתוויות FSD50K, למרות שהן עשויות להיות זמינות עם שחרור FSD50K.
כדי ליצור תערובות, קטעים של 10 שניות של מקורות מסובבים עם תגובות מדומה של דחף חדר ומוסיפים יחד. כל תערובת של 10 שניות מכילה בין 1 ל-4 מקורות. קבצי מקור שאורכם יותר מ-10 שניות נחשבים למקורות "רקע". כל תערובת מכילה מקור רקע אחד, הפעיל לכל משך הזמן. אנו מספקים: מתכון תוכנה ליצירת מערך הנתונים, תגובות דחף החדר והשמע המקורי.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.audio.Fuss
גרסאות :
-
1.2.0
(ברירת מחדל): אין הערות שחרור.
-
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,000 |
'train' | 20,000 |
'validation' | 1,000 |
- מבנה תכונה :
FeaturesDict({
'id': string,
'jams': string,
'mixture_audio': Audio(shape=(160000,), dtype=int16),
'segments': Sequence({
'end_time_seconds': float32,
'label': string,
'start_time_seconds': float32,
}),
'sources': Sequence({
'audio': Audio(shape=(160000,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
ריבות | מוֹתֵחַ | חוּט | ||
mix_audio | שֶׁמַע | (160000,) | int16 | |
קטעים | סדר פעולות | |||
מקטעים/זמן_סיום_שניות | מוֹתֵחַ | לצוף32 | ||
פלחים/תווית | מוֹתֵחַ | חוּט | ||
segments/start_time_seconds | מוֹתֵחַ | לצוף32 | ||
מקורות | סדר פעולות | |||
מקורות/שמע | שֶׁמַע | (160000,) | int16 | |
מקורות/תווית | ClassLabel | int64 |
מפתחות בפיקוח (ראה כמסמך בפיקוח): ('
as_supervised
('mixture_audio', 'sources')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
\
@inproceedings{wisdom2020fuss,
title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
year = {2020},
url = {https://arxiv.org/abs/2011.00803},
}
@inproceedings{fonseca2020fsd50k,
author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
title = { {FSD}50k: an open dataset of human-labeled sound events},
year = {2020},
url = {https://arxiv.org/abs/2010.00475},
}
רעש/הדהוד (תצורת ברירת מחדל)
תיאור תצורה : ברירת המחדל של אודיו מהדהוד.
גודל הורדה :
7.35 GiB
גודל מערך נתונים :
43.20 GiB
דוגמאות ( tfds.as_dataframe ):
מהומה/לא מעובד
תיאור תצורה : אודיו לא מעובד ללא הדהוד נוסף.
גודל הורדה :
8.28 GiB
גודל מערך נתונים :
45.58 GiB
דוגמאות ( tfds.as_dataframe ):