מהומה

תיאור :

ערכת הנתונים של Free Universal Sound Separation (FUSS) היא מסד נתונים של תערובות סאונד שרירותיות והפניות ברמת המקור, לשימוש בניסויים על הפרדת צלילים שרירותית.

אלו הם הנתונים הרשמיים של הפרדת הקול עבור אתגר DCASE2020 משימה 4: זיהוי והפרדת אירועי קול בסביבות ביתיות.

סקירה כללית: נתוני אודיו של FUSS מקורם במהדורה מוקדמת של מערך הנתונים של Freesound הידוע בשם (FSD50k), מערך נתונים של אירועי סאונד המורכב מתוכן Freesound עם הערות עם תוויות מהאונטולוגיה של AudioSet. באמצעות התוויות FSD50K, קובצי המקור הללו נבדקו כך שסביר להניח שהם מכילים רק סוג אחד של צליל. תוויות אינן מסופקות עבור קובצי מקור אלו, ואינן נחשבות לחלק מהאתגר. לצורך אתגר הפרדת סאונד וזיהוי אירועים של DCASE Task4, מערכות לא צריכות להשתמש בתוויות FSD50K, למרות שהן עשויות להיות זמינות עם שחרור FSD50K.

כדי ליצור תערובות, קטעים של 10 שניות של מקורות מסובבים עם תגובות מדומה של דחף חדר ומוסיפים יחד. כל תערובת של 10 שניות מכילה בין 1 ל-4 מקורות. קבצי מקור שאורכם יותר מ-10 שניות נחשבים למקורות "רקע". כל תערובת מכילה מקור רקע אחד, הפעיל לכל משך הזמן. אנו מספקים: מתכון תוכנה ליצירת מערך הנתונים, תגובות דחף החדר והשמע המקורי.

תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
קוד מקור : tfds.audio.Fuss
גרסאות :
- 1.2.0 (ברירת מחדל): אין הערות שחרור.
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

מבנה תכונה :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype
	FeaturesDict
תְעוּדַת זֶהוּת	מוֹתֵחַ		חוּט
ריבות	מוֹתֵחַ		חוּט
mix_audio	שֶׁמַע	(160000,)	int16
קטעים	סדר פעולות
מקטעים/זמן_סיום_שניות	מוֹתֵחַ		לצוף32
פלחים/תווית	מוֹתֵחַ		חוּט
segments/start_time_seconds	מוֹתֵחַ		לצוף32
מקורות	סדר פעולות
מקורות/שמע	שֶׁמַע	(160000,)	int16
מקורות/תווית	ClassLabel		int64

מפתחות בפיקוח (ראה כמסמך בפיקוח): (' as_supervised ('mixture_audio', 'sources')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

רעש/הדהוד (תצורת ברירת מחדל)

תיאור תצורה : ברירת המחדל של אודיו מהדהוד.
גודל הורדה : 7.35 GiB
גודל מערך נתונים : 43.20 GiB
דוגמאות ( tfds.as_dataframe ):

מהומה/לא מעובד

תיאור תצורה : אודיו לא מעובד ללא הדהוד נוסף.
גודל הורדה : 8.28 GiB
גודל מערך נתונים : 45.58 GiB
דוגמאות ( tfds.as_dataframe ):

מהומה קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

רעש/הדהוד (תצורת ברירת מחדל)

מהומה/לא מעובד

מהומה