امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

سر و صدا

  • توضیحات :

مجموعه داده های جداگانه جهانی صدا (FUSS) یک پایگاه داده از مخلوط های صدای دلخواه و منابع سطح منبع برای استفاده در آزمایش های جداسازی صدای دلخواه است.

این داده های رسمی تفکیک صدا برای DCASE2020 Challenge Task 4: Sound Event تشخیص و جداسازی در محیط های داخلی است.

بررسی اجمالی: داده های صوتی FUSS از پیش انتشار مجموعه داده Freesound معروف به (FSD50k) ، مجموعه داده رویداد صوتی متشکل از محتوای Freesound حاوی حاوی برچسب هایی از AudioSet Ontology ، تهیه می شوند. با استفاده از برچسب های FSD50K ، این فایل های منبع به گونه ای نمایش داده شده اند که احتمالاً فقط شامل یک نوع صدا هستند. برچسب هایی برای این پرونده های منبع ارائه نشده است و بخشی از چالش محسوب نمی شوند. به منظور چالش تفکیک صدا و تشخیص رویداد DCASE Task4 ، سیستم ها نباید از برچسب های FSD50K استفاده کنند ، حتی اگر با انتشار FSD50K در دسترس قرار بگیرند.

برای ایجاد مخلوط ، 10 کلیپ دوم از منابع با پاسخ های تکانه ای اتاق شبیه سازی شده و جمع می شوند. هر مخلوط 10 ثانیه ای بین 1 تا 4 منبع دارد. پرونده های منبع بیش از 10 ثانیه منابع "پس زمینه" در نظر گرفته می شوند. هر مخلوط حاوی یک منبع پس زمینه است که برای کل مدت زمان فعال است. ما ارائه می دهیم: یک دستورالعمل نرم افزاری برای ایجاد مجموعه داده ، پاسخهای ضربه اتاق و صدای اصلی منبع.

شکاف مثال ها
'test' 1000
'train' 20،000
'validation' 1000
  • ویژگی ها :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • کلیدهای تحت نظارت (به as_supervised نظارت شده مراجعه کنید): ('mixture_audio', 'sources')

  • نقل قول :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

سر و صدا / طنین انداز (پیکربندی پیش فرض)

  • توضیحات پیکربندی : صدا به صورت پیش فرض منعکس شد.

  • اندازه بارگیری : 7.35 GiB

  • اندازه مجموعه داده : 43.20 GiB

  • مثالها ( tfds.as_dataframe ):

هیاهو / پردازش نشده

  • توضیحات پیکربندی : صدای پردازش نشده بدون طنین اضافی.

  • اندازه بارگیری : 8.28 GiB

  • اندازه مجموعه داده : 45.58 GiB

  • مثالها ( tfds.as_dataframe ):