суматоха

  • Описание :

Бесплатный набор данных Universal Sound Separation (FUSS) представляет собой базу данных произвольных звуковых смесей и эталонов исходного уровня для использования в экспериментах по произвольному разделению звуков.

Это официальные данные о разделении звука для DCASE2020 Challenge Task 4: Обнаружение и разделение звуковых событий в домашних условиях.

Обзор: аудиоданные FUSS получены из предварительного выпуска набора данных Freesound, известного как (FSD50k), набора данных звуковых событий, состоящего из содержимого Freesound, аннотированного метками из онтологии AudioSet. Используя метки FSD50K, эти исходные файлы были проверены таким образом, что они, вероятно, содержат только один тип звука. Этим исходным файлам не присваиваются метки, и они не считаются частью задачи. В целях DCASE Task4 Sound Separation and Event Detection, системы не должны использовать метки FSD50K, даже если они могут стать доступными после выпуска FSD50K.

Для создания смесей 10-секундные клипы источников сворачиваются с смоделированными импульсными характеристиками помещения и складываются вместе. Каждая 10-секундная смесь содержит от 1 до 4 источников. Исходные файлы продолжительностью более 10 секунд считаются «фоновыми» источниками. Каждая смесь содержит один фоновый источник, который активен в течение всего времени действия. Мы предоставляем: программный рецепт для создания набора данных, импульсные характеристики помещения и оригинальный исходный звук.

Расколоть Примеры
'test' 1000
'train' 20 000
'validation' 1000
  • Структура функции :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
я бы Тензор нить
джемы Тензор нить
смесь_аудио Аудио (160000,) int16
сегменты Последовательность
сегментов/end_time_seconds Тензор поплавок32
сегменты/метка Тензор нить
сегментов/start_time_seconds Тензор поплавок32
источники Последовательность
источники/аудио Аудио (160000,) int16
источники/этикетка Метка класса int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

суета/реверберация (конфигурация по умолчанию)

  • Описание конфигурации : звук реверберации по умолчанию.

  • Размер загрузки : 7.35 GiB

  • Размер набора данных : 43.20 GiB

  • Примеры ( tfds.as_dataframe ):

суета / необработанный

  • Описание конфига: Необработанный звук без дополнительной реверберации.

  • Размер загрузки : 8.28 GiB

  • Размер набора данных : 45.58 GiB

  • Примеры ( tfds.as_dataframe ):