Эта страница была переведа с помощью Cloud Translation API.
Switch to English

суета

  • Описание :

Набор данных Free Universal Sound Separation (FUSS) - это база данных произвольных звуковых смесей и ссылок на уровне источников для использования в экспериментах по произвольному разделению звука.

Это официальные данные разделения звука для задачи 4 DCASE2020 Challenge: обнаружение и разделение звуковых событий в домашних условиях.

Обзор: аудиоданные FUSS получены из предварительной версии набора данных Freesound, известного как (FSD50k), набора данных звуковых событий, состоящего из содержимого Freesound, помеченного метками из AudioSet Ontology. Используя метки FSD50K, эти исходные файлы были проверены таким образом, что они, вероятно, содержат только один тип звука. Для этих исходных файлов не предусмотрены ярлыки, и они не считаются частью проблемы. Для решения задачи DCASE Task4 Sound Separation and Event Detection системы не должны использовать метки FSD50K, даже если они могут стать доступны после выпуска FSD50K.

Для создания смесей 10-секундные клипы источников сворачиваются с имитированными импульсными характеристиками помещения и складываются. Каждая 10-секундная смесь содержит от 1 до 4 источников. Исходные файлы длиной более 10 секунд считаются «фоновыми» источниками. Каждая смесь содержит один источник фона, который активен в течение всего времени. Мы предлагаем: программный рецепт для создания набора данных, импульсных характеристик помещения и исходного звука.

Трещина Примеры
'test' 1,000
'train' 20 000
'validation' 1,000
  • Особенности :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • Контролируемые ключи (см. as_supervised ): ('mixture_audio', 'sources')

  • Цитата :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
}
}

возня / реверберация (конфигурация по умолчанию)

  • Описание конфигурации : Реверберированный звук по умолчанию.

  • Размер загружаемого 7.35 GiB : 7.35 GiB

  • Размер набора данных : 43.20 GiB

  • Примеры ( tfds.as_dataframe ):

возня / необработанный

  • Описание конфигурации : Необработанный звук без дополнительной реверберации.

  • Размер загружаемого 8.28 GiB : 8.28 GiB

  • Размер набора данных : 45.58 GiB

  • Примеры ( tfds.as_dataframe ):