Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

суматоха

  • Описание:

Набор данных Free Universal Sound Separation (FUSS) - это база данных произвольных звуковых смесей и ссылок на уровне источников для использования в экспериментах по произвольному разделению звука.

Это официальные данные разделения звука для задачи 4 DCASE2020: обнаружение и разделение звуковых событий в домашних условиях.

Обзор: аудиоданные FUSS получены из предварительной версии набора данных Freesound, известного как (FSD50k), набора данных звуковых событий, состоящего из содержимого Freesound, помеченного метками из онтологии AudioSet. Используя метки FSD50K, эти исходные файлы были проверены таким образом, что они, вероятно, содержат только один тип звука. Для этих исходных файлов не предусмотрены ярлыки, и они не считаются частью задачи. Для решения задачи DCASE Task4 Sound Separation and Event Detection системы не должны использовать метки FSD50K, даже если они могут стать доступными после выпуска FSD50K.

Для создания смесей 10-секундные клипы источников сворачиваются с имитированными импульсными характеристиками помещения и складываются вместе. Каждая 10-секундная смесь содержит от 1 до 4 источников. Исходные файлы длиной более 10 секунд считаются «фоновыми» источниками. Каждая смесь содержит один источник фона, который активен в течение всего времени. Мы предоставляем: программный рецепт для создания набора данных, импульсных характеристик помещения и исходного звука.

Расколоть Примеры
'test' 1,000
'train' 20 000
'validation' 1,000
  • Особенности:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

суета / реверберация (конфигурация по умолчанию)

  • Описание конфигурации: По умолчанию прокатился звук.

  • Скачать Размер: 7.35 GiB

  • Dataset Размер: 43.20 GiB

  • Примеры ( tfds.as_dataframe ):

возня / необработанный

  • Описание Config: необработанное аудио без дополнительной реверберации.

  • Скачать Размер: 8.28 GiB

  • Dataset Размер: 45.58 GiB

  • Примеры ( tfds.as_dataframe ):