суматоха

Описание :

Бесплатный набор данных Universal Sound Separation (FUSS) представляет собой базу данных произвольных звуковых смесей и эталонов исходного уровня для использования в экспериментах по произвольному разделению звуков.

Это официальные данные о разделении звука для DCASE2020 Challenge Task 4: Обнаружение и разделение звуковых событий в домашних условиях.

Обзор: аудиоданные FUSS получены из предварительного выпуска набора данных Freesound, известного как (FSD50k), набора данных звуковых событий, состоящего из содержимого Freesound, аннотированного метками из онтологии AudioSet. Используя метки FSD50K, эти исходные файлы были проверены таким образом, что они, вероятно, содержат только один тип звука. Этим исходным файлам не присваиваются метки, и они не считаются частью задачи. В целях DCASE Task4 Sound Separation and Event Detection, системы не должны использовать метки FSD50K, даже если они могут стать доступными после выпуска FSD50K.

Для создания смесей 10-секундные клипы источников сворачиваются с смоделированными импульсными характеристиками помещения и складываются вместе. Каждая 10-секундная смесь содержит от 1 до 4 источников. Исходные файлы продолжительностью более 10 секунд считаются «фоновыми» источниками. Каждая смесь содержит один фоновый источник, который активен в течение всего времени действия. Мы предоставляем: программный рецепт для создания набора данных, импульсные характеристики помещения и оригинальный исходный звук.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Исходный код : tfds.audio.Fuss
Версии :
- 1.2.0 (по умолчанию): нет примечаний к выпуску.
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	1000
`'train'`	20 000
`'validation'`	1000

Структура функции :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
я бы	Тензор		нить
джемы	Тензор		нить
смесь_аудио	Аудио	(160000,)	int16
сегменты	Последовательность
сегментов/end_time_seconds	Тензор		поплавок32
сегменты/метка	Тензор		нить
сегментов/start_time_seconds	Тензор		поплавок32
источники	Последовательность
источники/аудио	Аудио	(160000,)	int16
источники/этикетка	Метка класса		int64

Контролируемые ключи (см . документ as_supervised ): ('mixture_audio', 'sources')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

суета/реверберация (конфигурация по умолчанию)

Описание конфигурации : звук реверберации по умолчанию.
Размер загрузки : 7.35 GiB
Размер набора данных : 43.20 GiB
Примеры ( tfds.as_dataframe ):

суета / необработанный

Описание конфига: Необработанный звук без дополнительной реверберации.
Размер загрузки : 8.28 GiB
Размер набора данных : 45.58 GiB
Примеры ( tfds.as_dataframe ):

суматоха Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

суета/реверберация (конфигурация по умолчанию)

суета / необработанный

суматоха