escándalo

Descripción :

El conjunto de datos Free Universal Sound Separation (FUSS) es una base de datos de mezclas de sonido arbitrarias y referencias a nivel de fuente, para usar en experimentos sobre separación de sonido arbitraria.

Estos son los datos oficiales de separación de sonido para la tarea 4 del desafío DCASE2020: Detección y separación de eventos de sonido en entornos domésticos.

Descripción general: los datos de audio de FUSS provienen de una versión preliminar del conjunto de datos de Freesound conocido como (FSD50k), un conjunto de datos de eventos de sonido compuesto por contenido de Freesound anotado con etiquetas de AudioSet Ontology. Utilizando las etiquetas FSD50K, estos archivos de origen se han filtrado de modo que probablemente solo contengan un único tipo de sonido. No se proporcionan etiquetas para estos archivos de origen y no se consideran parte del desafío. A los efectos del desafío DCASE Task4 Sound Separation and Event Detection, los sistemas no deben usar etiquetas FSD50K, aunque pueden estar disponibles con el lanzamiento de FSD50K.

Para crear mezclas, los clips de fuentes de 10 segundos se convolucionan con respuestas de impulso de sala simuladas y se suman. Cada mezcla de 10 segundos contiene entre 1 y 4 fuentes. Los archivos de origen de más de 10 segundos se consideran fuentes de "fondo". Cada mezcla contiene una fuente de fondo, que está activa durante todo el tiempo. Proporcionamos: una receta de software para crear el conjunto de datos, las respuestas de impulso de la sala y la fuente de audio original.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Código fuente : tfds.audio.Fuss
Versiones :
- 1.2.0 (predeterminado): Sin notas de la versión.
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

Estructura de características :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
identificación	Tensor		cuerda
Enjambres	Tensor		cuerda
mezcla_audio	Audio	(160000,)	int16
segmentos	Secuencia
segmentos/fin_tiempo_segundos	Tensor		flotar32
segmentos/etiqueta	Tensor		cuerda
segmentos/tiempo_de_inicio_segundos	Tensor		flotar32
fuentes	Secuencia
fuentes/audio	Audio	(160000,)	int16
fuentes/etiqueta	Etiqueta de clase		int64

Teclas supervisadas (ver documento as_supervised ): ('mixture_audio', 'sources')
Figura ( tfds.show_examples ): no compatible.
Cita :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

alboroto/reverberante (configuración predeterminada)

Descripción de la configuración : audio reverberado predeterminado.
Tamaño de descarga : 7.35 GiB
Tamaño del conjunto de datos : 43.20 GiB
Ejemplos ( tfds.as_dataframe ):

alboroto/sin procesar

Descripción de la configuración : audio sin procesar sin reverberación adicional.
Tamaño de descarga : 8.28 GiB
Tamaño del conjunto de datos : 45.58 GiB
Ejemplos ( tfds.as_dataframe ):

escándalo Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

alboroto/reverberante (configuración predeterminada)

alboroto/sin procesar

escándalo