escándalo

  • Descripción :

El conjunto de datos Free Universal Sound Separation (FUSS) es una base de datos de mezclas de sonido arbitrarias y referencias a nivel de fuente, para usar en experimentos sobre separación de sonido arbitraria.

Estos son los datos oficiales de separación de sonido para la tarea 4 del desafío DCASE2020: Detección y separación de eventos de sonido en entornos domésticos.

Descripción general: los datos de audio de FUSS provienen de una versión preliminar del conjunto de datos de Freesound conocido como (FSD50k), un conjunto de datos de eventos de sonido compuesto por contenido de Freesound anotado con etiquetas de AudioSet Ontology. Utilizando las etiquetas FSD50K, estos archivos de origen se han filtrado de modo que probablemente solo contengan un único tipo de sonido. No se proporcionan etiquetas para estos archivos de origen y no se consideran parte del desafío. A los efectos del desafío DCASE Task4 Sound Separation and Event Detection, los sistemas no deben usar etiquetas FSD50K, aunque pueden estar disponibles con el lanzamiento de FSD50K.

Para crear mezclas, los clips de fuentes de 10 segundos se convolucionan con respuestas de impulso de sala simuladas y se suman. Cada mezcla de 10 segundos contiene entre 1 y 4 fuentes. Los archivos de origen de más de 10 segundos se consideran fuentes de "fondo". Cada mezcla contiene una fuente de fondo, que está activa durante todo el tiempo. Proporcionamos: una receta de software para crear el conjunto de datos, las respuestas de impulso de la sala y la fuente de audio original.

Separar Ejemplos
'test' 1,000
'train' 20,000
'validation' 1,000
  • Estructura de características :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Tensor tf.cadena
Enjambres Tensor tf.cadena
mezcla_audio Audio (160000,) tf.int16
segmentos Secuencia
segmentos/fin_tiempo_segundos Tensor tf.float32
segmentos/etiqueta Tensor tf.cadena
segmentos/tiempo_de_inicio_segundos Tensor tf.float32
fuentes Secuencia
fuentes/audio Audio (160000,) tf.int16
fuentes/etiqueta Etiqueta de clase tf.int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

alboroto/reverberante (configuración predeterminada)

  • Descripción de la configuración : audio reverberado predeterminado.

  • Tamaño de descarga : 7.35 GiB

  • Tamaño del conjunto de datos : 43.20 GiB

alboroto/sin procesar

  • Descripción de la configuración : audio sin procesar sin reverberación adicional.

  • Tamaño de descarga : 8.28 GiB

  • Tamaño del conjunto de datos : 45.58 GiB