Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

escándalo

  • Descripción:

El conjunto de datos Free Universal Sound Separation (FUSS) es una base de datos de mezclas de sonido arbitrarias y referencias a nivel de fuente, para su uso en experimentos sobre separación arbitraria de sonido.

Estos son los datos oficiales de separación de sonido para la Tarea 4 del desafío DCASE2020: Detección y separación de eventos de sonido en entornos domésticos.

Descripción general: los datos de audio de FUSS provienen de una versión preliminar del conjunto de datos de Freesound conocido como (FSD50k), un conjunto de datos de eventos de sonido compuesto por contenido de Freesound anotado con etiquetas de AudioSet Ontology. Utilizando las etiquetas FSD50K, estos archivos de origen se han filtrado de modo que probablemente solo contengan un solo tipo de sonido. No se proporcionan etiquetas para estos archivos fuente y no se consideran parte del desafío. A los efectos del desafío de detección de eventos y separación de sonido de la tarea 4 de DCASE, los sistemas no deben usar etiquetas FSD50K, aunque pueden estar disponibles a partir del lanzamiento de FSD50K.

Para crear mezclas, se convolucionan clips de 10 segundos de fuentes con respuestas de impulso de sala simuladas y se suman. Cada mezcla de 10 segundos contiene entre 1 y 4 fuentes. Los archivos de origen de más de 10 segundos se consideran fuentes de "fondo". Cada mezcla contiene una fuente de fondo, que está activa durante toda la duración. Proporcionamos: una receta de software para crear el conjunto de datos, las respuestas de impulso de la sala y la fuente de audio original.

Separar Ejemplos de
'test' 1.000
'train' 20.000
'validation' 1.000
  • características:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

alboroto / reverberante (configuración predeterminada)

  • Descripción config: audio reverberada predeterminado.

  • Tamaño del paquete: 7.35 GiB

  • Tamaño de conjunto de datos: 43.20 GiB

  • Ejemplos ( tfds.as_dataframe ):

alboroto / sin procesar

  • Descripción config: audio sin procesar y sin reverberación adicional.

  • Tamaño del paquete: 8.28 GiB

  • Tamaño de conjunto de datos: 45.58 GiB

  • Ejemplos ( tfds.as_dataframe ):