chiasso

  • Descrizione :

Il set di dati FUSS (Free Universal Sound Separation) è un database di miscele di suoni arbitrari e riferimenti a livello di sorgente, da utilizzare in esperimenti sulla separazione di suoni arbitrari.

Questi sono i dati ufficiali sulla separazione dei suoni per il DCASE2020 Challenge Task 4: Rilevazione e separazione degli eventi sonori negli ambienti domestici.

Panoramica: i dati audio FUSS provengono da una pre-rilascio del set di dati Freesound noto come (FSD50k), un set di dati di eventi sonori composto da contenuti Freesound annotati con etichette di AudioSet Ontology. Utilizzando le etichette FSD50K, questi file sorgente sono stati sottoposti a screening in modo tale che probabilmente contengano solo un singolo tipo di suono. Le etichette non vengono fornite per questi file di origine e non sono considerate parte della sfida. Ai fini della sfida DCASE Task4 Sound Separation and Event Detection, i sistemi non devono utilizzare etichette FSD50K, anche se potrebbero diventare disponibili con il rilascio FSD50K.

Per creare miscele, clip di 10 secondi di sorgenti vengono convolute con risposte all'impulso della stanza simulate e sommate insieme. Ogni miscela di 10 secondi contiene da 1 a 4 sorgenti. I file sorgente più lunghi di 10 secondi sono considerati sorgenti "in background". Ogni miscela contiene una fonte di sfondo, che è attiva per l'intera durata. Forniamo: una ricetta software per creare il set di dati, le risposte all'impulso della stanza e l'audio sorgente originale.

Diviso Esempi
'test' 1.000
'train' 20.000
'validation' 1.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id Tensore corda
marmellate Tensore corda
mix_audio Audio (160000,) int16
segmenti Sequenza
segmenti/end_time_seconds Tensore galleggiante32
segmenti/etichetta Tensore corda
segmenti/start_time_seconds Tensore galleggiante32
fonti Sequenza
sorgenti/audio Audio (160000,) int16
fonti/etichetta ClassLabel int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

confusione/riverbero (configurazione predefinita)

  • Descrizione della configurazione : audio riverberato predefinito.

  • Dimensione del download : 7.35 GiB

  • Dimensione del set di dati: 43.20 GiB

  • Esempi ( tfds.as_dataframe ):

confusione / non elaborato

  • Descrizione della configurazione : audio non elaborato senza riverbero aggiuntivo.

  • Dimensione del download : 8.28 GiB

  • Dimensione del set di dati: 45.58 GiB

  • Esempi ( tfds.as_dataframe ):