chiasso

Descrizione :

Il set di dati FUSS (Free Universal Sound Separation) è un database di miscele di suoni arbitrari e riferimenti a livello di sorgente, da utilizzare in esperimenti sulla separazione di suoni arbitrari.

Questi sono i dati ufficiali sulla separazione dei suoni per il DCASE2020 Challenge Task 4: Rilevazione e separazione degli eventi sonori negli ambienti domestici.

Panoramica: i dati audio FUSS provengono da una pre-rilascio del set di dati Freesound noto come (FSD50k), un set di dati di eventi sonori composto da contenuti Freesound annotati con etichette di AudioSet Ontology. Utilizzando le etichette FSD50K, questi file sorgente sono stati sottoposti a screening in modo tale che probabilmente contengano solo un singolo tipo di suono. Le etichette non vengono fornite per questi file di origine e non sono considerate parte della sfida. Ai fini della sfida DCASE Task4 Sound Separation and Event Detection, i sistemi non devono utilizzare etichette FSD50K, anche se potrebbero diventare disponibili con il rilascio FSD50K.

Per creare miscele, clip di 10 secondi di sorgenti vengono convolute con risposte all'impulso della stanza simulate e sommate insieme. Ogni miscela di 10 secondi contiene da 1 a 4 sorgenti. I file sorgente più lunghi di 10 secondi sono considerati sorgenti "in background". Ogni miscela contiene una fonte di sfondo, che è attiva per l'intera durata. Forniamo: una ricetta software per creare il set di dati, le risposte all'impulso della stanza e l'audio sorgente originale.

Documentazione aggiuntiva : Esplora documenti con codice
Home page : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Codice sorgente : tfds.audio.Fuss
Versioni :
- 1.2.0 (impostazione predefinita): nessuna nota di rilascio.
Cache automatica ( documentazione ): No
Divisioni :

Diviso	Esempi
`'test'`	1.000
`'train'`	20.000
`'validation'`	1.000

Struttura delle caratteristiche :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
id	Tensore		corda
marmellate	Tensore		corda
mix_audio	Audio	(160000,)	int16
segmenti	Sequenza
segmenti/end_time_seconds	Tensore		galleggiante32
segmenti/etichetta	Tensore		corda
segmenti/start_time_seconds	Tensore		galleggiante32
fonti	Sequenza
sorgenti/audio	Audio	(160000,)	int16
fonti/etichetta	ClassLabel		int64

Chiavi supervisionate (Vedi as_supervised doc ): ('mixture_audio', 'sources')
Figura ( tfds.show_examples ): non supportato.
Citazione :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

confusione/riverbero (configurazione predefinita)

Descrizione della configurazione : audio riverberato predefinito.
Dimensione del download : 7.35 GiB
Dimensione del set di dati: 43.20 GiB
Esempi ( tfds.as_dataframe ):

confusione / non elaborato

Descrizione della configurazione : audio non elaborato senza riverbero aggiuntivo.
Dimensione del download : 8.28 GiB
Dimensione del set di dati: 45.58 GiB
Esempi ( tfds.as_dataframe ):

chiasso Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

confusione/riverbero (configurazione predefinita)

confusione / non elaborato

chiasso