Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

kehebohan

  • Deskripsi :

Set Data Pemisahan Suara Universal Gratis (FUSS) adalah database campuran suara arbitrer dan referensi tingkat sumber, untuk digunakan dalam eksperimen pemisahan suara arbitrer.

Ini adalah data pemisahan suara resmi untuk DCASE2020 Challenge Task 4: Sound Event Detection and Separation in Domestic Environments.

Ikhtisar: Data audio FUSS bersumber dari pra-rilis set data Freesound yang dikenal sebagai (FSD50k), set data peristiwa suara yang terdiri dari konten Freesound yang dianotasi dengan label dari AudioSet Ontology. Menggunakan label FSD50K, file sumber ini telah disaring sedemikian rupa sehingga kemungkinan besar hanya berisi satu jenis suara. Label tidak disediakan untuk file sumber ini, dan tidak dianggap sebagai bagian dari tantangan. Untuk tujuan tantangan Pemisahan Suara dan Deteksi Peristiwa Tugas 4 DCASE, sistem tidak boleh menggunakan label FSD50K, meskipun label tersebut mungkin tersedia setelah rilis FSD50K.

Untuk membuat campuran, klip sumber 10 detik digabungkan dengan respons impuls ruangan yang disimulasikan dan ditambahkan bersama. Setiap campuran 10 detik berisi antara 1 dan 4 sumber. File sumber yang lebih panjang dari 10 detik dianggap sebagai sumber "latar belakang". Setiap campuran berisi satu sumber latar belakang, yang aktif sepanjang durasi. Kami menyediakan: resep perangkat lunak untuk membuat kumpulan data, respons impuls ruangan, dan audio sumber asli.

Membagi Contoh
'test' 1.000
'train' 20.000
'validation' 1.000
  • Fitur :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • Kunci yang diawasi (Lihat as_supervised doc ): ('mixture_audio', 'sources')

  • Kutipan :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

rewel / reverberant (konfigurasi default)

  • Deskripsi konfigurasi : Audio bergema default.

  • Ukuran unduhan : 7.35 GiB

  • Ukuran 43.20 GiB data : 43.20 GiB

  • Contoh ( tfds.as_dataframe ):

rewel / tidak diproses

  • Deskripsi konfigurasi : Audio yang tidak diproses tanpa gema tambahan.

  • Ukuran unduhan : 8.28 GiB

  • Ukuran 45.58 GiB data : 45.58 GiB

  • Contoh ( tfds.as_dataframe ):