yaygara

  • Açıklama :

Ücretsiz Evrensel Ses Ayrımı (FUSS) Veri Kümesi, keyfi ses ayırma deneylerinde kullanılmak üzere, keyfi ses karışımları ve kaynak düzeyinde referanslardan oluşan bir veri tabanıdır.

Bu, DCASE2020 Challenge Task 4: Ev Ortamlarında Ses Olayı Algılama ve Ayırma için resmi ses ayırma verileridir.

Genel Bakış: FUSS ses verileri, AudioSet Ontology'den etiketlerle açıklamalı Freesound içeriğinden oluşan bir ses olayı veri seti olan (FSD50k) olarak bilinen bir Freesound veri kümesinin ön yayınından elde edilir. FSD50K etiketleri kullanılarak bu kaynak dosyalar, muhtemelen yalnızca tek bir ses türü içerecek şekilde taranmıştır. Bu kaynak dosyalar için etiketler sağlanmaz ve zorluğun bir parçası olarak kabul edilmez. DCASE Task4 Ses Ayırma ve Olay Algılama sorununun amacı için, sistemler FSD50K etiketlerini, FSD50K piyasaya sürüldükten sonra kullanılabilir hale gelseler bile kullanmamalıdır.

Karışımlar oluşturmak için, 10 saniyelik kaynak klipleri, simüle edilmiş oda dürtü yanıtlarıyla kıvrılır ve birbirine eklenir. Her 10 saniyelik karışım 1 ile 4 arasında kaynak içerir. 10 saniyeden uzun kaynak dosyaları "arka plan" kaynakları olarak kabul edilir. Her karışım, tüm süre boyunca aktif olan bir arka plan kaynağı içerir. Şunları sağlıyoruz: veri kümesini, oda dürtü yanıtlarını ve orijinal kaynak sesini oluşturmak için bir yazılım tarifi.

Bölmek Örnekler
'test' 1.000
'train' 20.000
'validation' 1.000
  • Özellik yapısı :
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
İD tensör tf.string
Reçeller tensör tf.string
karışım_ses Ses (160000,) tf.int16
segmentler Sekans
segmentler/end_time_saniye tensör tf.float32
segmentler/etiket tensör tf.string
segmentler/start_time_saniye tensör tf.float32
kaynaklar Sekans
kaynaklar/ses Ses (160000,) tf.int16
kaynaklar/etiket sınıf etiketi tf.int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

telaş/yankılanma (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan yankılanan ses.

  • İndirme boyutu : 7.35 GiB

  • Veri kümesi boyutu : 43.20 GiB

yaygara/işlenmemiş

  • Yapılandırma açıklaması : Ek yankılanma olmadan işlenmemiş ses.

  • İndirme boyutu : 8.28 GiB

  • Veri kümesi boyutu : 45.58 GiB