discutir

  • Descrição :

O Free Universal Sound Separation (FUSS) Dataset é um banco de dados de misturas arbitrárias de som e referências de nível de fonte, para uso em experimentos de separação arbitrária de som.

Estes são os dados oficiais de separação de som para a Tarefa 4 do Desafio DCASE2020: Detecção e Separação de Eventos Sonoros em Ambientes Domésticos.

Visão geral: os dados de áudio FUSS são provenientes de um pré-lançamento do conjunto de dados Freesound conhecido como (FSD50k), um conjunto de dados de evento de som composto de conteúdo Freesound anotado com rótulos da AudioSet Ontology. Usando os rótulos FSD50K, esses arquivos de origem foram selecionados de forma que provavelmente contenham apenas um único tipo de som. Os rótulos não são fornecidos para esses arquivos de origem e não são considerados parte do desafio. Para fins do desafio DCASE Task4 Sound Separation and Event Detection, os sistemas não devem usar rótulos FSD50K, mesmo que eles possam se tornar disponíveis após o lançamento do FSD50K.

Para criar misturas, clipes de fontes de 10 segundos são convoluídos com respostas de impulso de sala simuladas e adicionados juntos. Cada mistura de 10 segundos contém entre 1 e 4 fontes. Arquivos de origem com mais de 10 segundos são considerados fontes de "segundo plano". Cada mistura contém uma fonte de fundo, que está ativa durante toda a duração. Fornecemos: uma receita de software para criar o conjunto de dados, as respostas de impulso da sala e a fonte de áudio original.

Dividir Exemplos
'test' 1.000
'train' 20.000
'validation' 1.000
  • Estrutura de recursos :
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
Eu iria tensor corda
geléias tensor corda
mix_audio áudio (160000,) int16
segmentos Seqüência
segmentos/end_time_seconds tensor float32
segmentos/rótulo tensor corda
segmentos/start_time_seconds tensor float32
fontes Seqüência
fontes/áudio áudio (160000,) int16
fontes/rótulo ClassLabel int64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

barulho/reverberante (configuração padrão)

  • Descrição da configuração : Áudio reverberado padrão.

  • Tamanho do download : 7.35 GiB

  • Tamanho do conjunto de dados : 43.20 GiB

  • Exemplos ( tfds.as_dataframe ):

barulho/não processado

  • Descrição da configuração : Áudio não processado sem reverberação adicional.

  • Tamanho do download : 8.28 GiB

  • Tamanho do conjunto de dados : 45.58 GiB

  • Exemplos ( tfds.as_dataframe ):