O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

discutir

  • Descrição:

O conjunto de dados Free Universal Sound Separation (FUSS) é um banco de dados de misturas de som arbitrárias e referências de nível de fonte, para uso em experimentos de separação arbitrária de som.

Estes são os dados oficiais de separação de som para a DCASE2020 Challenge Task 4: Detecção e separação de eventos de som em ambientes domésticos.

Visão geral: os dados de áudio FUSS são originados de um pré-lançamento do conjunto de dados Freesound conhecido como (FSD50k), um conjunto de dados de eventos de som composto de conteúdo Freesound anotado com rótulos da Ontologia AudioSet. Usando os rótulos FSD50K, esses arquivos de origem foram filtrados de forma que provavelmente contenham apenas um único tipo de som. Os rótulos não são fornecidos para esses arquivos de origem e não são considerados parte do desafio. Para o propósito do desafio DCASE Task4 Sound Separation and Event Detection, os sistemas não devem usar rótulos FSD50K, mesmo que eles possam se tornar disponíveis após o lançamento do FSD50K.

Para criar misturas, clipes de 10 segundos de fontes são convolvidos com respostas de impulso de ambiente simuladas e somados. Cada mistura de 10 segundos contém entre 1 e 4 fontes. Arquivos de origem com mais de 10 segundos são considerados fontes de "segundo plano". Cada mistura contém uma fonte de fundo, que fica ativa durante toda a duração. Nós fornecemos: uma receita de software para criar o conjunto de dados, as respostas de impulso da sala e a fonte de áudio original.

Dividir Exemplos
'test' 1.000
'train' 20.000
'validation' 1.000
  • Características:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

barulho / reverberante (configuração padrão)

  • A inscrição Config: áudio reverberado padrão.

  • Tamanho do download: 7.35 GiB

  • Tamanho do conjunto de dados: 43.20 GiB

  • Exemplos ( tfds.as_dataframe ):

barulho / não processado

  • A inscrição Config: áudio não processado, sem reverberação adicional.

  • Tamanho do download: 8.28 GiB

  • Tamanho do conjunto de dados: 45.58 GiB

  • Exemplos ( tfds.as_dataframe ):