Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

discutir

Descrição :

O Free Universal Sound Separation (FUSS) Dataset é um banco de dados de misturas arbitrárias de som e referências de nível de fonte, para uso em experimentos de separação arbitrária de som.

Estes são os dados oficiais de separação de som para a Tarefa 4 do Desafio DCASE2020: Detecção e Separação de Eventos Sonoros em Ambientes Domésticos.

Visão geral: os dados de áudio FUSS são provenientes de um pré-lançamento do conjunto de dados Freesound conhecido como (FSD50k), um conjunto de dados de evento de som composto de conteúdo Freesound anotado com rótulos da AudioSet Ontology. Usando os rótulos FSD50K, esses arquivos de origem foram selecionados de forma que provavelmente contenham apenas um único tipo de som. Os rótulos não são fornecidos para esses arquivos de origem e não são considerados parte do desafio. Para fins do desafio DCASE Task4 Sound Separation and Event Detection, os sistemas não devem usar rótulos FSD50K, mesmo que eles possam se tornar disponíveis após o lançamento do FSD50K.

Para criar misturas, clipes de fontes de 10 segundos são convoluídos com respostas de impulso de sala simuladas e adicionados juntos. Cada mistura de 10 segundos contém entre 1 e 4 fontes. Arquivos de origem com mais de 10 segundos são considerados fontes de "segundo plano". Cada mistura contém uma fonte de fundo, que está ativa durante toda a duração. Fornecemos: uma receita de software para criar o conjunto de dados, as respostas de impulso da sala e a fonte de áudio original.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
Código -fonte: tfds.audio.Fuss
Versões :
- 1.2.0 (padrão): sem notas de versão.
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	1.000
`'train'`	20.000
`'validation'`	1.000

Estrutura de recursos :

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
Eu iria	tensor		corda
geléias	tensor		corda
mix_audio	áudio	(160000,)	int16
segmentos	Seqüência
segmentos/end_time_seconds	tensor		float32
segmentos/rótulo	tensor		corda
segmentos/start_time_seconds	tensor		float32
fontes	Seqüência
fontes/áudio	áudio	(160000,)	int16
fontes/rótulo	ClassLabel		int64

Chaves supervisionadas (consulte o documento as_supervised ): ('mixture_audio', 'sources')
Figura ( tfds.show_examples ): Não compatível.
Citação :

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

barulho/reverberante (configuração padrão)

Descrição da configuração : Áudio reverberado padrão.
Tamanho do download : 7.35 GiB
Tamanho do conjunto de dados : 43.20 GiB
Exemplos ( tfds.as_dataframe ):

barulho/não processado

Descrição da configuração : Áudio não processado sem reverberação adicional.
Tamanho do download : 8.28 GiB
Tamanho do conjunto de dados : 45.58 GiB
Exemplos ( tfds.as_dataframe ):

discutir Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

barulho/reverberante (configuração padrão)

barulho/não processado

discutir