O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

speech_commands

  • Descrição:

Um conjunto de dados de áudio de palavras faladas projetado para ajudar a treinar e avaliar sistemas de localização de palavras-chave. Seu objetivo principal é fornecer uma maneira de construir e testar pequenos modelos que detectam quando uma única palavra é falada, a partir de um conjunto de dez palavras-alvo, com o mínimo de falsos positivos possível de ruído de fundo ou fala não relacionada. Observe que no conjunto de treinamento e validação, o rótulo "desconhecido" é muito mais prevalente do que os rótulos das palavras-alvo ou ruído de fundo. Uma diferença da versão de lançamento é o manuseio de segmentos silenciosos. Enquanto no conjunto de teste os segmentos de silêncio são arquivos regulares de 1 segundo, no treinamento eles são fornecidos como segmentos longos na pasta "background_noise". Aqui, dividimos esse ruído de fundo em clipes de 1 segundo e também mantemos um dos arquivos para o conjunto de validação.

Dividir Exemplos
'test' 4.890
'train' 85.511
'validation' 10.102
  • Características:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • citação:
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}