O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

speak_digit

  • Descrição:

Um conjunto de dados de áudio gratuito de dígitos falados. Pense em MNIST para áudio.

Um conjunto de dados de áudio / fala simples que consiste em gravações de dígitos falados em arquivos wav a 8kHz. As gravações são cortadas para que tenham um silêncio quase mínimo no início e no fim.

5 falantes 2.500 gravações (50 de cada dígito por falante) pronúncias em inglês

Os arquivos são nomeados no seguinte formato: {digitLabel} {speakerName} {index} .wav

Dividir Exemplos
'train' 2.500
  • Características:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'audio/filename': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
  • citação:
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}