cifra_parlata

  • Descrizione :

Un set di dati audio gratuito di cifre parlate. Pensa a MNIST per l'audio.

Un semplice dataset audio/vocale costituito da registrazioni di cifre parlate in file wav a 8kHz. Le registrazioni sono ritagliate in modo da avere un silenzio quasi minimo all'inizio e alla fine.

5 altoparlanti
2.500 registrazioni (50 di ogni cifra per oratore)
Pronunce inglesi

I file sono denominati nel seguente formato: {digitLabel} {speakerName} {index}.wav

Diviso Esempi
'train' 2.500
  • Struttura delle caratteristiche :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Audio Audio (Nessuno,) int64
audio/nome file Testo corda
etichetta ClassLabel int64
  • Citazione :
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}