cifra_parlata

Descrizione :

Un set di dati audio gratuito di cifre parlate. Pensa a MNIST per l'audio.

Un semplice dataset audio/vocale costituito da registrazioni di cifre parlate in file wav a 8kHz. Le registrazioni sono ritagliate in modo da avere un silenzio quasi minimo all'inizio e alla fine.

5 altoparlanti
2.500 registrazioni (50 di ogni cifra per oratore)
Pronunce inglesi

I file sono denominati nel seguente formato: {digitLabel} {speakerName} {index}.wav

Documentazione aggiuntiva : Esplora documenti con codice
Homepage : https://github.com/Jakobovski/free-spoken-digit-dataset
Codice sorgente : tfds.datasets.spoken_digit.Builder
Versioni :
- 1.0.9 (impostazione predefinita): nessuna nota di rilascio.
Dimensione del download : 11.42 MiB
Dimensione del set di dati: 45.68 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'train'`	2.500

Struttura delle caratteristiche :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
Audio	Audio	(Nessuno,)	int64
audio/nome file	Testo		corda
etichetta	ClassLabel		int64

Chiavi supervisionate (Vedi as_supervised doc ): ('audio', 'label')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

cifra_parlata Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

cifra_parlata