- Descripción:
Un conjunto de datos de audio gratuito de dígitos hablados. Piense en MNIST para audio.
Un conjunto de datos de audio / voz simple que consta de grabaciones de dígitos hablados en archivos WAV a 8 kHz. Las grabaciones se recortan para que tengan un silencio casi mínimo al principio y al final.
5 hablantes 2500 grabaciones (50 de cada dígito por hablante) Pronunciaciones en inglés
Los archivos se denominan de la siguiente forma: {} {digitLabel speakerName} {index} .wav
Inicio: https://github.com/Jakobovski/free-spoken-digit-dataset
El código fuente:
tfds.audio.spoken_digit.SpokenDigit
versiones:
-
1.0.9
(por defecto): No hay notas de la versión.
-
Tamaño del paquete:
11.42 MiB
Conjunto de datos de tamaño:
45.68 MiB
Auto-caché ( documentación ): Sí
Fraccionamientos:
Separar | Ejemplos de |
---|---|
'train' | 2500 |
- características:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'audio/filename': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
Claves supervisadas (Ver
as_supervised
doc ):('audio', 'label')
Figura ( tfds.show_examples ): No soportado.
Ejemplos ( tfds.as_dataframe ):
- Cita:
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}