comandos de voz

  • Descripción :

Un conjunto de datos de audio de palabras habladas diseñado para ayudar a entrenar y evaluar los sistemas de detección de palabras clave. Su objetivo principal es proporcionar una forma de construir y probar pequeños modelos que detecten cuando se pronuncia una sola palabra, a partir de un conjunto de diez palabras objetivo, con la menor cantidad posible de falsos positivos del ruido de fondo o del habla no relacionada. Tenga en cuenta que en el conjunto de entrenamiento y validación, la etiqueta "desconocido" prevalece mucho más que las etiquetas de las palabras objetivo o el ruido de fondo. Una diferencia con la versión de lanzamiento es el manejo de segmentos silenciosos. Mientras que en el conjunto de prueba los segmentos de silencio son archivos normales de 1 segundo, en el entrenamiento se proporcionan como segmentos largos en la carpeta "background_noise". Aquí dividimos estos ruidos de fondo en clips de 1 segundo y también guardamos uno de los archivos para el conjunto de validación.

Separar Ejemplos
'test' 4,890
'train' 85,511
'validation' 10,102
  • Estructura de características :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int16),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
audio Audio (Ninguna,) tf.int16
etiqueta Etiqueta de clase tf.int64
  • Cita :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}