ljhabla

  • Descripción :

Este es un conjunto de datos de voz de dominio público que consta de 13 100 clips de audio breves de un solo orador que lee pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas.

Los textos se publicaron entre 1884 y 1964 y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.

Separar Ejemplos
'train' 13,100
  • Estructura de características :
FeaturesDict({
    'id': tf.string,
    'speech': Audio(shape=(None,), dtype=tf.int16),
    'text': Text(shape=(), dtype=tf.string),
    'text_normalized': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Tensor tf.cadena
discurso Audio (Ninguna,) tf.int16
texto Texto tf.cadena
texto_normalizado Texto tf.cadena
  • Cita :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/}},
  year         = 2017
}