¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

ljspeech

  • Descripción:

Este es un conjunto de datos de voz de dominio público que consta de 13,100 clips de audio cortos de un solo orador leyendo pasajes de 7 libros de no ficción. Se proporciona una transcripción para cada clip. Los clips varían en duración de 1 a 10 segundos y tienen una duración total de aproximadamente 24 horas.

Los textos fueron publicados entre 1884 y 1964 y son de dominio público. El audio fue grabado en 2016-17 por el proyecto LibriVox y también es de dominio público.

Separar Ejemplos de
'train' 13,100
  • características:
FeaturesDict({
    'id': tf.string,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
    'text_normalized': Text(shape=(), dtype=tf.string),
})
  • Cita:
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}