Sintonizar con las primeras mujeres en ML Simposio este martes, 19 de octubre a 09 a.m. PST Registrar ahora

libritts

  • Descripción:

LibriTTS es un corpus de inglés de varios hablantes de aproximadamente 585 horas de lectura de habla en inglés a una frecuencia de muestreo de 24 kHz, preparado por Heiga Zen con la ayuda de los miembros del equipo de Google Speech y Google Brain. El corpus LibriTTS está diseñado para la investigación de TTS. Se deriva de los materiales originales (archivos de audio mp3 de LibriVox y archivos de texto del Proyecto Gutenberg) del corpus LibriSpeech. Las principales diferencias con el corpus LibriSpeech se enumeran a continuación:

  1. Los archivos de audio tienen una frecuencia de muestreo de 24 kHz.
  2. El discurso se divide en los descansos de las oraciones.
  3. Se incluyen tanto textos originales como normalizados.
  4. Se puede extraer información contextual (por ejemplo, oraciones vecinas).
  5. Se excluyen las declaraciones con ruido de fondo significativo.
Separar Ejemplos de
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • características:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}