libros

  • Descripción :

LibriTTS es un corpus en inglés de varios hablantes de aproximadamente 585 horas de lectura de habla en inglés a una frecuencia de muestreo de 24 kHz, preparado por Heiga Zen con la ayuda de los miembros del equipo de Google Speech y Google Brain. El corpus LibriTTS está diseñado para la investigación TTS. Se deriva de los materiales originales (archivos de audio mp3 de LibriVox y archivos de texto del Proyecto Gutenberg) del corpus LibriSpeech. Las principales diferencias con el corpus LibriSpeech se enumeran a continuación:

  1. Los archivos de audio tienen una frecuencia de muestreo de 24 kHz.
  2. El discurso se divide en los saltos de oración.
  3. Se incluyen tanto los textos originales como los normalizados.
  4. Se puede extraer información contextual (p. ej., oraciones vecinas).
  5. Se excluyen las expresiones con un ruido de fondo significativo.
Separar Ejemplos
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • Estructura de características :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
id_capítulo Tensor int64
identificación Tensor cuerda
altavoz_id Tensor int64
discurso Audio (Ninguna,) int64
texto_normalizado Texto cuerda
texto_original Texto cuerda
  • Cita :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}