libretos

  • Descrição :

LibriTTS é um corpus de inglês para vários falantes de aproximadamente 585 horas de leitura de fala em inglês a uma taxa de amostragem de 24kHz, preparado por Heiga Zen com a ajuda dos membros da equipe do Google Speech e do Google Brain. O corpus LibriTTS é projetado para pesquisa TTS. É derivado dos materiais originais (arquivos de áudio mp3 do LibriVox e arquivos de texto do Projeto Gutenberg) do corpus LibriSpeech. As principais diferenças do corpus LibriSpeech estão listadas abaixo:

  1. Os arquivos de áudio estão na taxa de amostragem de 24kHz.
  2. O discurso é dividido em quebras de frase.
  3. Ambos os textos originais e normalizados estão incluídos.
  4. Informações contextuais (por exemplo, frases vizinhas) podem ser extraídas.
  5. Expressões com ruído de fundo significativo são excluídas.
Dividir Exemplos
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Estrutura de recursos :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
capítulo_id tensor int64
Eu iria tensor corda
speaker_id tensor int64
Fala áudio (Nenhum,) int64
texto_normalizado Texto corda
text_original Texto corda
  • Citação :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}