O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

libras

  • Descrição:

O LibriTTS é um corpus de inglês com vários falantes de aproximadamente 585 horas de leitura em inglês a uma taxa de amostragem de 24 kHz, preparado por Heiga Zen com a ajuda dos membros da equipe Google Speech e Google Brain. O corpus LibriTTS é projetado para pesquisas TTS. É derivado dos materiais originais (arquivos de áudio mp3 do LibriVox e arquivos de texto do Project Gutenberg) do corpus LibriSpeech. As principais diferenças do corpus LibriSpeech estão listadas abaixo:

  1. Os arquivos de áudio têm uma taxa de amostragem de 24 kHz.
  2. O discurso é dividido nas quebras de frase.
  3. Ambos os textos originais e normalizados estão incluídos.
  4. Informações contextuais (por exemplo, frases vizinhas) podem ser extraídas.
  5. Excluem-se os enunciados com ruído de fundo significativo.
Dividir Exemplos
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Características:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}