livres

  • Description:

LibriTTS est un corpus d'anglais multi-locuteurs d'environ 585 heures de parole en anglais lu à un taux d'échantillonnage de 24 kHz, préparé par Heiga Zen avec l'aide des membres de l'équipe Google Speech et Google Brain. Le corpus LibriTTS est conçu pour la recherche TTS. Il est dérivé des matériaux originaux (fichiers audio mp3 de LibriVox et fichiers texte de Project Gutenberg) du corpus LibriSpeech. Les principales différences par rapport au corpus LibriSpeech sont répertoriées ci-dessous :

  1. Les fichiers audio sont à un taux d'échantillonnage de 24 kHz.
  2. Le discours est divisé aux pauses de phrase.
  3. Les textes originaux et normalisés sont inclus.
  4. Des informations contextuelles (par exemple, des phrases voisines) peuvent être extraites.
  5. Les énoncés avec un bruit de fond important sont exclus.
Diviser Exemples
'dev_clean' 5 736
'dev_other' 4 613
'test_clean' 4 837
'test_other' 5 120
'train_clean100' 33 236
'train_clean360' 116 500
'train_other500' 205 044
  • Caractéristiques:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}