libritler

  • Açıklama:

LibriTTS, Google Speech ve Google Brain ekip üyelerinin yardımıyla Heiga Zen tarafından hazırlanan, 24kHz örnekleme hızında yaklaşık 585 saatlik okunan İngilizce konuşmadan oluşan çok konuşmacılı bir İngilizce külliyattır. LibriTTS külliyatı, TTS araştırması için tasarlanmıştır. LibriSpeech corpus'un orijinal malzemelerinden (LibriVox'tan mp3 ses dosyaları ve Project Gutenberg'den metin dosyaları) türetilmiştir. LibriSpeech külliyatından temel farklar aşağıda listelenmiştir:

  1. Ses dosyaları 24kHz örnekleme hızındadır.
  2. Cümle aralarında konuşma bölünür.
  3. Hem orijinal hem de normalleştirilmiş metinler dahildir.
  4. Bağlamsal bilgiler (örneğin, komşu cümleler) çıkarılabilir.
  5. Önemli arka plan gürültüsü olan ifadeler hariç tutulmuştur.
Bölmek Örnekler
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Özellikler:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • Citation:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}