Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

libritts

  • Deskripsi :

LibriTTS adalah korpus bahasa Inggris multi-penutur yang berdurasi sekitar 585 jam membaca pidato bahasa Inggris dengan laju sampel 24kHz, disiapkan oleh Heiga Zen dengan bantuan dari anggota tim Google Speech dan Google Brain. Korpus LibriTTS dirancang untuk penelitian TTS. Ini berasal dari materi asli (file audio mp3 dari LibriVox dan file teks dari Project Gutenberg) dari korpus LibriSpeech. Perbedaan utama dari korpus LibriSpeech tercantum di bawah ini:

  1. File audio berada pada kecepatan pengambilan sampel 24kHz.
  2. Pidato terpecah saat jeda kalimat.
  3. Teks asli dan yang dinormalisasi disertakan.
  4. Informasi kontekstual (mis., Kalimat bertetangga) dapat diekstraksi.
  5. Ucapan dengan kebisingan latar yang signifikan tidak termasuk.
Membagi Contoh
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Fitur :
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • Kunci yang diawasi (Lihat as_supervised ): ('text_normalized', 'speech')

  • Kutipan :

@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}