libritts

  • Deskripsi :

LibriTTS adalah korpus bahasa Inggris multi-speaker sekitar 585 jam pidato bahasa Inggris yang dibaca dengan kecepatan pengambilan sampel 24kHz, disiapkan oleh Heiga Zen dengan bantuan anggota tim Google Speech dan Google Brain. Korpus LibriTTS dirancang untuk penelitian TTS. Ini berasal dari materi asli (file audio mp3 dari LibriVox dan file teks dari Project Gutenberg) dari korpus LibriSpeech. Perbedaan utama dari korpus LibriSpeech tercantum di bawah ini:

  1. File audio berada pada kecepatan pengambilan sampel 24kHz.
  2. Pidato terpecah saat jeda kalimat.
  3. Teks asli dan normal disertakan.
  4. Informasi kontekstual (misalnya, kalimat tetangga) dapat diekstrak.
  5. Ucapan dengan kebisingan latar belakang yang signifikan dikecualikan.
Membelah Contoh
'dev_clean' 5.736
'dev_other' 4.613
'test_clean' 4.837
'test_other' 5.120
'train_clean100' 33.236
'train_clean360' 116.500
'train_other500' 205.044
  • Struktur fitur :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
bab_id Tensor int64
Indo Tensor rangkaian
speaker_id Tensor int64
pidato Audio (Tidak ada,) int64
text_normalized Teks rangkaian
text_original Teks rangkaian
  • Kutipan :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}