libritts

  • Mô tả :

LibriTTS là kho ngữ liệu tiếng Anh nhiều người nói với khoảng 585 giờ đọc tiếng Anh ở tốc độ lấy mẫu 24kHz, do Heiga Zen chuẩn bị với sự hỗ trợ của các thành viên nhóm Google Speech và Google Brain. Kho văn bản LibriTTS được thiết kế cho nghiên cứu TTS. Nó được lấy từ các tài liệu gốc (tệp âm thanh mp3 từ LibriVox và tệp văn bản từ Project Gutenberg) của văn bản LibriSpeech. Những điểm khác biệt chính so với kho văn bản LibriSpeech được liệt kê bên dưới:

  1. Các tệp âm thanh có tốc độ lấy mẫu 24kHz.
  2. Bài phát biểu được chia ở các câu ngắt.
  3. Cả văn bản gốc và văn bản chuẩn hóa đều được bao gồm.
  4. Thông tin theo ngữ cảnh (ví dụ: các câu lân cận) có thể được trích xuất.
  5. Những lời nói có tiếng ồn xung quanh đáng kể sẽ bị loại trừ.
Tách ra ví dụ
'dev_clean' 5,736
'dev_other' 4.613
'test_clean' 4,837
'test_other' 5.120
'train_clean100' 33,236
'train_clean360' 116.500
'train_other500' 205,044
  • Cấu trúc tính năng :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
chap_id tenxơ int64
Tôi tenxơ sợi dây
speaker_id tenxơ int64
lời nói âm thanh (Không có,) int64
text_chuẩn hóa Chữ sợi dây
văn bản_gốc Chữ sợi dây
  • trích dẫn :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}