librits

  • คำอธิบาย :

LibriTTS เป็นคลังข้อมูลภาษาอังกฤษสำหรับผู้พูดหลายคนซึ่งมีการอ่านสุนทรพจน์ภาษาอังกฤษประมาณ 585 ชั่วโมงที่อัตราการสุ่มตัวอย่าง 24kHz ซึ่งจัดทำโดย Heiga Zen ด้วยความช่วยเหลือจากสมาชิกในทีม Google Speech และ Google Brain คลังข้อมูล LibriTTS ได้รับการออกแบบมาสำหรับการวิจัย TTS ได้มาจากวัสดุต้นฉบับ (ไฟล์เสียง mp3 จาก LibriVox และไฟล์ข้อความจาก Project Gutenberg) ของคลังข้อมูล LibriSpeech ความแตกต่างที่สำคัญจากคลังข้อมูล LibriSpeech อยู่ด้านล่าง:

  1. ไฟล์เสียงอยู่ที่อัตราการสุ่มตัวอย่าง 24kHz
  2. คำพูดถูกแยกออกเมื่อแบ่งประโยค
  3. มีทั้งข้อความต้นฉบับและข้อความปกติ
  4. สามารถดึงข้อมูลบริบท (เช่น ประโยคใกล้เคียง) ได้
  5. ไม่รวมการเปล่งเสียงที่มีเสียงรบกวนรอบข้าง
แยก ตัวอย่าง
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
Chapter_id เทนเซอร์ int64
รหัส เทนเซอร์ สตริง
รหัสลำโพง เทนเซอร์ int64
คำพูด เครื่องเสียง (ไม่มี,) int64
text_normalized ข้อความ สตริง
ข้อความ_ต้นฉบับ ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}