ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

librits

  • รายละเอียด:

LibriTTS เป็นคลังข้อมูลภาษาอังกฤษที่มีผู้พูดหลายคน ซึ่งมีการอ่านคำพูดภาษาอังกฤษประมาณ 585 ชั่วโมงที่อัตราการสุ่มตัวอย่าง 24kHz ซึ่งจัดทำโดย Heiga Zen ด้วยความช่วยเหลือจาก Google Speech และสมาชิกในทีม Google Brain คลังข้อมูล LibriTTS ได้รับการออกแบบมาสำหรับการวิจัย TTS มันมาจากวัสดุดั้งเดิม (ไฟล์เสียง mp3 จาก LibriVox และไฟล์ข้อความจาก Project Gutenberg) ของคลังข้อมูล LibriSpeech ความแตกต่างหลักจากคลังข้อมูล LibriSpeech มีการระบุไว้ด้านล่าง:

  1. ไฟล์เสียงอยู่ที่อัตราการสุ่มตัวอย่าง 24kHz
  2. คำพูดจะถูกแบ่งที่ตัวแบ่งประโยค
  3. รวมข้อความต้นฉบับและข้อความปกติ
  4. ข้อมูลบริบท (เช่น ประโยคข้างเคียง) สามารถดึงออกมาได้
  5. ไม่รวมคำพูดที่มีเสียงรบกวนเบื้องหลังอย่างมีนัยสำคัญ
  • โฮมเพจ: http://www.openslr.org/60

  • รหัสที่มา: tfds.audio.Libritts

  • รุ่น:

    • 1.0.1 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: 78.42 GiB

  • ขนาดชุด: 271.41 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • คุณสมบัติ:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}