ליבריטים

  • תיאור :

LibriTTS הוא קורפוס אנגלית מרובה דוברי של כ-585 שעות של דיבור באנגלית קריאה בקצב דגימה של 24kHz, שהוכן על ידי Heiga Zen בסיוע חברי צוות Google Speech ו-Google Brain. קורפוס LibriTTS מיועד לחקר TTS. הוא נגזר מהחומרים המקוריים (קובצי אודיו mp3 מ-LibriVox וקבצי טקסט מ-Project Gutenberg) של קורפוס LibriSpeech. ההבדלים העיקריים מקורפוס LibriSpeech מפורטים להלן:

  1. קבצי השמע הם בקצב דגימה של 24kHz.
  2. הנאום מפוצל בהפסקות המשפט.
  3. גם טקסטים מקוריים וגם מנורמלים כלולים.
  4. ניתן לחלץ מידע קונטקסטואלי (למשל, משפטים סמוכים).
  5. התבטאויות עם רעשי רקע משמעותיים אינם נכללים.
לְפַצֵל דוגמאות
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • מבנה תכונה :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
מזהה_רמקול מוֹתֵחַ int64
נְאוּם שֶׁמַע (אף אחד,) int64
text_normalized טֶקסט חוּט
text_original טֶקסט חוּט
  • ציטוט :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}