ספרות

  • תיאור:

LibriTTS הוא גוף אנגלי רב דובר של כ -585 שעות דיבור באנגלית הנקראת בקצב דגימה של 24kHz, שהוכן על ידי הייגה זן בסיוע חברי צוות Google Speech ו- Google Brain. גוף LibriTTS מיועד למחקר TTS. הוא נגזר מהחומרים המקוריים (קבצי שמע mp3 מ- LibriVox וקובצי טקסט מפרויקט גוטנברג) של קורפוס LibriSpeech. ההבדלים העיקריים מגוף LibriSpeech מפורטים להלן:

  1. קבצי האודיו נמצאים בקצב דגימה של 24kHz.
  2. הנאום מפוצל בהפרות משפטים.
  3. כלולים גם טקסטים מקוריים וגם מנורמלים.
  4. ניתן לחלץ מידע קונטקסטואלי (למשל, משפטים שכנים).
  5. אמירות עם רעשי רקע משמעותיים אינן נכללות.
  • דף הבית: http://www.openslr.org/60

  • קוד מקור: tfds.audio.Libritts

  • גרסאות:

    • 1.0.1 (ברירת המחדל): הערות השחרור לא.
  • גודל ההורדה: 78.42 GiB

  • גודל בסיס הנתונים: 271.41 GiB

  • Auto-במטמון ( תיעוד ): אין

  • פיצולים:

לְפַצֵל דוגמאות
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • מאפיינים:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}