لیبریت ها

  • توضیحات :

LibriTTS یک مجموعه انگلیسی چند سخنران است که تقریباً 585 ساعت گفتار انگلیسی خوانده شده با نرخ نمونه برداری 24 کیلوهرتز است که توسط Heiga Zen با کمک Google Speech و اعضای تیم Google Brain تهیه شده است. مجموعه LibriTTS برای تحقیقات TTS طراحی شده است. این از مواد اصلی (فایل های صوتی mp3 از LibriVox و فایل های متنی از پروژه گوتنبرگ) مجموعه LibriSpeech مشتق شده است. تفاوت های اصلی با مجموعه LibriSpeech در زیر ذکر شده است:

  1. فایل های صوتی با نرخ نمونه برداری 24 کیلوهرتز هستند.
  2. گفتار در شکستن جمله تقسیم می شود.
  3. هر دو متن اصلی و عادی گنجانده شده است.
  4. اطلاعات متنی (مثلاً جملات همسایه) قابل استخراج است.
  5. جملات با نویز پس زمینه قابل توجه مستثنی هستند.
شکاف مثال ها
'dev_clean' 5736
'dev_other' 4613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116500
'train_other500' 205,044
  • ساختار ویژگی :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فصل_id تانسور int64
شناسه تانسور رشته
speaker_id تانسور int64
سخن، گفتار سمعی (هیچ یک،) int64
text_normalized متن رشته
متن_اصل متن رشته
  • نقل قول :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}