لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

ليبرات

  • الوصف :

LibriTTS عبارة عن مجموعة نصية باللغة الإنجليزية متعددة المتحدثين بها حوالي 585 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 24 كيلو هرتز ، تم إعداده بواسطة Heiga Zen بمساعدة Google Speech وأعضاء فريق Google Brain. تم تصميم مجموعة LibriTTS لأبحاث تحويل النص إلى كلام. وهو مشتق من المواد الأصلية (ملفات صوت mp3 من LibriVox وملفات نصية من مشروع جوتنبرج) لمجموعة LibriSpeech. الاختلافات الرئيسية عن مجموعة LibriSpeech مذكورة أدناه:

  1. ملفات الصوت بمعدل عينات 24 كيلو هرتز.
  2. ينقسم الخطاب عند فواصل الجمل.
  3. يتم تضمين كل من النصوص الأصلية والمطابقة.
  4. يمكن استخراج المعلومات السياقية (على سبيل المثال ، الجمل المجاورة).
  5. يتم استبعاد الأقوال التي تحتوي على ضوضاء كبيرة في الخلفية.
  • الصفحة الرئيسية : http://www.openslr.org/60

  • كود المصدر : tfds.audio.Libritts

  • إصدارات :

    • 1.0.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 78.42 GiB

  • حجم مجموعة البيانات : 271.41 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'dev_clean' 5736
'dev_other' 4613
'test_clean' 4837
'test_other' 5120
'train_clean100' 33236
'train_clean360' 116500
'train_other500' 205،044
  • الميزات :
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}