vctk

  • الوصف :

تشتمل مجموعة CSTR VCTK Corpus على بيانات كلام ينطق بها 110 متحدثًا باللغة الإنجليزية بلهجات مختلفة. يقرأ كل متحدث حوالي 400 جملة تم اختيارها من إحدى الصحف ومقطع قوس قزح وفقرة الاستنباط المستخدمة في أرشيف لهجة الكلام.

لاحظ أنه تم فقد النص "p315" بسبب خطأ في القرص الثابت.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
لهجة ClassLabel int64
جنس ClassLabel int64
هوية شخصية موتر سلسلة
مكبر الصوت ClassLabel int64
خطاب صوتي (لا أحد،) int16
نص نص سلسلة
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (التكوين الافتراضي)

  • وصف التكوين : تسجيل الصوت باستخدام ميكروفون متعدد الاتجاهات (DPA 4035). يحتوي على ضوضاء منخفضة التردد.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • حجم مجموعة البيانات : 39.87 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 44455

vctk / ميكروفون 2

  • وصف التكوين : تسجيل صوتي باستخدام ميكروفون مكثف صغير الغشاء بنطاق ترددي عريض للغاية (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • حجم مجموعة البيانات : 38.86 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 43873