vctk

الوصف :

تشتمل مجموعة CSTR VCTK Corpus على بيانات كلام ينطق بها 110 متحدثًا باللغة الإنجليزية بلهجات مختلفة. يقرأ كل متحدث حوالي 400 جملة تم اختيارها من إحدى الصحف ومقطع قوس قزح وفقرة الاستنباط المستخدمة في أرشيف لهجة الكلام.

لاحظ أنه تم فقد النص "p315" بسبب خطأ في القرص الثابت.

وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://doi.org/10.7488/ds/2645
كود المصدر : tfds.audio.Vctk
إصدارات :
- 1.0.0 : إصدار VCTK 0.92.0.
- 1.0.1 (افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16.
حجم التحميل : 10.94 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
لهجة	ClassLabel		int64
جنس	ClassLabel		int64
هوية شخصية	موتر		سلسلة
مكبر الصوت	ClassLabel		int64
خطاب	صوتي	(لا أحد،)	int16
نص	نص		سلسلة

المفاتيح الخاضعة للإشراف (راجع المستند as_supervised ): ('text', 'speech')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (التكوين الافتراضي)

وصف التكوين : تسجيل الصوت باستخدام ميكروفون متعدد الاتجاهات (DPA 4035). يحتوي على ضوضاء منخفضة التردد.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
حجم مجموعة البيانات : 39.87 GiB
الانقسامات :

انشق، مزق	أمثلة
`'train'`	44455

أمثلة ( tfds.as_dataframe ):

vctk / ميكروفون 2

وصف التكوين : تسجيل صوتي باستخدام ميكروفون مكثف صغير الغشاء بنطاق ترددي عريض للغاية (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
حجم مجموعة البيانات : 38.86 GiB
الانقسامات :

انشق، مزق	أمثلة
`'train'`	43873

أمثلة ( tfds.as_dataframe ):

vctk تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

vctk / mic1 (التكوين الافتراضي)

vctk / ميكروفون 2

vctk