لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

vctk

  • الوصف :

تتضمن مجموعة CSTR VCTK هذه بيانات الكلام التي ينطق بها 110 متحدثًا باللغة الإنجليزية بلهجات مختلفة. يقرأ كل متحدث حوالي 400 جملة تم اختيارها من إحدى الصحف ومقطع قوس قزح وفقرة الاستنباط المستخدمة في أرشيف لهجة الكلام.

لاحظ أنه تم فقد النص "p315" بسبب خطأ في القرص الثابت.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (التكوين الافتراضي)

  • وصف التكوين : تسجيل الصوت باستخدام ميكروفون متعدد الاتجاهات (DPA 4035). يحتوي على ضوضاء منخفضة التردد.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • حجم مجموعة البيانات : 39.87 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 44455

vctk / ميكروفون 2

  • وصف التكوين : تسجيل صوتي باستخدام ميكروفون مكثف صغير الغشاء بنطاق ترددي عريض للغاية (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • حجم مجموعة البيانات : 38.86 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 43873