vctk

  • תיאור :

קורפוס CSTR VCTK זה כולל נתוני דיבור שנאמרו על ידי 110 דוברי אנגלית עם מבטאים שונים. כל דובר מקריא כ-400 משפטים, שנבחרו מתוך עיתון, קטע הקשת בענן ופסקת עיקול המשמשת לארכיון מבטא הדיבור.

שים לב שהטקסט 'p315' אבד עקב שגיאת דיסק קשיח.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מִבטָא ClassLabel tf.int64
מִין ClassLabel tf.int64
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
רַמקוֹל ClassLabel tf.int64
נְאוּם שֶׁמַע (אף אחד,) tf.int64
טֶקסט טֶקסט tf.string
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (תצורת ברירת המחדל)

  • תיאור תצורה : אודיו מוקלט באמצעות מיקרופון כל-כיווני (DPA 4035). מכיל רעשים בתדר נמוך מאוד.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • גודל מערך נתונים : 39.87 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 44,455

vctk/mic2

  • תיאור תצורה : אודיו מוקלט באמצעות מיקרופון קונדנסר דיאפרגמה קטנה עם רוחב פס רחב מאוד (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • גודל מערך נתונים : 38.86 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train' 43,873