- תיאור :
קורפוס CSTR VCTK זה כולל נתוני דיבור שנאמרו על ידי 110 דוברי אנגלית עם מבטאים שונים. כל דובר מקריא כ-400 משפטים, שנבחרו מתוך עיתון, קטע הקשת בענן ופסקת עיקול המשמשת לארכיון הדגשות הדיבור.
שים לב שהטקסט 'p315' אבד עקב שגיאת דיסק קשיח.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://doi.org/10.7488/ds/2645
קוד מקור :
tfds.audio.Vctk
גרסאות :
-
1.0.0
: גרסה 0.92.0 של VCTK. -
1.0.1
(ברירת מחדל): תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16.
-
גודל הורדה :
10.94 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מִבטָא | ClassLabel | int64 | ||
מִין | ClassLabel | int64 | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
רַמקוֹל | ClassLabel | int64 | ||
נְאוּם | שֶׁמַע | (אף אחד,) | int16 | |
טֶקסט | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('text', 'speech')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (תצורת ברירת המחדל)
תיאור תצורה : אודיו מוקלט באמצעות מיקרופון כל-כיווני (DPA 4035). מכיל רעשים בתדר נמוך מאוד.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
גודל מערך נתונים :
39.87 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 44,455 |
- דוגמאות ( tfds.as_dataframe ):
vctk/mic2
תיאור תצורה : אודיו מוקלט באמצעות מיקרופון קונדנסר דיאפרגמה קטן עם רוחב פס רחב מאוד (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
גודל מערך נתונים :
38.86 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 43,873 |
- דוגמאות ( tfds.as_dataframe ):