- توضیحات :
این مجموعه CSTR VCTK شامل داده های گفتاری است که توسط 110 انگلیسی زبان با لهجه های مختلف گفته می شود. هر سخنران حدود 400 جمله را که از یک روزنامه ، قسمت رنگین کمان و یک پاراگراف استخراج برای بایگانی لهجه گفتار انتخاب شده است ، می خواند.
توجه داشته باشید که متن 'p315' به دلیل خطای دیسک سخت از بین رفته است.
صفحه اصلی : https://doi.org/10.7488/ds/2645
کد منبع :
tfds.audio.Vctk
نسخه ها :
-
1.0.0
(پیش فرض): VCTK نسخه 0.92.0 را منتشر می کند.
-
اندازه بارگیری :
10.94 GiB
ذخیره خودکار ( مستندات ): خیر
ویژگی ها :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'id': tf.string,
'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=tf.int64),
'text': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'speech')
نقل قول :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
vctk / mic1 (پیکربندی پیش فرض)
توضیحات پیکربندی : صدا با استفاده از میکروفون همه جهته ضبط می شود (DPA 4035). دارای صداهای بسیار کم فرکانس است.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
اندازه مجموعه داده :
39.87 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 44،455 |
- مثالها ( tfds.as_dataframe ):
vctk / mic2
شرح پیکربندی : صدا با استفاده از میکروفن خازنی دیافراگم کوچک با پهنای باند بسیار گسترده ضبط می شود (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
اندازه مجموعه داده :
38.86 GiB
تقسیم :
شکاف | مثال ها |
---|---|
'train' | 43،873 |
- مثالها ( tfds.as_dataframe ):