امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

vctk

  • توضیحات :

این مجموعه CSTR VCTK شامل داده های گفتاری است که توسط 110 انگلیسی زبان با لهجه های مختلف گفته می شود. هر سخنران حدود 400 جمله را که از یک روزنامه ، قسمت رنگین کمان و یک پاراگراف استخراج برای بایگانی لهجه گفتار انتخاب شده است ، می خواند.

توجه داشته باشید که متن 'p315' به دلیل خطای دیسک سخت از بین رفته است.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('text', 'speech')

  • نقل قول :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (پیکربندی پیش فرض)

  • توضیحات پیکربندی : صدا با استفاده از میکروفون همه جهته ضبط می شود (DPA 4035). دارای صداهای بسیار کم فرکانس است.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • اندازه مجموعه داده : 39.87 GiB

  • تقسیم :

شکاف مثال ها
'train' 44،455

vctk / mic2

  • شرح پیکربندی : صدا با استفاده از میکروفن خازنی دیافراگم کوچک با پهنای باند بسیار گسترده ضبط می شود (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • اندازه مجموعه داده : 38.86 GiB

  • تقسیم :

شکاف مثال ها
'train' 43،873