एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

वीसीटीके

  • विवरण:

इस सीएसटीआर वीसीटीके कॉर्पस में विभिन्न उच्चारणों के साथ 110 अंग्रेजी बोलने वालों द्वारा बोले गए भाषण डेटा शामिल हैं। प्रत्येक वक्ता लगभग ४०० वाक्य पढ़ता है, जो एक समाचार पत्र, इंद्रधनुष मार्ग और भाषण उच्चारण संग्रह के लिए उपयोग किए जाने वाले एक अभिरुचि अनुच्छेद से चुने गए थे।

ध्यान दें कि हार्ड डिस्क त्रुटि के कारण 'p315' टेक्स्ट खो गया था।

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('text', 'speech')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: ऑडियो एक ओमनी-दिशात्मक माइक्रोफोन (DPA 4035) का उपयोग कर दर्ज की गई। बहुत कम आवृत्ति के शोर शामिल हैं।

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • डेटासेट का आकार: 39.87 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 44,455

वीसीटीके/माइक2

  • कॉन्फ़िग विवरण: ऑडियो बहुत व्यापक बैंडविड्थ (Sennheiser MKH 800) के साथ एक छोटे डायाफ्राम संघनित्र माइक्रोफोन का उपयोग कर दर्ज की गई।

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • डेटासेट का आकार: 38.86 GiB

  • विभाजन:

विभाजित करना उदाहरण
'train' 43,873