vctk

  • Açıklama :

Bu CSTR VCTK Corpus, 110 İngilizce konuşmacı tarafından çeşitli aksanlarla söylenen konuşma verilerini içerir. Her konuşmacı, bir gazeteden seçilen yaklaşık 400 cümleyi, gökkuşağı pasajını ve konuşma aksanı arşivi için kullanılan bir açıklama paragrafını okur.

'p315' metninin bir sabit disk hatası nedeniyle kaybolduğunu unutmayın.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
Aksan sınıf etiketi tf.int64
Cinsiyet sınıf etiketi tf.int64
İD tensör tf.string
konuşmacı sınıf etiketi tf.int64
konuşma Ses (Hiçbiri,) tf.int64
Metin Metin tf.string
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Çok yönlü mikrofon (DPA 4035) kullanılarak kaydedilen ses. Çok düşük frekanslı gürültüler içerir.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Veri kümesi boyutu : 39.87 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 44.455

vctk/mic2

  • Yapılandırma açıklaması : Çok geniş bant genişliğine sahip küçük diyaframlı yoğunlaştırıcı mikrofon kullanılarak kaydedilen ses (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Veri kümesi boyutu : 38.86 GiB

  • Bölmeler :

Bölmek Örnekler
'train' 43.873