Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

vctk

  • Deskripsi :

Corpus CSTR VCTK ini mencakup data ucapan yang diucapkan oleh 110 penutur bahasa Inggris dengan berbagai aksen. Setiap pembicara membacakan sekitar 400 kalimat, yang dipilih dari koran, bagian pelangi, dan paragraf elisitasi yang digunakan untuk arsip aksen pidato.

Perhatikan bahwa teks 'p315' hilang karena kesalahan hard disk.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (konfigurasi default)

  • Deskripsi konfigurasi : Audio direkam menggunakan mikrofon omni-directional (DPA 4035). Berisi suara berfrekuensi sangat rendah.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Ukuran 39.87 GiB data : 39.87 GiB

  • Split :

Membagi Contoh
'train' 44.455

vctk / mic2

  • Deskripsi konfigurasi : Audio direkam menggunakan mikrofon kondensor diafragma kecil dengan bandwidth yang sangat lebar (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Ukuran 38.86 GiB data : 38.86 GiB

  • Split :

Membagi Contoh
'train' 43.873