vctk

  • 説明

このCSTRVCTKコーパスには、110人の英語話者がさまざまなアクセントで発話した音声データが含まれています。各話者は、新聞、虹のパッセージ、スピーチアクセントアーカイブに使用された引き出し段落から選択された約400文を読み上げます。

ハードディスクエラーのため、「p315」テキストが失われたことに注意してください。

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1(デフォルト設定)

  • コンフィグの説明:オーディオ全指向性マイク(DPA 4035)を使用して記録しました。非常に低い周波数のノイズが含まれています。

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • データセットサイズ39.87 GiB

  • スプリット

スプリット
'train' 44,455

vctk / mic2

  • コンフィグの説明:オーディオは非常に広い帯域幅(ゼンハイザーMKH 800)と小型ダイアフラムコンデンサーマイクを使用して記録。

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • データセットサイズ38.86 GiB

  • スプリット

スプリット
'train' 43,873