vctk

  • 설명 :

이 CSTR VCTK 말뭉치에는 다양한 억양을 가진 110명의 영어 사용자가 발화한 음성 데이터가 포함되어 있습니다. 각 화자는 신문, 무지개 구절, 억양 아카이브에 사용된 도출 단락에서 선택한 약 400개의 문장을 읽습니다.

하드 디스크 오류로 인해 'p315' 텍스트가 손실되었습니다.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
악센트 클래스 레이블 int64
성별 클래스 레이블 int64
ID 텐서
스피커 클래스 레이블 int64
연설 오디오 (없음,) 정수16
텍스트 텍스트
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1(기본 구성)

  • 구성 설명 : 무지향성 마이크(DPA 4035)를 사용하여 녹음된 오디오. 매우 낮은 주파수의 노이즈가 포함되어 있습니다.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • 데이터세트 크기 : 39.87 GiB

  • 분할 :

나뉘다
'train' 44,455

vctk/mic2

  • 구성 설명 : 대역폭이 매우 넓은 소형 다이어프램 콘덴서 마이크(Sennheiser MKH 800)를 사용하여 녹음한 오디오.

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • 데이터세트 크기 : 38.86 GiB

  • 분할 :

나뉘다
'train' 43,873