vctk

 • opis :

Ten CSTR VCTK Corpus zawiera dane mowy wypowiedziane przez 110 anglojęzycznych z różnymi akcentami. Każdy mówca odczytuje około 400 zdań, które zostały wybrane z gazety, tęczowego fragmentu i akapitu elicytacji, które zostały użyte do archiwum akcentów mowy.

Zauważ, że tekst „p315” został utracony z powodu błędu dysku twardego.

FeaturesDict({
  'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
  'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
  'id': string,
  'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
  'speech': Audio(shape=(None,), dtype=int16),
  'text': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
akcent Etykieta klasy int64
płeć Etykieta klasy int64
ID Napinacz strunowy
głośnik Etykieta klasy int64
przemówienie Audio (Nic,) int16
tekst Tekst strunowy
@misc{yamagishi2019vctk,
 author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
 title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
 publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
 year=2019,
 doi={10.7488/ds/2645},
}

vctk/mic1 (domyślna konfiguracja)

 • Opis konfiguracji: Dźwięk nagrany przy użyciu mikrofonu wielokierunkowego (DPA 4035). Zawiera dźwięki o bardzo niskiej częstotliwości.

     This is the same audio released in previous versions of VCTK:
     https://doi.org/10.7488/ds/1994
  
 • Rozmiar zestawu danych : 39.87 GiB

 • Podziały :

Rozdzielać Przykłady
'train' 44455

vctk/mic2

 • Opis konfiguracji : Dźwięk nagrany przy użyciu małomembranowego mikrofonu pojemnościowego o bardzo szerokim paśmie przenoszenia (Sennheiser MKH 800).

     Two speakers, p280 and p315 had technical issues of the audio
     recordings using MKH 800.
  
 • Rozmiar zestawu danych : 38.86 GiB

 • Podziały :

Rozdzielać Przykłady
'train' 43873