vctk

คำอธิบาย :

CSTR VCTK Corpus นี้ประกอบด้วยข้อมูลเสียงพูดที่พูดโดยผู้พูดภาษาอังกฤษ 110 คนด้วยสำเนียงต่างๆ ผู้พูดแต่ละคนจะอ่านประโยคประมาณ 400 ประโยค ซึ่งคัดเลือกมาจากหนังสือพิมพ์ ข้อความสีรุ้ง และย่อหน้าที่ใช้สำหรับการเน้นเสียงพูด

โปรดทราบว่าข้อความ 'p315' หายไปเนื่องจากข้อผิดพลาดของฮาร์ดดิสก์

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
โฮมเพจ : https://doi.org/10.7488/ds/2645
รหัสที่มา : tfds.audio.Vctk
รุ่น :
- 1.0.0 : VCTK ปล่อย 0.92.0
- 1.0.1 (ค่าเริ่มต้น): แก้ไขประเภทข้อมูลเสียงพูดด้วย dtype=tf.int16
ขนาดการดาวน์โหลด : 10.94 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
สำเนียง	ป้ายกำกับคลาส		int64
เพศ	ป้ายกำกับคลาส		int64
รหัส	เทนเซอร์		สตริง
ลำโพง	ป้ายกำกับคลาส		int64
คำพูด	เครื่องเสียง	(ไม่มี,)	int16
ข้อความ	ข้อความ		สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'speech')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า : เสียงที่บันทึกโดยใช้ไมโครโฟนรอบทิศทาง (DPA 4035) ประกอบด้วยเสียงความถี่ต่ำมาก
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
ขนาดชุดข้อมูล : 39.87 GiB
แยก :

แยก	ตัวอย่าง
`'train'`	44,455

ตัวอย่าง ( tfds.as_dataframe ):

vctk/mic2

คำอธิบาย การกำหนดค่า : บันทึกเสียงโดยใช้ไมโครโฟนคอนเดนเซอร์ไดอะแฟรมขนาดเล็กที่มีแบนด์วิธกว้างมาก (Sennheiser MKH 800)
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
ขนาดชุดข้อมูล : 38.86 GiB
แยก :

แยก	ตัวอย่าง
`'train'`	43,873

ตัวอย่าง ( tfds.as_dataframe ):

vctk จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

vctk/mic1 (การกำหนดค่าเริ่มต้น)

vctk/mic2

vctk