ljspeech

  • Mô tả :

Đây là bộ dữ liệu giọng nói thuộc phạm vi công cộng bao gồm 13.100 đoạn âm thanh ngắn của một người nói đọc các đoạn văn từ 7 cuốn sách phi hư cấu. Một phiên âm được cung cấp cho mỗi clip. Các clip có độ dài khác nhau từ 1 đến 10 giây và có tổng thời lượng khoảng 24 giờ.

Các văn bản được xuất bản từ năm 1884 đến 1964, và thuộc phạm vi công cộng. Đoạn âm thanh được dự án LibriVox ghi lại vào năm 2016-17 và cũng thuộc phạm vi công cộng.

Tách ra ví dụ
'train' 13.100
  • Cấu trúc tính năng :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
Tôi tenxơ sợi dây
lời nói âm thanh (Không có,) int16
chữ Chữ sợi dây
text_chuẩn hóa Chữ sợi dây
  • trích dẫn :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}