librispeech

  • Mô tả :

LibriSpeech là một kho văn bản dài khoảng 1000 giờ đọc bằng tiếng Anh với tốc độ lấy mẫu là 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.

Bạn nên sử dụng giải mã âm thanh lười biếng để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io : pip install tensorflow-io - bật giải mã lười biếng: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Tách ra ví dụ
'dev_clean' 2,703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • Cấu trúc tính năng :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chap_id tenxơ int64
Tôi tenxơ chuỗi
speaker_id tenxơ int64
phát biểu âm thanh (Không có,) int16
chữ Chữ chuỗi
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/mặc định (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu mặc định.

  • Phiên bản :

    • 2.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
    • 2.1.2 : Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu: 304.47 GiB

  • Ví dụ ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Mô tả cấu hình : Tập dữ liệu âm thanh thô.

  • Phiên bản :

    • 2.1.1 : Sửa kiểu dữ liệu giọng nói với dtype=tf.int16.
    • 2.1.2 (mặc định): Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu : 59.37 GiB

  • Ví dụ ( tfds.as_dataframe ): Thiếu.

,

  • Mô tả :

LibriSpeech là một kho văn bản dài khoảng 1000 giờ đọc bằng tiếng Anh với tốc độ lấy mẫu là 16 kHz, do Vassil Panayotov chuẩn bị với sự hỗ trợ của Daniel Povey. Dữ liệu được lấy từ sách nói đã đọc từ dự án LibriVox và đã được phân đoạn và căn chỉnh cẩn thận.

Bạn nên sử dụng giải mã âm thanh lười biếng để đọc nhanh hơn và kích thước tập dữ liệu nhỏ hơn: - cài đặt thư viện tensorflow_io : pip install tensorflow-io - bật giải mã lười biếng: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Tách ra ví dụ
'dev_clean' 2,703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • Cấu trúc tính năng :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
chap_id tenxơ int64
Tôi tenxơ chuỗi
speaker_id tenxơ int64
phát biểu âm thanh (Không có,) int16
chữ Chữ chuỗi
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/mặc định (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu mặc định.

  • Phiên bản :

    • 2.1.1 (mặc định): Sửa kiểu dữ liệu giọng nói bằng dtype=tf.int16.
    • 2.1.2 : Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu: 304.47 GiB

  • Ví dụ ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Mô tả cấu hình : Tập dữ liệu âm thanh thô.

  • Phiên bản :

    • 2.1.1 : Sửa kiểu dữ liệu giọng nói với dtype=tf.int16.
    • 2.1.2 (mặc định): Thêm cấu hình 'lazy_decode'.
  • Kích thước tập dữ liệu : 59.37 GiB

  • Ví dụ ( tfds.as_dataframe ): Thiếu.