- Описание:
Это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один выступающий читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Клипы различаются по продолжительности от 1 до 10 секунд и имеют общую продолжительность примерно 24 часа.
Тексты были опубликованы между 1884 и 1964 годами и находятся в открытом доступе. Аудио было записано в 2016-17 годах проектом LibriVox и также находится в открытом доступе.
Домашняя страница: https://keithito.com/LJ-Speech-Dataset/
Исходный код:
tfds.audio.Ljspeech
Версии:
-
1.1.0
( по умолчанию): Нет Замечания к выпуску.
-
Скачать Размер:
2.56 GiB
Dataset Размер:
10.73 GiB
Авто-кэшируются ( документация ): Нет
расколы:
Расколоть | Примеры |
---|---|
'train' | 13 100 |
- Особенности:
FeaturesDict({
'id': tf.string,
'speech': Audio(shape=(None,), dtype=tf.int64),
'text': Text(shape=(), dtype=tf.string),
'text_normalized': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (См
as_supervised
документ ):('text_normalized', 'speech')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}