- Описание:
Бесплатный набор аудиоданных из разговорных цифр. Подумайте MNIST для аудио.
Простой набор аудио / речевых данных, состоящий из записей произносимых цифр в файлах wav с частотой 8 кГц. Записи обрезаются так, чтобы в начале и в конце была минимальная тишина.
5 динамиков 2500 записей (по 50 каждой цифры на говорящего) Произношение на английском языке
Файлы именуются в следующем формате: {digitLabel} {speakerName} {индекс} .wav
Домашняя страница: https://github.com/Jakobovski/free-spoken-digit-dataset
Исходный код:
tfds.audio.spoken_digit.SpokenDigit
Версии:
-
1.0.9
( по умолчанию): Нет Замечания к выпуску.
-
Скачать Размер:
11.42 MiB
Dataset Размер:
45.68 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'train' | 2,500 |
- Особенности:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'audio/filename': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
Контролируемые ключи (см
as_supervised
документ ):('audio', 'label')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}