- Описание :
Набор аудиоданных из произнесенных слов, предназначенный для обучения и оценки систем определения ключевых слов. Его основная цель - предоставить способ создания и тестирования небольших моделей, которые обнаруживают, когда произносится одно слово, из набора из десяти целевых слов, с минимальным количеством ложных срабатываний от фонового шума или несвязанной речи. Обратите внимание, что в наборе для обучения и проверки метка «неизвестно» гораздо более распространена, чем метки целевых слов или фонового шума. Одно из отличий от релизной версии - обработка тихих сегментов. В то время как в тестовом наборе сегменты тишины представляют собой обычные файлы продолжительностью 1 секунду, в обучении они представлены в виде длинных сегментов в папке "background_noise". Здесь мы разбиваем этот фоновый шум на клипы продолжительностью 1 секунду, а также сохраняем один из файлов для набора проверки.
Домашняя страница : https://arxiv.org/abs/1804.03209
Исходный код :
tfds.audio.SpeechCommands
Версии :
-
0.0.2
(по умолчанию): без примечаний к выпуску.
-
Размер загружаемого файла :
2.37 GiB
Размер набора данных :
8.17 GiB
Автоматическое кэширование ( документация ): Нет
Сплит :
Трещина | Примеры |
---|---|
'test' | 4 890 |
'train' | 85 511 |
'validation' | 10 102 |
- Особенности :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
Контролируемые ключи (см.
as_supervised
):('audio', 'label')
Цитата :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):