Эта страница была переведа с помощью Cloud Translation API.
Switch to English

Speech_commands

  • Описание :

Набор аудиоданных из произнесенных слов, предназначенный для обучения и оценки систем определения ключевых слов. Его основная цель - предоставить способ создания и тестирования небольших моделей, которые обнаруживают, когда произносится одно слово из набора из десяти целевых слов, с минимальным количеством ложных срабатываний из-за фонового шума или несвязанной речи. Обратите внимание, что в наборе для обучения и проверки метка «неизвестно» гораздо более распространена, чем метки целевых слов или фонового шума. Одно из отличий от релизной версии - обработка тихих сегментов. В то время как в тестовом наборе сегменты тишины представляют собой обычные файлы продолжительностью 1 секунду, в обучении они представлены в виде длинных сегментов в папке "background_noise". Здесь мы разбиваем этот фоновый шум на клипы по 1 секунде, а также сохраняем один из файлов для набора проверки.

  • Домашняя страница : https://arxiv.org/abs/1804.03209

  • Исходный код : tfds.audio.SpeechCommands

  • Версии :

    • 0.0.2 (по умолчанию): без примечаний к выпуску.
  • Размер загружаемого файла : 2.37 GiB

  • Размер набора данных : 8.17 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплит :

Трещина Примеры
'test' 4 890
'train' 85 511
'validation' 10 102
  • Особенности :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • Контролируемые ключи (см. as_supervised doc ): ('audio', 'label')

  • Цитата :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}