mowa_komendy

  • opis :

Zbiór danych dźwiękowych wypowiadanych słów, który ma pomóc w szkoleniu i ocenie systemów wykrywania słów kluczowych. Jego głównym celem jest zapewnienie sposobu na zbudowanie i przetestowanie małych modeli, które wykrywają, kiedy wypowiadane jest pojedyncze słowo, z zestawu dziesięciu słów docelowych, z jak najmniejszą liczbą fałszywych trafień spowodowanych hałasem w tle lub niepowiązaną mową. Należy zauważyć, że w zestawie pociągów i walidacji etykieta „nieznany” jest znacznie bardziej rozpowszechniona niż etykiety słów docelowych lub szumu tła. Jedną różnicą w stosunku do wersji wydania jest obsługa cichych segmentów. Podczas gdy w zestawie testowym segmenty ciszy są zwykłymi 1-sekundowymi plikami, w treningu są one dostarczane jako długie segmenty w folderze „background_noise”. Tutaj dzielimy te szumy tła na 1-sekundowe klipy, a także zachowujemy jeden z plików dla zestawu sprawdzania poprawności.

Podział Przykłady
'test' 4890
'train' 85511
'validation' 10102
  • Struktura funkcji :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
audio Audio (Nic,) int16
etykieta Etykieta klasy int64
  • Cytat :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}