भाषण_आदेश

  • विवरण :

बोले गए शब्दों का एक ऑडियो डेटासेट जिसे कीवर्ड स्पॉटिंग सिस्टम को प्रशिक्षित करने और मूल्यांकन करने में मदद करने के लिए डिज़ाइन किया गया है। इसका प्राथमिक लक्ष्य छोटे मॉडल बनाने और परीक्षण करने का एक तरीका प्रदान करना है जो पृष्ठभूमि शोर या असंबंधित भाषण से यथासंभव कुछ झूठी सकारात्मकता के साथ, दस लक्ष्य शब्दों के सेट से एक शब्द बोले जाने पर पता लगाता है। ध्यान दें कि ट्रेन और सत्यापन सेट में, "अज्ञात" लेबल लक्षित शब्दों या पृष्ठभूमि शोर के लेबल से कहीं अधिक प्रचलित है। रिलीज़ संस्करण से एक अंतर साइलेंट सेगमेंट की हैंडलिंग है। जबकि परीक्षण सेट में मौन खंड नियमित 1 सेकंड की फाइलें हैं, प्रशिक्षण में उन्हें "background_noise" फ़ोल्डर के तहत लंबे खंडों के रूप में प्रदान किया जाता है। यहां हम इन पृष्ठभूमि शोर को 1 सेकंड क्लिप में विभाजित करते हैं, और सत्यापन सेट के लिए फ़ाइलों में से एक को भी रखते हैं।

विभाजित करना उदाहरण
'test' 4,890
'train' 85,511
'validation' 10,102
  • फ़ीचर संरचना :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
ऑडियो ऑडियो (कोई भी नहीं,) int16
लेबल क्लासलेबल int64
  • उद्धरण :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}