एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

भाषण_आदेश

  • विवरण:

बोले गए शब्दों का एक ऑडियो डेटासेट जिसे कीवर्ड स्पॉटिंग सिस्टम को प्रशिक्षित और मूल्यांकन करने में मदद करने के लिए डिज़ाइन किया गया है। इसका प्राथमिक लक्ष्य छोटे मॉडल बनाने और परीक्षण करने का एक तरीका प्रदान करना है जो पता लगाता है कि एक शब्द कब बोला जाता है, दस लक्षित शब्दों के सेट से, पृष्ठभूमि शोर या असंबंधित भाषण से जितना संभव हो उतना झूठी सकारात्मकता के साथ। ध्यान दें कि ट्रेन और सत्यापन सेट में, "अज्ञात" लेबल लक्षित शब्दों या पृष्ठभूमि शोर के लेबल से कहीं अधिक प्रचलित है। रिलीज़ संस्करण से एक अंतर मूक खंडों का प्रबंधन है। जबकि परीक्षण सेट में मौन खंड नियमित 1 सेकंड की फाइलें हैं, प्रशिक्षण में उन्हें "background_noise" फ़ोल्डर के तहत लंबे खंडों के रूप में प्रदान किया जाता है। यहां हम इन पृष्ठभूमि शोर को 1 सेकंड की क्लिप में विभाजित करते हैं, और सत्यापन सेट के लिए फाइलों में से एक को भी रखते हैं।

  • होमपेज: https://arxiv.org/abs/1804.03209

  • स्रोत कोड: tfds.audio.SpeechCommands

  • संस्करण:

    • 0.0.2 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 2.37 GiB

  • डेटासेट का आकार: 8.17 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 4,890
'train' 85,511
'validation' 10,102
  • विशेषताएं:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • प्रशस्ति पत्र:
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}