لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

أوامر الكلام

  • الوصف :

مجموعة بيانات صوتية للكلمات المنطوقة مصممة للمساعدة في تدريب وتقييم أنظمة اكتشاف الكلمات الرئيسية. هدفها الأساسي هو توفير طريقة لبناء واختبار نماذج صغيرة تكتشف متى يتم نطق كلمة واحدة ، من مجموعة من عشر كلمات مستهدفة ، مع أقل عدد ممكن من الإيجابيات الخاطئة من الضوضاء الخلفية أو الكلام غير ذي الصلة. لاحظ أنه في مجموعة التدريب والتحقق من الصحة ، تكون التسمية "غير معروف" أكثر انتشارًا من تسميات الكلمات المستهدفة أو ضوضاء الخلفية. أحد الاختلافات عن نسخة الإصدار هو التعامل مع المقاطع الصامتة. بينما في مجموعة الاختبار ، تكون مقاطع الصمت عبارة عن ملفات عادية مدتها ثانية واحدة ، يتم توفيرها في التدريب كأجزاء طويلة ضمن مجلد "background_noise". هنا نقسم ضوضاء الخلفية هذه إلى مقاطع 1 ثانية ، ونحتفظ أيضًا بأحد الملفات لمجموعة التحقق من الصحة.

  • الصفحة الرئيسية https://arxiv.org/abs/1804.03209

  • كود المصدر : tfds.audio.SpeechCommands

  • إصدارات :

    • 0.0.2 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 2.37 GiB

  • حجم مجموعة البيانات : 8.17 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 4،890
'train' 85511
'validation' 10102
  • الميزات :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • الاقتباس :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}