امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

دستورات_گفتار

  • توضیحات :

یک مجموعه داده صوتی از کلمات گفتاری که برای کمک به آموزش و ارزیابی سیستم های لکه بینی کلمات کلیدی طراحی شده است. هدف اصلی آن ارائه راهی برای ساخت و آزمایش مدلهای کوچکی است که هنگام گفتن یک کلمه را تشخیص می دهند ، از مجموعه ای از ده کلمه هدف ، با کمترین میزان مثبت کاذب از نویز زمینه یا گفتار غیر مرتبط. توجه داشته باشید که در مجموعه قطار و اعتبار سنجی ، برچسب "ناشناخته" بسیار بیشتر از برچسب کلمات هدف یا سر و صدای پس زمینه است. یک تفاوت نسبت به نسخه انتشار ، مدیریت قسمتهای بی صدا است. در حالی که در مجموعه تست ، بخشهای سکوت فایلهای منظم 1 ثانیه ای هستند ، اما در آموزش آنها به عنوان بخشهای طولانی در پوشه "background_noise" ارائه می شوند. در اینجا ما این نویز پس زمینه را به کلیپ های 1 ثانیه ای تقسیم می کنیم ، و همچنین یکی از پرونده ها را برای مجموعه اعتبار سنجی نگه می داریم.

شکاف مثال ها
'test' 4890
'train' 85511
'validation' 10،102
  • ویژگی ها :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('audio', 'label')

  • نقل قول :

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}