- توضیحات :
یک مجموعه داده صوتی از کلمات گفتاری که برای کمک به آموزش و ارزیابی سیستم های لکه بینی کلمات کلیدی طراحی شده است. هدف اصلی آن ارائه راهی برای ساخت و آزمایش مدلهای کوچکی است که هنگام گفتن یک کلمه را تشخیص می دهند ، از مجموعه ای از ده کلمه هدف ، با کمترین میزان مثبت کاذب از نویز زمینه یا گفتار غیر مرتبط. توجه داشته باشید که در مجموعه قطار و اعتبار سنجی ، برچسب "ناشناخته" بسیار بیشتر از برچسب کلمات هدف یا سر و صدای پس زمینه است. یک تفاوت نسبت به نسخه انتشار ، مدیریت قسمتهای بی صدا است. در حالی که در مجموعه تست ، بخشهای سکوت فایلهای منظم 1 ثانیه ای هستند ، اما در آموزش آنها به عنوان بخشهای طولانی در پوشه "background_noise" ارائه می شوند. در اینجا ما این نویز پس زمینه را به کلیپ های 1 ثانیه ای تقسیم می کنیم ، و همچنین یکی از پرونده ها را برای مجموعه اعتبار سنجی نگه می داریم.
صفحه اصلی : https://arxiv.org/abs/1804.03209
کد منبع :
tfds.audio.SpeechCommands
نسخه ها :
-
0.0.2
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
2.37 GiB
اندازه مجموعه داده :
8.17 GiB
ذخیره خودکار ( مستندات ): خیر
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 4890 |
'train' | 85511 |
'validation' | 10،102 |
- ویژگی ها :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('audio', 'label')
نقل قول :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):