- תיאור :
מערך שמע של מילים מדוברות שנועד לעזור לאמן ולהעריך מערכות איתור מילות מפתח. המטרה העיקרית שלו היא לספק דרך לבנות ולבדוק מודלים קטנים שמזהים מתי מילה בודדת נאמרת, מתוך קבוצה של עשר מילות יעד, עם כמה שפחות תוצאות חיוביות שגויות מרעשי רקע או דיבור לא קשור. שימו לב שבערכת הרכבת והאימות, התווית "לא ידוע" נפוצה הרבה יותר מהתוויות של מילות המטרה או רעשי הרקע. הבדל אחד מגרסת השחרור הוא הטיפול בקטעים שקטים. בעוד במערך המבחן, מקטעי השתיקה הם קבצים רגילים של שנייה אחת, בהדרכה הם מסופקים כקטעים ארוכים תחת תיקיית "רעש_ברקע". כאן אנו מפצלים את רעשי הרקע הללו לקליפים של שנייה אחת, וגם שומרים על אחד מהקבצים עבור ערכת האימות.
דף הבית : https://arxiv.org/abs/1804.03209
קוד מקור :
tfds.audio.SpeechCommands
גרסאות :
-
0.0.2
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
2.37 GiB
גודל מערך נתונים :
8.17 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- תכונות :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=12),
})
מפתחות בפיקוח (ראה
as_supervised
doc ):('audio', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}