עזרה להגן על שונית המחסום הגדולה עם TensorFlow על Kaggle הצטרפו אתגר

סיווג שמע

המשימה לזהות מה שמע שמע מייצגת נקראת סיווג שמע . מודל סיווג שמע מאומן להכיר אירועי שמע שונים. לדוגמא, תוכלו לאמן מודל לזהות אירועים המייצגים שלושה אירועים שונים: מחיאת כף, הצמדת אצבעות והקלדה. TensorFlow Lite מספק מודלים מותאמים מראש המאומנים שתוכלו לפרוס ביישומים הניידים שלכם. למידע נוסף על סיווג שמע באמצעות TensorFlow כאן .

התמונה הבאה מציגה את הפלט של מודל סיווג השמע באנדרואיד.

תמונת מסך של דוגמא לאנדרואיד

להתחיל

אם אתה לא חדש ב- TensorFlow Lite ועובד עם Android, אנו ממליצים לבחון את יישומי הדוגמה הבאים שיכולים לעזור לך להתחיל.

תוכל למנף את ה- API מחוץ לקופסה מספריית המשימות של TensorFlow Lite לשילוב מודלים של סיווג שמע בכמה שורות קוד בלבד. תוכל גם לבנות צינור מסקנות מותאם אישית משלך באמצעות ספריית התמיכה של TensorFlow Lite .

הדוגמה של Android למטה מדגימה את היישום באמצעות ספריית המשימות TFLite

צפו בדוגמה של Android

צפה בדוגמה של iOS

אם אתה משתמש בפלטפורמה שאינה אנדרואיד / iOS, או אם אתה כבר מכיר את ממשקי ה- API של TensorFlow Lite , הורד את דגם המתנע ואת הקבצים התומכים (אם רלוונטי).

הורד את דגם המתנע מ- TensorFlow Hub

תיאור המודל

YAMNet הוא מסווג אירועי שמע שלוקח את צורת גל האודיו כקלט ועושה תחזיות עצמאיות לכל אחד מ -521 אירועי שמע מהאונטולוגיה של AudioSet . המודל משתמש בארכיטקטורת v1 של MobileNet והוכשר באמצעות קורפוס AudioSet. דגם זה שוחרר במקור בגן הדגמים TensorFlow, שם נמצא קוד המקור של הדגם, מחסום הדגם המקורי ותיעוד מפורט יותר.

איך זה עובד

ישנן שתי גרסאות של דגם YAMNet שהומר ל- TFLite:

  • YAMNet הוא המודל המקורי לסיווג שמע, עם גודל קלט דינמי, מתאים למידה העברה, פריסת אינטרנט ומובייל. יש לו גם תפוקה מורכבת יותר.

  • YAMNet / סיווג היא גרסה מכמתת עם קלט מסגרת קבוע פשוט יותר (15600 דוגמאות) ומחזירה וקטור ציונים יחיד עבור 521 שיעורי אירועי שמע.

תשומות

המודל מקבל מערך float32 1-D float32 או מערך float32 באורך 15600 המכיל צורת גל של 0.975 שניה המיוצגת כמו דגימות מונו של 16 קילו-הרץ בטווח [-1.0, +1.0] .

תפוקות

המודל מחזיר 2-D float32 טנסור של צורה (1, 521) המכיל את הציונים החזויים עבור כל אחת מ -521 השיעורים באונטולוגיית AudioSet הנתמכים על ידי YAMNet. אינדקס העמודות (0-520) של טנסור הציונים ממופה לשם מחלקת AudioSet המתאים באמצעות מפת המחלקות YAMNet, הזמינה כקובץ משויך yamnet_label_list.txt שנארז בקובץ הדגם. ראה להלן שימוש.

שימושים מתאימים

ניתן להשתמש ב- YAMNet

  • כמסווג אירועי שמע עצמאי המספק בסיס בסיס סביר במגוון רחב של אירועי שמע.
  • כמחלץ תכונות ברמה גבוהה: פלט ההטבעה של 1024-D של YAMNet יכול לשמש כתכונות קלט של מודל אחר אשר לאחר מכן ניתן להכשיר כמות קטנה של נתונים למשימה מסוימת. זה מאפשר ליצור במהירות מסווגי שמע מיוחדים מבלי לדרוש הרבה נתונים עם תוויות ומבלי להכשיר דגם גדול מקצה לקצה.
  • כהתחלה חמה: ניתן להשתמש בפרמטרים של מודל YAMNet לאתחול חלק ממודל גדול יותר המאפשר כיוונון עדין ומהיר יותר.

מגבלות

  • יציאות המסווג של YAMNet לא כוילו בין כיתות, כך שלא ניתן להתייחס ישירות ליציאות כאל הסתברויות. עבור כל משימה נתונה, סביר להניח שתצטרך לבצע כיול עם נתונים ספציפיים למשימה המאפשר לך להקצות ספי ציון וקנה מידה נכונים לכל מחלקה.
  • YAMNet הוכשר במיליוני סרטוני יוטיוב ולמרות שאלה מגוונים מאוד, עדיין יכול להיות אי התאמה בין התחום בין סרטון YouTube הממוצע לבין תשומות האודיו הצפויות לכל משימה נתונה. אתה צריך לצפות לעשות כמה כיוונונים וכיול כדי להפוך את YAMNet לשמיש בכל מערכת שתבנה.

התאמה אישית של המודל

המודלים שהוכשרו מראש הוכשרו לאיתור 521 שיעורי שמע שונים. לרשימה מלאה של שיעורים, עיין בקובץ התוויות במאגר הדגמים .

אתה יכול להשתמש בטכניקה המכונה למידת העברה כדי להכשיר מחדש מודל בכדי לזהות שיעורים שלא בסט המקורי. לדוגמה, תוכל לאמן מחדש את המודל לאיתור שירי ציפורים מרובים. לשם כך תזדקק למערכת של אודיוטי הדרכה לכל אחת מהתוויות החדשות שתרצה להכשיר. הדרך המומלצת היא להשתמש בספריית TensorFlow Lite Maker Model אשר מפשטת את תהליך הכשרת מודל TensorFlow Lite באמצעות מערך נתונים מותאם אישית, בכמה שורות קודים. הוא משתמש בלמידת העברה כדי להפחית את כמות נתוני האימון והזמן הדרושים. ניתן גם ללמוד מ העברת למידה לצורך זיהוי שמע כדוגמה ללימוד העברה.

המשך קריאה ומשאבים

השתמש במקורות הבאים כדי ללמוד עוד על מושגים הקשורים לסיווג שמע: