לימוד עם חיזוקים

שחקו משחק לוח נגד סוכן, אשר מאומן באמצעות למידת חיזוק ופריסה עם TensorFlow Lite.

להתחיל

אם אתה חדש ב-TensorFlow Lite ועובד עם אנדרואיד, אנו ממליצים לחקור את היישום לדוגמה הבא שיכול לעזור לך להתחיל.

דוגמה לאנדרואיד

אם אתה משתמש בפלטפורמה שאינה אנדרואיד, או שאתה כבר מכיר את ממשקי API של TensorFlow Lite , אתה יכול להוריד את הדגם המיומן שלנו.

הורד דגם

איך זה עובד

הדגם בנוי לסוכן משחק לשחק משחק לוח קטן בשם 'Plane Strike'. להקדמה מהירה של המשחק הזה והחוקים שלו, אנא עיין ב- README זה.

מתחת לממשק המשתמש של האפליקציה, בנינו סוכן שמשחק נגד השחקן האנושי. הסוכן הוא MLP 3-שכבתי שלוקח את מצב הלוח כקלט ומוציא את הציון החזוי עבור כל אחד מ-64 תאי הלוח האפשריים. המודל מאומן באמצעות שיפוע מדיניות (REINFORCE) ואתה יכול למצוא את קוד ההדרכה כאן . לאחר הכשרת הסוכן, אנו ממירים את הדגם ל-TFLite ופורסים אותו באפליקציית אנדרואיד.

במהלך המשחק בפועל באפליקציית אנדרואיד, כאשר מגיע תורו של הסוכן לנקוט פעולה, הסוכן מסתכל על מצב הלוח של השחקן האנושי (הלוח בתחתית), המכיל מידע על תקיפות קודמות מוצלחות ולא מוצלחות (מכות והחמצות) , ומשתמש במודל המאומן כדי לחזות היכן להכות הבא, כך שהוא יוכל לסיים את המשחק לפני שהשחקן האנושי יעשה זאת.

מדדי ביצועים

מספרי אמת מידה לביצועים נוצרים עם הכלי המתואר כאן .

שם המודל גודל הדגם התקן מעבד
שיפוע מדיניות 84 Kb Pixel 3 (אנדרואיד 10) 0.01ms*
Pixel 4 (אנדרואיד 10) 0.01ms*

* 1 חוטים בשימוש.

תשומות

המודל מקבל טנסור float32 של (1, 8, 8) כמצב הלוח.

פלטים

המודל מחזיר צורה 2-D float32 Tensor (1,64) בתור הציונים החזויים עבור כל אחד מ-64 עמדות הפגיעה האפשריות.

תאמן את הדגם שלך

תוכל לאמן דגם משלך ללוח גדול/קטן יותר על ידי שינוי הפרמטר BOARD_SIZE בקוד ההדרכה .