Google I/O הוא עטיפה! התעדכן בהפעלות של TensorFlow. צפה בהפעלות

לימוד עם חיזוקים

שחק משחק לוח נגד סוכן, שאומן באמצעות למידת חיזוק ונפרס עם TensorFlow Lite.

להתחיל

אם אתה חדש ב- TensorFlow Lite ועובד עם Android, אנו ממליצים לבחון את היישום הבא של הדוגמה שיכול לעזור לך להתחיל.

דוגמה לאנדרואיד

אם אתה משתמש בפלטפורמה אחרת מאשר אנדרואיד, או שאתה כבר מכיר את APIs לייט TensorFlow , אתה יכול להוריד המודל המודרך שלנו.

הורד דגם

איך זה עובד

המודל בנוי עבור סוכן משחקים לשחק משחק לוח קטן בשם 'Strike Strike'. למבוא קצר של המשחק הזה ואת כלליה, עיין זו README .

מתחת לממשק המשתמש של האפליקציה, בנינו סוכן שמשחק נגד השחקן האנושי. הסוכן הוא MLP בעל 3 שכבות הלוקח את מצב הלוח כקלט ומפיק את הציון החזוי עבור כל אחד מ -64 תאי הלוח האפשריים. המודל הוא אימן באמצעות שיפוע מדיניות (לחזק) ואתה יכול למצוא את קוד אימון כאן . לאחר הכשרת הסוכן, אנו ממירים את הדגם ל- TFLite ונפרוס אותו באפליקציית Android.

במהלך המשחק בפועל באפליקציית אנדרואיד, כאשר תורו של הסוכן לפעול, הסוכן מסתכל על מצב הלוח של השחקן האנושי (הלוח בתחתית), המכיל מידע על שביתות מוצלחות ולא מוצלחות קודמות (פגיעות והחמצות) , ומשתמש במודל המאומן כדי לחזות היכן להכות אחר כך, כך שהוא יוכל לסיים את המשחק לפני שהשחקן האנושי יעשה זאת.

אמות מידה לביצועים

מספרי benchmark ביצועים נוצרים עם הכלי המתואר כאן .

שם המודל גודל הדגם התקן מעבד
שיפוע מדיניות 84 Kb פיקסל 3 (אנדרואיד 10) 0.01ms *
פיקסל 4 (אנדרואיד 10) 0.01ms *

* 1 חוטים בשימוש.

תשומות

המודל מקבל 3-D float32 טנזור (1, 8, 8) כמדינת הלוח.

תפוקות

המודל מחזירה 2-D float32 מותח של הצורה (1,64) לדיווח ציוני החזוי עבור כל של 64 עמדות שביתה אפשרית.

תאמן את המודל שלך

אתה יכול לאמן את המודל משלך לוח גדול / קטן יותר על ידי שינוי BOARD_SIZE פרמטר קוד האימונים .