تعزيز التعلُّم

العب لعبة لوحية ضد عميل تم تدريبه باستخدام التعلم المعزز ونشره باستخدام TensorFlow Lite.

البدء

إذا كنت مستخدمًا جديدًا لـ TensorFlow Lite وتعمل مع Android، فنوصيك باستكشاف التطبيق النموذجي التالي الذي يمكن أن يساعدك على البدء.

مثال أندرويد

إذا كنت تستخدم نظامًا أساسيًا غير Android، أو كنت على دراية بواجهات برمجة التطبيقات TensorFlow Lite ، فيمكنك تنزيل نموذجنا المدرب.

تحميل النموذج

كيف تعمل

تم تصميم النموذج لكي يلعب وكيل اللعبة لعبة لوحية صغيرة تسمى "Plane Strike". للحصول على مقدمة سريعة عن هذه اللعبة وقواعدها، يرجى الرجوع إلى هذا الملف التمهيدي .

أسفل واجهة مستخدم التطبيق، قمنا ببناء عميل يلعب ضد اللاعب البشري. الوكيل عبارة عن MLP مكون من 3 طبقات يأخذ حالة اللوحة كمدخل ويخرج النتيجة المتوقعة لكل خلية من خلايا اللوحة المحتملة البالغ عددها 64 خلية. تم تدريب النموذج باستخدام تدرج السياسة (REINFORCE) ويمكنك العثور على كود التدريب هنا . بعد تدريب الوكيل، نقوم بتحويل النموذج إلى TFLite ونشره في تطبيق Android.

أثناء اللعب الفعلي للعبة في تطبيق Android، عندما يحين دور الوكيل لاتخاذ إجراء، ينظر الوكيل إلى حالة لوحة اللاعب البشري (اللوحة في الأسفل)، والتي تحتوي على معلومات حول الضربات الناجحة وغير الناجحة السابقة (الضربات والأخطاء) ، ويستخدم النموذج المُدرب للتنبؤ بمكان الضربة التالية، حتى يتمكن من إنهاء اللعبة قبل أن يفعلها اللاعب البشري.

معايير الأداء

يتم إنشاء أرقام قياس الأداء باستخدام الأداة الموضحة هنا .

اسم النموذج	حجم النموذج	جهاز	وحدة المعالجة المركزية
التدرج في السياسة	84 كيلو بايت	بكسل 3 (أندرويد 10)	0.01 مللي ثانية*
التدرج في السياسة	84 كيلو بايت	بكسل 4 (أندرويد 10)	0.01 مللي ثانية*

* 1 المواضيع المستخدمة.

المدخلات

يقبل النموذج موتر float32 ثلاثي الأبعاد (1، 8، 8) كحالة اللوحة.

النواتج

يقوم النموذج بإرجاع موتر ثنائي الأبعاد float32 للشكل (1،64) كالدرجات المتوقعة لكل موقع من مواقع الضربة المحتملة البالغ عددها 64 موضعًا.

تدريب النموذج الخاص بك

يمكنك تدريب النموذج الخاص بك على لوحة أكبر/أصغر عن طريق تغيير المعلمة BOARD_SIZE في كود التدريب .