Bantuan melindungi Great Barrier Reef dengan TensorFlow pada Kaggle Bergabung Tantangan

Pembelajaran Penguatan

Mainkan permainan papan melawan agen, yang dilatih menggunakan pembelajaran penguatan dan diterapkan dengan TensorFlow Lite.

Memulai

Jika Anda baru mengenal TensorFlow Lite dan bekerja dengan Android, sebaiknya jelajahi contoh aplikasi berikut yang dapat membantu Anda memulai.

Contoh Android

Jika Anda menggunakan platform selain Android, atau Anda sudah akrab dengan API TensorFlow Lite , Anda dapat men-download model kami yang terlatih.

Unduh model

Bagaimana itu bekerja

Model ini dibuat untuk agen game untuk memainkan permainan papan kecil yang disebut 'Plane Strike'. Untuk pengenalan singkat tentang game ini dan aturan, silakan lihat ini README .

Di bawah UI aplikasi, kami telah membangun agen yang bermain melawan pemain manusia. Agen adalah MLP 3-lapisan yang mengambil status papan sebagai input dan mengeluarkan skor prediksi untuk masing-masing dari 64 kemungkinan sel papan. Model ini dilatih menggunakan gradien kebijakan (MEMPERKUAT) dan Anda dapat menemukan kode pelatihan di sini . Setelah melatih agen, kami mengonversi model menjadi TFLite dan menerapkannya di aplikasi Android.

Selama permainan sebenarnya di aplikasi Android, ketika giliran agen untuk mengambil tindakan, agen melihat status papan pemain manusia (papan di bagian bawah), yang berisi informasi tentang serangan yang berhasil dan gagal sebelumnya (hit dan miss) , dan menggunakan model terlatih untuk memprediksi di mana harus menyerang selanjutnya, sehingga dapat menyelesaikan permainan sebelum pemain manusia melakukannya.

Tolok ukur kinerja

Nomor tolok ukur kinerja yang dihasilkan dengan alat yang dijelaskan di sini .

Nama model Ukuran model Alat CPU
Gradien Kebijakan 84 Kb Piksel 3 (Android 10) 0,01 ms*
Piksel 4 (Android 10) 0,01 ms*

* 1 utas digunakan.

Masukan

Model ini menerima 3-D float32 Tensor dari (1, 8, 8) sebagai negara papan.

Keluaran

Model mengembalikan 2-D float32 Tensor bentuk (1,64) sebagai nilai prediksi untuk masing-masing 64 posisi pemogokan mungkin.

Latih model Anda sendiri

Anda bisa melatih model sendiri untuk lebih besar / papan kecil dengan perubahan BOARD_SIZE parameter dalam kode pelatihan .