Помогают защитить Большой Барьерный Риф с TensorFlow на Kaggle Присоединяйтесь вызов

Обучение с подкреплением

Сыграйте в настольную игру против агента, который обучен с использованием обучения с подкреплением и развернут с помощью TensorFlow Lite.

Начать

Если вы новичок в TensorFlow Lite и работаете с Android, мы рекомендуем изучить следующий пример приложения, которое поможет вам начать работу.

Пример Android

Если вы используете платформу, кроме Android, или вы уже знакомы с API , TensorFlow Lite , вы можете скачать нашу обученную модель.

Скачать модель

Как это работает

Модель создана для того, чтобы игровой агент играл в небольшую настольную игру под названием «Удар самолета». Для быстрого введения этой игры и ее правил, пожалуйста , обратитесь к этой README .

Под пользовательским интерфейсом приложения мы создали агента, который играет против игрока-человека. Агент представляет собой трехуровневый MLP, который принимает состояние платы в качестве входных данных и выводит прогнозируемую оценку для каждой из 64 возможных ячеек платы. Модель обучена с использованием градиента политики (армирующий) , и вы можете найти учебный код здесь . После обучения агента мы конвертируем модель в TFLite и развертываем ее в приложении для Android.

Во время реальной игры в приложении для Android, когда наступает очередь агента действовать, агент смотрит на состояние доски игрока-человека (доска внизу), которая содержит информацию о предыдущих успешных и неудачных ударах (попаданиях и промахах). , и использует обученную модель, чтобы предсказать, где нанести следующий удар, чтобы она могла закончить игру раньше, чем это сделает игрок-человек.

Тесты производительности

Номера тестов производительности создаются с помощью инструмента , описанного здесь .

Название модели Размер модели Устройство Процессор
Градиент политики 84 Кб Pixel 3 (Android 10) 0,01 мс *
Pixel 4 (Android 10) 0,01 мс *

* Используется 1 резьба.

Входы

Модель принимает 3-D float32 тензор (1, 8, 8) , как состояние платы.

Выходы

Модель возвращает 2-D float32 тензор формы (1,64) в виде предсказанных баллов для каждого из 64 возможных позиций удара.

Тренируйте свою собственную модель

Вы можете тренировать свою собственную модель для большей / меньшей борту изменить BOARD_SIZE параметр в учебном коде .