Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

Классификация текстов

Используйте модель TensorFlow Lite, чтобы разделить абзац на предопределенные группы.

Начать

Если вы новичок в TensorFlow Lite и работаете с Android, мы рекомендуем изучить руководство по библиотеке задач TensorFLow Lite , чтобы интегрировать модели классификации текста всего в несколько строк кода. Вы также можете интегрировать модель с помощью TensorFlow Lite Interpreter Java API .

Пример Android ниже демонстрирует реализацию обоих методов как lib_task_api и lib_interpreter соответственно.

Пример Android

Если вы используете платформу, отличную от Android, или уже знакомы с API-интерфейсами TensorFlow Lite, вы можете загрузить нашу начальную модель классификации текста.

Скачать стартовую модель

Как это устроено

Классификация текста разделяет абзац на предопределенные группы в зависимости от его содержания.

Эта предварительно обученная модель предсказывает, будет ли тональность абзаца положительной или отрицательной. Он был обучен на большом наборе данных обзора фильмов v1.0 от Mass et al, который состоит из обзоров фильмов IMDB, помеченных как положительные или отрицательные.

Вот шаги для классификации абзаца с моделью:

  1. Разметьте абзац и преобразуйте его в список идентификаторов слов, используя предопределенный словарь.
  2. Передайте список модели TensorFlow Lite.
  3. Получите вероятность того, что абзац будет положительным или отрицательным из выходных данных модели.

Примечание

  • Поддерживается только английский язык.
  • Эта модель была обучена на наборе данных обзоров фильмов, поэтому вы можете столкнуться со снижением точности при классификации текстов других доменов.

Тесты производительности

Цифры эталонных показателей производительности генерируются с помощью описанного здесь инструмента.

Название модели Размер модели Устройство Процессор
Текстовая классификация 0,6 Мб Пиксель 3 (Андроид 10) 0,05 мс*
Пиксель 4 (Андроид 10) 0,05 мс*
iPhone XS (iOS 12.4.1) 0,025 мс**

* Использованы 4 нити.

** На iPhone используются 2 потока для наилучшего результата производительности.

Пример вывода

Текст Отрицательный (0) Положительный (1)
Это лучший фильм, который я видел за последние годы. Настоятельно рекомендую! 25,3% 74,7%
Что за трата моего времени. 72,5% 27,5%

Используйте свой обучающий набор данных

Следуйте этому руководству , чтобы применить тот же метод, который используется здесь, для обучения модели классификации текста с использованием ваших собственных наборов данных. С правильным набором данных вы можете создать модель для таких вариантов использования, как категоризация документов или обнаружение токсичных комментариев.

Подробнее о классификации текста