Классификация текстов

Используйте модель TensorFlow Lite, чтобы распределить абзац по предопределенным группам.

Начать

Если вы новичок в TensorFlow Lite и работаете с Android, мы рекомендуем изучить руководство по библиотеке задач TensorFlow Lite , чтобы интегрировать модели классификации текста всего в несколько строк кода. Вы также можете интегрировать модель с помощью Java API TensorFlow Lite Interpreter .

В приведенном ниже примере Android демонстрируется реализация обоих методов как lib_task_api и lib_interpreter соответственно.

Пример Android

Если вы используете платформу, отличную от Android, или уже знакомы с API-интерфейсами TensorFlow Lite, вы можете загрузить нашу начальную модель классификации текста.

Скачать стартовую модель

Как это работает

Классификация текста распределяет абзац по заранее определенным группам в зависимости от его содержания.

Эта предварительно обученная модель предсказывает, будет ли настроение абзаца положительным или отрицательным. Он был обучен на большом наборе данных обзора фильмов v1.0 от Mass et al, который состоит из обзоров фильмов IMDB, помеченных как положительные или отрицательные.

Вот шаги для классификации абзаца по модели:

Маркируйте абзац и преобразуйте его в список идентификаторов слов, используя предопределенный словарь.
Передайте список модели TensorFlow Lite.
Получите вероятность того, что абзац будет положительным или отрицательным, на основе выходных данных модели.

Примечание

Поддерживается только английский.
Эта модель была обучена на наборе данных обзоров фильмов, поэтому точность классификации текста из других доменов может снизиться.

Тесты производительности

Показатели производительности генерируются с помощью инструмента, описанного здесь .

Название модели	Размер модели	Устройство	Процессор
Классификация текста	0,6 Мб	Пиксель 3 (Андроид 10)	0,05 мс*
		Пиксель 4 (Андроид 10)	0,05 мс*
		iPhone XS (iOS 12.4.1)	0,025 мс**

* Использовано 4 нити.

** На iPhone используются 2 потока для достижения наилучшего результата.

Пример вывода

Текст	Отрицательный (0)	Позитивный (1)
Это лучший фильм, который я видел за последние годы. Настоятельно рекомендую!	25,3%	74,7%
Что за трата моего времени.	72,5%	27,5%

Используйте свой набор обучающих данных

Следуйте этому руководству , чтобы применить ту же технику, что и здесь, для обучения модели классификации текста с использованием ваших собственных наборов данных. Имея правильный набор данных, вы можете создать модель для таких случаев использования, как категоризация документов или обнаружение токсичных комментариев.

Подробнее о классификации текста

Встраивание слов и руководство по обучению этой модели