Phân loại văn bản

Sử dụng mô hình TensorFlow Lite để phân loại một đoạn văn thành các nhóm được xác định trước.

Bắt đầu

Nếu bạn chưa quen với TensorFlow Lite và đang làm việc với Android, chúng tôi khuyên bạn nên khám phá hướng dẫn về Thư viện tác vụ TensorFlow Lite để tích hợp các mô hình phân loại văn bản chỉ trong vài dòng mã. Bạn cũng có thể tích hợp mô hình bằng cách sử dụng API Java của Trình thông dịch TensorFlow Lite .

Ví dụ về Android bên dưới minh họa cách triển khai cho cả hai phương thức lần lượt là lib_task_apilib_interpreter .

Ví dụ về Android

Nếu bạn đang sử dụng nền tảng không phải Android hoặc đã quen với API TensorFlow Lite, bạn có thể tải xuống mô hình phân loại văn bản khởi đầu của chúng tôi.

Tải xuống mô hình khởi đầu

Làm thế nào nó hoạt động

Phân loại văn bản phân loại một đoạn văn thành các nhóm được xác định trước dựa trên nội dung của nó.

Mô hình được đào tạo trước này dự đoán cảm xúc của một đoạn văn là tích cực hay tiêu cực. Nó được đào tạo trên Tập dữ liệu đánh giá phim lớn v1.0 của Mass và cộng sự, bao gồm các bài đánh giá phim IMDB được gắn nhãn là tích cực hoặc tiêu cực.

Dưới đây là các bước để phân loại một đoạn văn với mô hình:

  1. Mã hóa đoạn văn và chuyển nó thành danh sách id từ bằng cách sử dụng từ vựng được xác định trước.
  2. Đưa danh sách vào mô hình TensorFlow Lite.
  3. Lấy xác suất đoạn văn đó là dương hoặc âm từ kết quả đầu ra của mô hình.

Ghi chú

  • Chỉ có tiếng Anh được hỗ trợ.
  • Mô hình này đã được đào tạo về tập dữ liệu đánh giá phim nên bạn có thể gặp phải tình trạng giảm độ chính xác khi phân loại văn bản của các miền khác.

Điểm chuẩn hiệu suất

Số điểm chuẩn hiệu suất được tạo bằng công cụ được mô tả ở đây .

Tên mẫu Kích thước mô hình Thiết bị CPU
Phân loại văn bản 0,6 Mb Pixel 3 (Android 10) 0,05 mili giây*
Pixel 4 (Android 10) 0,05 mili giây*
iPhone XS (iOS 12.4.1) 0,025 mili giây**

* 4 chủ đề được sử dụng.

** 2 luồng được sử dụng trên iPhone để có kết quả hoạt động tốt nhất.

Đầu ra ví dụ

Chữ Tiêu cực (0) Tích cực (1)
Đây là bộ phim hay nhất tôi xem trong những năm gần đây. Thực sự khuyên bạn nên nó! 25,3% 74,7%
Thật là một sự lãng phí thời gian của tôi. 72,5% 27,5%

Sử dụng tập dữ liệu đào tạo của bạn

Hãy làm theo hướng dẫn này để áp dụng kỹ thuật tương tự được sử dụng ở đây để huấn luyện mô hình phân loại văn bản bằng cách sử dụng bộ dữ liệu của riêng bạn. Với tập dữ liệu phù hợp, bạn có thể tạo mô hình cho các trường hợp sử dụng như phân loại tài liệu hoặc phát hiện nhận xét độc hại.

Đọc thêm về phân loại văn bản