Tham dự Hội nghị chuyên đề Women in ML vào ngày 7 tháng 12 Đăng ký ngay

Phân loại văn bản

Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Sử dụng mô hình TensorFlow Lite để phân loại một đoạn văn thành các nhóm được xác định trước.

Bắt đầu

Nếu bạn chưa quen với TensorFlow Lite và đang làm việc với Android, chúng tôi khuyên bạn nên khám phá hướng dẫn của Thư viện tác vụ TensorFLow Lite để tích hợp các mô hình phân loại văn bản chỉ trong một vài dòng mã. Bạn cũng có thể tích hợp mô hình bằng API Java của Trình thông dịch TensorFlow Lite .

Ví dụ Android bên dưới minh họa cách triển khai cho cả hai phương thức là lib_task_apilib_interpreter , tương ứng.

Ví dụ về Android

Nếu bạn đang sử dụng nền tảng không phải Android hoặc bạn đã quen thuộc với các API TensorFlow Lite, bạn có thể tải xuống mô hình phân loại văn bản dành cho người mới bắt đầu của chúng tôi.

Tải xuống mô hình khởi động

Làm thế nào nó hoạt động

Phân loại văn bản phân loại một đoạn văn thành các nhóm được xác định trước dựa trên nội dung của nó.

Mô hình đào tạo trước này dự đoán xem cảm xúc của một đoạn văn là tích cực hay tiêu cực. Nó đã được đào tạo về Tập dữ liệu đánh giá phim lớn v1.0 từ Mass et al, bao gồm các đánh giá phim IMDB được gắn nhãn là tích cực hoặc tiêu cực.

Dưới đây là các bước để phân loại một đoạn văn với mô hình:

  1. Mã hóa đoạn văn và chuyển nó thành danh sách id từ bằng cách sử dụng từ vựng được xác định trước.
  2. Cung cấp danh sách vào mô hình TensorFlow Lite.
  3. Lấy xác suất của đoạn là dương hoặc âm từ kết quả đầu ra của mô hình.

Ghi chú

  • Chỉ hỗ trợ tiếng Anh.
  • Mô hình này đã được đào tạo về tập dữ liệu đánh giá phim nên bạn có thể bị giảm độ chính xác khi phân loại văn bản của các miền khác.

Điểm chuẩn hiệu suất

Số chuẩn hiệu suất được tạo bằng công cụ được mô tả ở đây .

Tên Model Kích thước mô hình Thiết bị CPU
Phân loại văn bản 0,6 Mb Pixel 3 (Android 10) 0,05 mili giây *
Pixel 4 (Android 10) 0,05 mili giây *
iPhone XS (iOS 12.4.1) 0,025 mili giây **

* 4 chủ đề được sử dụng.

** 2 luồng được sử dụng trên iPhone để có kết quả hoạt động tốt nhất.

Ví dụ đầu ra

Chữ Tiêu cực (0) Tích cực (1)
Đây là bộ phim hay nhất mà tôi xem trong những năm gần đây. Thực sự giới thiệu nó! 25,3% 74,7%
Thật là một sự lãng phí thời gian của tôi. 72,5% 27,5%

Sử dụng tập dữ liệu đào tạo của bạn

Làm theo hướng dẫn này để áp dụng kỹ thuật tương tự được sử dụng ở đây để đào tạo mô hình phân loại văn bản bằng cách sử dụng bộ dữ liệu của riêng bạn. Với tập dữ liệu phù hợp, bạn có thể tạo mô hình cho các trường hợp sử dụng như phân loại tài liệu hoặc phát hiện nhận xét độc hại.

Đọc thêm về phân loại văn bản