Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Các công cụ xử lý văn bản cho TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Chạy trong Notebook

TensorFlow cung cấp cho bạn một bộ sưu tập phong phú các hoạt động và thư viện để giúp bạn làm việc với đầu vào ở dạng văn bản, chẳng hạn như chuỗi văn bản thô hoặc tài liệu. Các thư viện này có thể thực hiện tiền xử lý thường xuyên theo yêu cầu của các mô hình dựa trên văn bản và bao gồm các tính năng khác hữu ích cho việc lập mô hình trình tự.

Bạn có thể trích xuất các tính năng văn bản ngữ nghĩa và cú pháp mạnh mẽ từ bên trong biểu đồ TensorFlow làm đầu vào cho mạng thần kinh của bạn.

Tích hợp tiền xử lý với biểu đồ TensorFlow cung cấp các lợi ích sau:

  • Tạo điều kiện cho một bộ công cụ lớn để làm việc với văn bản
  • Cho phép tích hợp với một bộ công cụ Tensorflow lớn để hỗ trợ các dự án từ xác định vấn đề thông qua đào tạo, đánh giá và khởi chạy
  • Giảm độ phức tạp trong thời gian phục vụ và ngăn chặn sự lệch hướng phục vụ đào tạo

Ngoài những điều trên, bạn không cần phải lo lắng về việc token hóa trong đào tạo sẽ khác với token hóa khi suy luận hoặc quản lý các tập lệnh tiền xử lý.

Kiến trúc mô hình
Tìm hiểu cách thực hiện tiền xử lý BERT end-to-end trên văn bản.
Tìm hiểu cách tạo từ vựng cho từ khóa phụ từ văn bản.
Tìm hiểu cách phân loại văn bản với mô hình BERT.
Phân loại văn bản bằng cách sử dụng Mạng thần kinh lặp lại.
Sử dụng mô hình Máy biến áp để dịch văn bản.
Tìm hiểu cách dịch văn bản với các mô hình trình tự.