Các công cụ xử lý văn bản cho TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsChạy trong Notebook
TensorFlow cung cấp cho bạn một bộ sưu tập phong phú các hoạt động và thư viện để giúp bạn làm việc với đầu vào ở dạng văn bản, chẳng hạn như chuỗi văn bản thô hoặc tài liệu. Các thư viện này có thể thực hiện tiền xử lý thường xuyên theo yêu cầu của các mô hình dựa trên văn bản và bao gồm các tính năng khác hữu ích cho việc lập mô hình trình tự.
Bạn có thể trích xuất các tính năng văn bản ngữ nghĩa và cú pháp mạnh mẽ từ bên trong biểu đồ TensorFlow làm đầu vào cho mạng thần kinh của bạn.
Tích hợp tiền xử lý với biểu đồ TensorFlow cung cấp các lợi ích sau:
- Tạo điều kiện cho một bộ công cụ lớn để làm việc với văn bản
- Cho phép tích hợp với một bộ công cụ Tensorflow lớn để hỗ trợ các dự án từ xác định vấn đề thông qua đào tạo, đánh giá và khởi chạy
- Giảm độ phức tạp trong thời gian phục vụ và ngăn chặn sự lệch hướng phục vụ đào tạo
Ngoài những điều trên, bạn không cần phải lo lắng về việc token hóa trong đào tạo sẽ khác với token hóa khi suy luận hoặc quản lý các tập lệnh tiền xử lý.
