Chữ ký chung cho văn bản

Trang này mô tả các chữ ký chung cần được triển khai bởi các mô-đun ở định dạng Hub TF1 cho các tác vụ chấp nhận đầu vào văn bản. (Đối với định dạng TF2 SavingModel , hãy xem API SavingModel tương tự .)

Vectơ đặc trưng văn bản

Mô-đun vectơ đặc trưng văn bản tạo ra biểu diễn vectơ dày đặc từ các đặc điểm văn bản. Nó chấp nhận một loạt các chuỗi có hình dạng [batch_size] và ánh xạ chúng tới một tensor float32 có hình dạng [batch_size, N] . Điều này thường được gọi là nhúng văn bản vào chiều N

Cách sử dụng cơ bản

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

Cách sử dụng cột tính năng

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

Ghi chú

Các mô-đun đã được đào tạo trước về các miền và/hoặc nhiệm vụ khác nhau và do đó, không phải mọi mô-đun vectơ đặc trưng văn bản đều phù hợp với vấn đề của bạn. Ví dụ: một số mô-đun có thể được đào tạo bằng một ngôn ngữ duy nhất.

Giao diện này không cho phép tinh chỉnh cách biểu diễn văn bản trên TPU, vì nó yêu cầu mô-đun khởi tạo cả xử lý chuỗi và các biến có thể huấn luyện cùng một lúc.