Tanda Tangan Umum untuk Teks

Halaman ini menjelaskan tanda tangan umum yang harus diterapkan oleh modul dalam format TF1 Hub untuk tugas yang menerima input teks. (Untuk format TF2 SavedModel , lihat analogi SavedModel API .)

Vektor fitur teks

Modul vektor fitur teks membuat representasi vektor padat dari fitur teks. Ia menerima sekumpulan string berbentuk [batch_size] dan memetakannya ke tensor bentuk float32 [batch_size, N] . Ini sering disebut penyematan teks dalam dimensi N .

Penggunaan dasar

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

Penggunaan kolom fitur

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

Catatan

Modul telah dilatih sebelumnya pada domain dan/atau tugas yang berbeda, dan oleh karena itu tidak semua modul vektor fitur teks cocok untuk masalah Anda. Misalnya: beberapa modul bisa saja dilatih dalam satu bahasa.

Antarmuka ini tidak memungkinkan penyesuaian representasi teks pada TPU, karena memerlukan modul untuk membuat instance pemrosesan string dan variabel yang dapat dilatih secara bersamaan.