Tanda Tangan Umum untuk Teks

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Halaman ini menjelaskan tanda tangan umum yang harus dilaksanakan oleh modul dalam format yang TF1 Hub untuk tugas-tugas yang menerima input teks. (Untuk format yang TF2 SavedModel , melihat analog SavedModel API .)

Vektor fitur teks

Sebuah modul vektor fitur text menciptakan representasi vektor padat dari fitur teks. Ia menerima batch string dari bentuk [batch_size] dan peta mereka ke float32 tensor bentuk [batch_size, N] . Hal ini sering disebut teks embedding dalam dimensi N .

Penggunaan dasar

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

Penggunaan kolom fitur

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

Catatan

Modul telah dilatih sebelumnya pada domain dan/atau tugas yang berbeda, dan oleh karena itu tidak semua modul vektor fitur teks cocok untuk masalah Anda. Misalnya: beberapa modul dapat dilatih dalam satu bahasa.

Antarmuka ini tidak memungkinkan penyesuaian representasi teks pada TPU, karena memerlukan modul untuk membuat instance pemrosesan string dan variabel yang dapat dilatih secara bersamaan.