Google I / Oが5月18〜20日に戻ってきます。スペースを予約してスケジュールを作成する今すぐ登録する

テキストの一般的な署名

このページでは、テキスト入力を受け入れるタスクのTF1ハブ形式でモジュールによって実装される必要がある一般的な署名について説明します。 ( TF2 SavedModel形式については、類似のSavedModel APIを参照してください。)

テキスト特徴ベクトル

テキスト特徴ベクトルモジュールは、テキスト特徴から高密度のベクトル表現を作成します。形状[batch_size]文字列のバッチを受け入れ、それらを形状[batch_size, N] float32テンソルにマップします。これは、次元Nへのテキスト埋め込みと呼ばれることがよくあります

基本的な使い方

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

機能列の使用法

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

ノート

モジュールはさまざまなドメインやタスクで事前にトレーニングされているため、すべてのテキスト特徴ベクトルモジュールが問題に適しているとは限りません。例:一部のモジュールは、単一の言語でトレーニングされている可能性があります。

このインターフェイスでは、モジュールが文字列処理とトレーニング可能な変数の両方を同時にインスタンス化する必要があるため、TPUでのテキスト表現の微調整はできません。