La journée communautaire ML est le 9 novembre ! Rejoignez - nous pour les mises à jour de tensorflow, JAX et plus En savoir plus

Signatures communes pour le texte

Cette page décrit les signatures communes qui devraient être mises en œuvre par des modules dans le format de Hub TF1 pour les tâches qui acceptent les entrées de texte. (Pour le format de TF2 SavedModel , voir l'analogue API SavedModel .)

Vecteur de fonction de texte

Un module fonction de texte vectoriel crée une dense représentation vectorielle de caractéristiques du texte. Il accepte un lot de chaînes de forme [batch_size] et les cartes à un float32 tenseur de forme [batch_size, N] . Ceci est souvent appelé texte en intégrant la dimension N .

Utilisation de base

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

Utilisation de la colonne de fonctionnalité

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

Remarques

Les modules ont été pré-formés sur différents domaines et/ou tâches, et par conséquent, tous les modules vectoriels de caractéristiques de texte ne conviendraient pas à votre problème. Ex : certains modules auraient pu être formés sur une seule langue.

Cette interface ne permet pas d'affiner la représentation du texte sur les TPU, car elle nécessite que le module instancie à la fois le traitement des chaînes et les variables pouvant être entraînées.