¡Google I / O regresa del 18 al 20 de mayo! Reserva espacio y crea tu horario Regístrate ahora

Firmas comunes para texto

Esta página describe las firmas comunes que deben implementar los módulos en el formato TF1 Hub para tareas que aceptan entradas de texto. (Para el formato TF2 SavedModel , consulte la API de SavedModel análoga).

Vector de características de texto

Un módulo de vector de características de texto crea una representación vectorial densa a partir de características de texto. Acepta un lote de cadenas de shape [batch_size] y las asigna a un tensor float32 de shape [batch_size, N] . Esto a menudo se denomina incrustación de texto en la dimensión N

Uso básico

  embed = hub.Module("path/to/module")
  representations = embed([
      "A long sentence.",
      "single-word",
      "http://example.com"])

Uso de la columna de funciones

    feature_columns = [
      hub.text_embedding_column("comment", "path/to/module", trainable=False),
    ]
    input_fn = tf.estimator.inputs.numpy_input_fn(features, labels, shuffle=True)
    estimator = tf.estimator.DNNClassifier(hidden_units, feature_columns)
    estimator.train(input_fn, max_steps=100)

Notas

Los módulos han sido entrenados previamente en diferentes dominios y / o tareas y, por lo tanto, no todos los módulos vectoriales de características de texto serían adecuados para su problema. Por ejemplo: algunos módulos podrían haber sido entrenados en un solo idioma.

Esta interfaz no permite el ajuste fino de la representación de texto en las TPU, porque requiere que el módulo instancia tanto el procesamiento de cadenas como las variables entrenables al mismo tiempo.