¿Preguntas sobre TFX? ¡Únase a nosotros en Google I / O!
Se usó la API de Cloud Translation para traducir esta página.
Switch to English

El componente de canalización de SchemaGen TFX

Algunos componentes TFX utilizan una descripción de sus datos de entrada denominada esquema . El esquema es una instancia de schema.proto . Puede especificar tipos de datos para valores de características, si una característica debe estar presente en todos los ejemplos, rangos de valores permitidos y otras propiedades. Un componente de canalización de SchemaGen generará automáticamente un esquema al inferir tipos, categorías y rangos de los datos de entrenamiento.

  • Consume: estadísticas de un componente StatisticsGen
  • Emite: esquema de datos proto

Aquí hay un extracto de un proto de esquema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Las siguientes bibliotecas TFX utilizan el esquema:

  • Validación de datos de TensorFlow
  • Transformación de TensorFlow
  • Análisis del modelo de TensorFlow

En una canalización TFX típica, SchemaGen genera un esquema, que es consumido por los otros componentes de la canalización.

Validación de datos de SchemaGen y TensorFlow

SchemaGen hace un uso extensivo de la validación de datos de TensorFlow para inferir un esquema.

Uso del componente SchemaGen

Un componente de canalización de SchemaGen suele ser muy fácil de implementar y requiere poca personalización. El código típico se ve así:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])