¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

El componente de canalización de StatisticsGen TFX

El componente de canalización de StatisticsGen TFX genera estadísticas de características sobre los datos de entrenamiento y servicio, que pueden ser utilizados por otros componentes de canalización. StatisticsGen usa Beam para escalar a grandes conjuntos de datos.

  • Consume: conjuntos de datos creados por un componente de canalización de ExampleGen.
  • Emite: estadísticas del conjunto de datos.

Validación de datos de StatisticsGen y TensorFlow

StatisticsGen hace un uso extensivo de la validación de datos de TensorFlow para generar estadísticas a partir de su conjunto de datos.

Uso del componente StatsGen

Un componente de canalización de StatisticsGen suele ser muy fácil de implementar y requiere poca personalización. El código típico se ve así:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Uso del componente StatsGen con un esquema

Para la primera ejecución de una canalización, la salida de StatisticsGen se utilizará para inferir un esquema. Sin embargo, en ejecuciones posteriores, es posible que tenga un esquema seleccionado manualmente que contenga información adicional sobre su conjunto de datos. Al proporcionar este esquema a StatisticsGen, TFDV puede proporcionar estadísticas más útiles basadas en las propiedades declaradas de su conjunto de datos.

En esta configuración, invocará StatisticsGen con un esquema seleccionado que ha sido importado por un ImporterNode como este:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Crear un esquema curado

Schema en TFX es una instancia del protocolo de Schema metadatos de TensorFlow. Esto se puede componer en formato de texto desde cero. Sin embargo, es más fácil utilizar el esquema inferido producido por SchemaGen como punto de partida. Una vez que se haya ejecutado el componente SchemaGen , el esquema se ubicará debajo de la raíz de la tubería en la siguiente ruta:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Donde <artifact_id> representa un ID único para esta versión del esquema en MLMD. Este proto de esquema se puede modificar para comunicar información sobre el conjunto de datos que no se puede inferir de manera confiable, lo que hará que la salida de StatisticsGen más útil y la validación realizada en el componente ExampleValidator más estricta.

Hay más detalles disponibles en la referencia de API de StatisticsGen .