O componente de pipeline do TFX ExemploValidator

O componente de pipeline ExampleValidator identifica anomalias nos dados de treinamento e exibição. Ele pode detectar diferentes classes de anomalias nos dados. Por exemplo pode:

  1. execute verificações de validade comparando estatísticas de dados com um esquema que codifica as expectativas do usuário.
  2. detecte desvios de treinamento e serviço comparando dados de treinamento e serviço.
  3. detectar desvios de dados observando uma série de dados.
  4. execute validações personalizadas usando uma configuração baseada em SQL.

O componente de pipeline ExampleValidator identifica quaisquer anomalias nos dados de exemplo comparando estatísticas de dados calculadas pelo componente de pipeline StatisticsGen com um esquema. O esquema inferido codifica as propriedades que se espera que os dados de entrada satisfaçam e pode ser modificado pelo desenvolvedor.

  • Consome: um esquema de um componente SchemaGen e estatísticas de um componente StatisticsGen.
  • Emite: resultados de validação

Validação de dados ExampleValidator e TensorFlow

ExampleValidator faz uso extensivo da validação de dados do TensorFlow para validar seus dados de entrada.

Usando o componente ExampleValidator

Um componente de pipeline ExampleValidator geralmente é muito fácil de implantar e requer pouca personalização. O código típico se parece com isso:

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Mais detalhes estão disponíveis na referência da API ExampleValidator .