O componente de pipeline do TFX ExemploValidator

O componente de pipeline ExampleValidator identifica anomalias no treinamento e no fornecimento de dados. Ele pode detectar diferentes classes de anomalias nos dados. Por exemplo, pode:

  1. realizar verificações de validade comparando estatísticas de dados com um esquema que codifica as expectativas do usuário.
  2. detecte distorções no fornecimento de treinamento comparando dados de treinamento e fornecimento.
  3. detectar desvios de dados observando uma série de dados.
  4. execute validações personalizadas usando uma configuração baseada em SQL.

O componente de pipeline ExampleValidator identifica quaisquer anomalias nos dados de exemplo comparando estatísticas de dados calculadas pelo componente de pipeline StatisticsGen com um esquema. O esquema inferido codifica propriedades que se espera que os dados de entrada satisfaçam e podem ser modificados pelo desenvolvedor.

  • Consome: um esquema de um componente SchemaGen e estatísticas de um componente StatisticsGen.
  • Emite: resultados de validação

Exemplo de validação de dados do TensorFlow e Validator

ExampleValidator faz uso extensivo da validação de dados do TensorFlow para validar seus dados de entrada.

Usando o componente ExemploValidator

Um componente de pipeline ExampleValidator normalmente é muito fácil de implantar e requer pouca personalização. O código típico é assim:

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Mais detalhes estão disponíveis na referência da API ExampleValidator .