O componente do pipeline ExampleValidator identifica anomalias no treinamento e no fornecimento de dados. Ele pode detectar diferentes classes de anomalias nos dados. Por exemplo, pode:
- realizar verificações de validade comparando estatísticas de dados com um esquema que codifica as expectativas do usuário
- detecte o desvio de serviço de treinamento comparando os dados de treinamento e serviço.
- detectar o desvio de dados observando uma série de dados.
O componente de pipeline ExampleValidator identifica quaisquer anomalias nos dados de exemplo comparando as estatísticas de dados calculadas pelo componente de pipeline StatisticsGen em relação a um esquema. O esquema inferido codifica propriedades que se espera que os dados de entrada satisfaçam e podem ser modificados pelo desenvolvedor.
- Consome: Um esquema de um componente SchemaGen e estatísticas de um componente StatisticsGen.
- Emite: resultados de validação
Validação de dados de ExampleValidator e TensorFlow
O ExampleValidator faz uso extensivo do TensorFlow Data Validation para validar seus dados de entrada.
Usando o componente ExampleValidator
Um componente de pipeline ExampleValidator é normalmente muito fácil de implantar e requer pouca personalização. O código típico se parece com isto:
from tfx import components
...
validate_stats = components.ExampleValidator(
statistics=compute_eval_stats.outputs['statistics'],
schema=infer_schema.outputs['schema']
)