Le composant de pipeline TFX ExampleValidator

Le composant de pipeline ExampleValidator identifie les anomalies dans les données de formation et de diffusion. Il peut détecter différentes classes d'anomalies dans les données. Par exemple, il peut :

  1. effectuer des contrôles de validité en comparant les statistiques de données à un schéma qui codifie les attentes de l'utilisateur.
  2. détecter l'asymétrie formation-service en comparant les données de formation et de service.
  3. détecter la dérive des données en examinant une série de données.
  4. effectuer des validations personnalisées à l'aide d'une configuration basée sur SQL.

Le composant de pipeline ExampleValidator identifie toute anomalie dans les exemples de données en comparant les statistiques de données calculées par le composant de pipeline StatisticsGen à un schéma. Le schéma déduit codifie les propriétés que les données d'entrée sont censées satisfaire et peut être modifié par le développeur.

  • Consomme : un schéma d'un composant SchemaGen et des statistiques d'un composant StatisticsGen.
  • Emet : Résultats de la validation

ExampleValidator et TensorFlow Validation des données

ExampleValidator utilise largement TensorFlow Data Validation pour valider vos données d'entrée.

Utilisation du composant ExampleValidator

Un composant de pipeline ExampleValidator est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Plus de détails sont disponibles dans la référence de l' API ExampleValidator .