Le composant de pipeline TFX SampleValidator

Le composant de pipeline ExempleValidator identifie les anomalies dans la formation et la diffusion des données. Il peut détecter différentes classes d'anomalies dans les données. Il peut par exemple :

  1. effectuer des contrôles de validité en comparant les statistiques des données à un schéma qui codifie les attentes de l'utilisateur.
  2. détecter le décalage entre la formation et la diffusion en comparant les données de formation et de diffusion.
  3. détecter la dérive des données en examinant une série de données.
  4. effectuer des validations personnalisées à l'aide d'une configuration basée sur SQL.

Le composant de pipeline ExempleValidator identifie toutes les anomalies dans les exemples de données en comparant les statistiques de données calculées par le composant de pipeline StatisticsGen avec un schéma. Le schéma déduit codifie les propriétés que les données d'entrée sont censées satisfaire et peut être modifié par le développeur.

  • Consomme : un schéma d'un composant SchemaGen et des statistiques d'un composant StatisticsGen.
  • Émet : résultats de validation

Validation des données SampleValidator et TensorFlow

SampleValidator utilise largement la validation des données TensorFlow pour valider vos données d'entrée.

Utilisation du composant SampleValidator

Un composant de pipeline ExempleValidator est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Plus de détails sont disponibles dans la référence de l'API SampleValidator .