Le composant de pipeline TFX de StatisticsGen

Le composant de pipeline StatisticsGen TFX génère des statistiques de fonctionnalités sur les données d'entraînement et de service, qui peuvent être utilisées par d'autres composants de pipeline. StatisticsGen utilise Beam pour s'adapter à de grands ensembles de données.

  • Consomme : des ensembles de données créés par un composant de pipeline ExampleGen.
  • Émet : statistiques de l'ensemble de données.

Validation des données StatisticsGen et TensorFlow

StatisticsGen fait un usage intensif de tensorflow Validation des données pour générer des statistiques de votre ensemble de données.

Utilisation du composant StatsGen

Un composant de pipeline StatisticsGen est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Utilisation du composant StatsGen avec un schéma

Pour la première exécution d'un pipeline, la sortie de StatisticsGen sera utilisée pour déduire un schéma. Cependant, lors des exécutions suivantes, vous pouvez avoir un schéma organisé manuellement qui contient des informations supplémentaires sur votre ensemble de données. En fournissant ce schéma à StatisticsGen, TFDV peut fournir des statistiques plus utiles basées sur les propriétés déclarées de votre ensemble de données.

Dans ce paramètre, vous invoquerez StatisticsGen avec un schéma organisé qui a été importé par un ImporterNode comme ceci :

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Création d'un schéma organisé

Schema dans TFX est une instance de métadonnées tensorflow Schema proto . Cela peut être composé en format texte à partir de zéro. Cependant, il est plus facile d'utiliser le schéma déduit produit par SchemaGen comme point de départ. Une fois que le SchemaGen composant a exécuté, le schéma sera situé sous la racine de pipeline dans le chemin suivant:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

<artifact_id> représente un identifiant unique pour cette version du schéma dans MLMD. Ce proto de schéma peut être modifié pour communiquer des informations sur l'ensemble de données qui ne peut pas être fiable déduit, ce qui fera la sortie de StatisticsGen plus utile et la validation effectuée dans le ExampleValidator composante plus strictes.

Plus de détails sont disponibles dans la référence API StatisticsGen .