Rejoignez la communauté SIG TFX-Addons et contribuez à rendre TFX encore meilleur ! Rejoignez SIG TFX-Addons

Le composant de pipeline StatisticsGen TFX

Le composant de pipeline StatisticsGen TFX génère des statistiques de fonctionnalités sur les données d'entraînement et de diffusion, qui peuvent être utilisées par d'autres composants de pipeline. StatisticsGen utilise Beam pour s'adapter à de grands ensembles de données.

  • Consomme: ensembles de données créés par un composant de pipeline ExampleGen.
  • Émet: statistiques de l'ensemble de données.

Validation des données StatisticsGen et TensorFlow

StatisticsGen fait un usage intensif de la validation des données TensorFlow pour générer des statistiques à partir de votre ensemble de données.

Utilisation du composant StatsGen

Un composant de pipeline StatisticsGen est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Utilisation du composant StatsGen avec un schéma

Pour la première exécution d'un pipeline, la sortie de StatisticsGen sera utilisée pour déduire un schéma. Cependant, lors des exécutions suivantes, vous pouvez avoir un schéma organisé manuellement qui contient des informations supplémentaires sur votre ensemble de données. En fournissant ce schéma à StatisticsGen, TFDV peut fournir des statistiques plus utiles basées sur les propriétés déclarées de votre ensemble de données.

Dans ce paramètre, vous invoquerez StatisticsGen avec un schéma organisé qui a été importé par un ImporterNode comme ceci:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Créer un schéma organisé

Schema dans TFX est une instance du proto de Schema métadonnées TensorFlow. Cela peut être composé au format texte à partir de zéro. Cependant, il est plus facile d'utiliser le schéma déduit produit par SchemaGen comme point de départ. Une fois le composant SchemaGen exécuté, le schéma sera situé sous la racine du pipeline dans le chemin suivant:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

<artifact_id> représente un ID unique pour cette version du schéma dans MLMD. Ce schéma proto peut ensuite être modifié pour communiquer des informations sur l'ensemble de données qui ne peuvent pas être inférées de manière fiable, ce qui rendra la sortie de StatisticsGen plus utile et la validation effectuée dans le composant ExampleValidator plus stricte.

Plus de détails sont disponibles dans la référence de l'API StatisticsGen .