Le composant de pipeline StatisticsGen TFX

Le composant de pipeline StatisticsGen TFX génère des statistiques de fonctionnalités sur les données de formation et de diffusion, qui peuvent être utilisées par d'autres composants de pipeline. StatisticsGen utilise Beam pour s'adapter à de grands ensembles de données.

  • Consomme : ensembles de données créés par un composant de pipeline ExempleGen.
  • Émet : statistiques sur l'ensemble de données.

Validation des données StatisticsGen et TensorFlow

StatisticsGen utilise largement la validation des données TensorFlow pour générer des statistiques à partir de votre ensemble de données.

Utilisation du composant StatsGen

Un composant de pipeline StatisticsGen est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci :

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Utilisation du composant StatsGen avec un schéma

Pour la première exécution d'un pipeline, la sortie de StatisticsGen sera utilisée pour déduire un schéma. Cependant, lors des exécutions ultérieures, vous pouvez disposer d'un schéma organisé manuellement contenant des informations supplémentaires sur votre ensemble de données. En fournissant ce schéma à StatisticsGen, TFDV peut fournir des statistiques plus utiles basées sur les propriétés déclarées de votre ensemble de données.

Dans ce paramètre, vous invoquerez StatisticsGen avec un schéma organisé qui a été importé par un ImporterNode comme ceci :

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Création d'un schéma organisé

Schema dans TFX est une instance du proto Schema de métadonnées TensorFlow. Celui-ci peut être composé au format texte à partir de zéro. Cependant, il est plus facile d’utiliser le schéma déduit produit par SchemaGen comme point de départ. Une fois le composant SchemaGen exécuté, le schéma sera situé sous la racine du pipeline dans le chemin suivant :

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

<artifact_id> représente un ID unique pour cette version du schéma dans MLMD. Ce prototype de schéma peut ensuite être modifié pour communiquer des informations sur l'ensemble de données qui ne peuvent pas être déduites de manière fiable, ce qui rendra la sortie de StatisticsGen plus utile et la validation effectuée dans le composant ExampleValidator plus stricte.

Plus de détails sont disponibles dans la référence de l'API StatisticsGen .