Rejoignez la communauté SIG TFX-Addons et contribuez à rendre TFX encore meilleur ! Rejoignez SIG TFX-Addons

Le composant de pipeline SchemaGen TFX

Certains composants TFX utilisent une description de vos données d'entrée appelée schéma . Le schéma est une instance de schema.proto . Il peut spécifier des types de données pour les valeurs d'entité, si une entité doit être présente dans tous les exemples, les plages de valeurs autorisées et d'autres propriétés. Un composant de pipeline SchemaGen générera automatiquement un schéma en déduisant des types, des catégories et des plages à partir des données d'entraînement.

  • Consomme: statistiques d'un composant StatisticsGen
  • Émet: proto de schéma de données

Voici un extrait d'un proto de schéma:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Les bibliothèques TFX suivantes utilisent le schéma:

  • Validation des données TensorFlow
  • Transformation TensorFlow
  • Analyse du modèle TensorFlow

Dans un pipeline TFX typique, SchemaGen génère un schéma, qui est consommé par les autres composants du pipeline.

Validation des données SchemaGen et TensorFlow

SchemaGen utilise largement TensorFlow Data Validation pour déduire un schéma.

Utilisation du composant SchemaGen

Un composant de pipeline SchemaGen est généralement très facile à déployer et nécessite peu de personnalisation. Le code typique ressemble à ceci:

infer_schema = SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Plus de détails sont disponibles dans la référence de l'API SchemaGen .