Il componente della pipeline TFX di StatisticsGen genera statistiche sulle funzionalità sia sui dati di addestramento che di servizio, che possono essere utilizzati da altri componenti della pipeline. StatisticsGen utilizza Beam per scalare in set di dati di grandi dimensioni.
- Consuma: set di dati creati da un componente della pipeline di ExampleGen.
- Emette: statistiche del set di dati.
Convalida dati StatisticsGen e TensorFlow
StatisticsGen fa ampio uso di tensorflow convalida dei dati per la generazione di statistiche dal set di dati.
Utilizzo del componente StatsGen
Un componente della pipeline StatisticsGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico è simile a questo:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Utilizzo del componente StatsGen con uno schema
Per la prima esecuzione di una pipeline, l'output di StatisticsGen verrà utilizzato per dedurre uno schema. Tuttavia, nelle esecuzioni successive potresti avere uno schema curato manualmente che contiene informazioni aggiuntive sul tuo set di dati. Fornendo questo schema a StatisticsGen, TFDV può fornire statistiche più utili basate sulle proprietà dichiarate del tuo set di dati.
In questa impostazione, invocherai StatisticsGen con uno schema curato che è stato importato da un ImporterNode in questo modo:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Creazione di uno schema curato
Schema
in TFX è un'istanza della tensorflow metadati Schema
proto . Questo può essere composto in formato testo da zero. Tuttavia, è più facile da utilizzare lo schema dedotto prodotta da SchemaGen
come punto di partenza. Una volta che lo SchemaGen
componente ha eseguito, lo schema sarà situato sotto la radice condotta nel seguente percorso:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Dove <artifact_id>
rappresenta un ID univoco per questa versione dello schema in MLMD. Questo proto schema può quindi essere modificata per comunicare informazioni circa il set di dati che non può essere dedotta in modo affidabile, che renderà l'uscita del StatisticsGen
più utile e la validazione eseguita in ExampleValidator
componente più severe.
Maggiori dettagli sono disponibili nel riferimento API StatisticsGen .