Il componente della pipeline TFX di StatisticsGen

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Il componente della pipeline TFX di StatisticsGen genera statistiche sulle funzionalità sia sui dati di addestramento che di servizio, che possono essere utilizzati da altri componenti della pipeline. StatisticsGen utilizza Beam per scalare in set di dati di grandi dimensioni.

  • Consuma: set di dati creati da un componente della pipeline di ExampleGen.
  • Emette: statistiche del set di dati.

Convalida dati StatisticsGen e TensorFlow

StatisticsGen fa ampio uso di tensorflow convalida dei dati per la generazione di statistiche dal set di dati.

Utilizzo del componente StatsGen

Un componente della pipeline StatisticsGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico è simile a questo:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Utilizzo del componente StatsGen con uno schema

Per la prima esecuzione di una pipeline, l'output di StatisticsGen verrà utilizzato per dedurre uno schema. Tuttavia, nelle esecuzioni successive potresti avere uno schema curato manualmente che contiene informazioni aggiuntive sul tuo set di dati. Fornendo questo schema a StatisticsGen, TFDV può fornire statistiche più utili basate sulle proprietà dichiarate del tuo set di dati.

In questa impostazione, invocherai StatisticsGen con uno schema curato che è stato importato da un ImporterNode in questo modo:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Creazione di uno schema curato

Schema in TFX è un'istanza della tensorflow metadati Schema proto . Questo può essere composto in formato testo da zero. Tuttavia, è più facile da utilizzare lo schema dedotto prodotta da SchemaGen come punto di partenza. Una volta che lo SchemaGen componente ha eseguito, lo schema sarà situato sotto la radice condotta nel seguente percorso:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Dove <artifact_id> rappresenta un ID univoco per questa versione dello schema in MLMD. Questo proto schema può quindi essere modificata per comunicare informazioni circa il set di dati che non può essere dedotta in modo affidabile, che renderà l'uscita del StatisticsGen più utile e la validazione eseguita in ExampleValidator componente più severe.

Maggiori dettagli sono disponibili nel riferimento API StatisticsGen .