Unisciti alla comunità SIG TFX-Addons e contribuisci a rendere TFX ancora migliore!

Il componente della pipeline TFX StatisticsGen

Il componente della pipeline StatisticsGen TFX genera statistiche sulle funzionalità sia sull'addestramento che sui dati di elaborazione, che possono essere utilizzate da altri componenti della pipeline. StatisticsGen utilizza Beam per scalare a set di dati di grandi dimensioni.

  • Consume: set di dati creati da un componente pipeline ExampleGen.
  • Emette: statistiche del set di dati.

Convalida dei dati StatisticsGen e TensorFlow

StatisticsGen fa un uso estensivo di TensorFlow Data Validation per generare statistiche dal tuo set di dati.

Utilizzo del componente StatsGen

Un componente della pipeline StatisticsGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico ha questo aspetto:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Utilizzo del componente StatsGen con uno schema

Per la prima esecuzione di una pipeline, l'output di StatisticsGen verrà utilizzato per dedurre uno schema. Tuttavia, nelle esecuzioni successive potresti avere uno schema curato manualmente che contiene informazioni aggiuntive sul tuo set di dati. Fornendo questo schema a StatisticsGen, TFDV può fornire statistiche più utili basate sulle proprietà dichiarate del set di dati.

In questa impostazione, richiamerai StatisticsGen con uno schema curato che è stato importato da un ImporterNode come questo:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Creazione di uno schema curato

Schema in TFX è un'istanza del protocollo TensorFlow Metadata Schema . Questo può essere composto in formato testo da zero. Tuttavia, è più semplice utilizzare lo schema dedotto prodotto da SchemaGen come punto di partenza. Una volta SchemaGen componente SchemaGen , lo schema si troverà sotto la radice della pipeline nel seguente percorso:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Dove <artifact_id> rappresenta un ID univoco per questa versione dello schema in MLMD. Questo protocollo di schema può quindi essere modificato per comunicare informazioni sul set di dati che non possono essere dedotte in modo affidabile, il che renderà l'output di StatisticsGen più utile e la convalida eseguita nel componente ExampleValidator più rigorosa.

Maggiori dettagli sono disponibili nel riferimento API StatisticsGen .