Treten Sie der SIG TFX-Addons-Community bei und helfen Sie, TFX noch besser zu machen!

Die StatisticsGen TFX-Pipeline-Komponente

Die StatisticsGen TFX-Pipelinekomponente generiert Feature-Statistiken über Trainings- und Serving-Daten, die von anderen Pipeline-Komponenten verwendet werden können. StatisticsGen skaliert mit Beam auf große Datenmengen.

  • Verbrauch: Datasets, die von einer ExampleGen-Pipelinekomponente erstellt wurden.
  • Emits: Datensatzstatistik.

StatisticsGen- und TensorFlow-Datenvalidierung

StatisticsGen verwendet die TensorFlow-Datenvalidierung in großem Umfang, um Statistiken aus Ihrem Dataset zu generieren.

Verwenden der StatsGen-Komponente

Eine StatisticsGen-Pipelinekomponente ist normalerweise sehr einfach bereitzustellen und erfordert nur wenige Anpassungen. Typischer Code sieht folgendermaßen aus:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Verwenden der StatsGen-Komponente mit einem Schema

Beim ersten Durchlauf einer Pipeline wird die Ausgabe von StatisticsGen verwendet, um auf ein Schema zu schließen. Bei nachfolgenden Läufen haben Sie möglicherweise ein manuell kuratiertes Schema, das zusätzliche Informationen zu Ihrem Datensatz enthält. Durch die Bereitstellung dieses Schemas für StatisticsGen kann TFDV nützlichere Statistiken basierend auf den deklarierten Eigenschaften Ihres Datensatzes bereitstellen.

In dieser Einstellung rufen Sie StatisticsGen mit einem kuratierten Schema auf, das von einem ImporterNode wie folgt importiert wurde:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Erstellen eines kuratierten Schemas

Schema in TFX ist eine Instanz des TensorFlow Metadaten Schema Proto . Dies kann im Textformat von Grund auf neu erstellt werden. Es ist jedoch einfacher, das von SchemaGen erstellte abgeleitete Schema als Ausgangspunkt zu verwenden. Sobald die SchemaGen Komponente ausgeführt wurde, befindet sich das Schema unter dem Pipeline-Stamm im folgenden Pfad:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Wobei <artifact_id> eine eindeutige ID für diese Version des Schemas in MLMD darstellt. Dieses Schema-Proto kann dann geändert werden, um Informationen über das Dataset zu übermitteln, die nicht zuverlässig abgeleitet werden können. Dadurch wird die Ausgabe von StatisticsGen nützlicher und die in der ExampleValidator Komponente durchgeführte Validierung strenger.

Weitere Informationen finden Sie in der StatisticsGen-API-Referenz .