Bu sayfa, Cloud Translation API ile çevrilmiştir.
Switch to English

StatisticsGen TFX Pipeline Bileşeni

StatisticsGen TFX işlem hattı bileşeni, hem eğitim hem de sunum verileri üzerinde özellik istatistikleri üretir ve bu, diğer boru hattı bileşenleri tarafından kullanılabilir. StatisticsGen, büyük veri kümelerini ölçeklendirmek için Beam kullanır.

  • Tüketim: Bir ExampleGen işlem hattı bileşeni tarafından oluşturulan veri kümeleri.
  • Yayınlar: Veri kümesi istatistikleri.

StatisticsGen ve TensorFlow Veri Doğrulaması

StatisticsGen, veri kümenizden istatistik oluşturmak için TensorFlow Veri Doğrulamasını kapsamlı bir şekilde kullanır.

StatsGen Bileşenini Kullanma

Bir StatisticsGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

StatsGen Bileşenini Şema ile Kullanma

Bir ardışık düzeneğin ilk çalıştırması için, StatisticsGen çıktısı bir şema çıkarmak için kullanılacaktır. Ancak, sonraki çalıştırmalarda, veri kümeniz hakkında ek bilgiler içeren manuel olarak seçilmiş bir şemanız olabilir. Bu şemayı StatisticsGen'e sağlayan TFDV, veri kümenizin bildirilen özelliklerine dayalı olarak daha kullanışlı istatistikler sağlayabilir.

Bu ayarda, aşağıdaki gibi bir ImporterNode tarafından içe aktarılan özel bir şema ile StatisticsGen'i çağıracaksınız:

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Seçilmiş Şema Oluşturma

Schema Tfx içinde TensorFlow Meta bir örneğidir Schema proto . Bu, sıfırdan metin biçiminde oluşturulabilir. Bununla birlikte, SchemaGen tarafından üretilen çıkarsanmış şemayı başlangıç ​​noktası olarak kullanmak daha kolaydır. SchemaGen bileşeni yürütüldüğünde, şema aşağıdaki yolda işlem hattı kökünün altına yerleştirilecektir:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

<artifact_id> , MLMD'de şemanın bu sürümü için benzersiz bir kimliği temsil eder. Bu şema protokolü daha sonra güvenilir bir şekilde çıkarılamayan veri kümesi hakkındaki bilgileri iletmek için değiştirilebilir, bu da StatisticsGen çıktısını daha kullanışlı hale getirir ve ExampleValidator bileşeninde gerçekleştirilen doğrulamayı daha katı hale ExampleValidator .