StatisticsGen TFX İşlem Hattı Bileşeni

StatisticsGen TFX ardışık düzen bileşeni, diğer işlem hattı bileşenleri tarafından kullanılabilen hem eğitim hem de hizmet verileri üzerinde özellik istatistikleri oluşturur. İstatistiklerGen, büyük veri kümelerine ölçeklendirmek için Beam'i kullanır.

  • Tüketimler: Bir ExampleGen işlem hattı bileşeni tarafından oluşturulan veri kümeleri.
  • Yayılanlar: Veri kümesi istatistikleri.

İstatistiklerGen ve TensorFlow Veri Doğrulaması

StatisticsGen geniş kullanımı yapar TensorFlow Veri Doğrulama sizin veri kümesi istatistikleri üretmek için.

StatsGen Bileşenini Kullanma

Bir StatisticsGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şöyle görünür:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

StatsGen Bileşenini Şemayla Kullanma

Bir işlem hattının ilk çalıştırması için, bir şema çıkarmak için StatisticsGen'in çıktısı kullanılacaktır. Ancak sonraki çalıştırmalarda, veri kümeniz hakkında ek bilgiler içeren manuel olarak seçilmiş bir şemanız olabilir. TFDV, bu şemayı StatisticsGen'e sağlayarak, veri kümenizin beyan edilen özelliklerine dayalı olarak daha faydalı istatistikler sağlayabilir.

Bu ayarda, şöyle bir ImporterNode tarafından içe aktarılmış seçilmiş bir şema ile StatisticsGen'i çağıracaksınız:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Seçilmiş Bir Şema Oluşturma

Schema Tfx içinde TensorFlow Meta bir örneğidir Schema proto . Bu teşkil edilebilir metin biçiminde sıfırdan. Ancak, üretilen anlaşılmaktadır şema kullanımı daha kolaydır SchemaGen bir başlangıç noktası olarak. Bir kez SchemaGen bileşeni yürüttü, şema aşağıdaki yolda boru hattı kök altında yer alacaktır:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Nerede <artifact_id> MLMD şemanın bu sürümü için benzersiz bir kimliği temsil eder. Bu şema proto daha sonra çıkış yapacak güvenilir çıkarsanamayacağına veri kümesi, hakkında bilgi iletişim için değiştirilebilir StatisticsGen daha kullanışlı ve gerçekleştirilen doğrulama ExampleValidator daha sıkı bir bileşen.

Daha fazla detay mevcuttur StatisticsGen API başvurusu .