StatisticsGen TFX işlem hattı bileşeni, hem eğitim hem de sunum verileri üzerinde özellik istatistikleri üretir ve bu, diğer boru hattı bileşenleri tarafından kullanılabilir. StatisticsGen, büyük veri kümelerini ölçeklendirmek için Beam kullanır.
- Tüketim: Bir ExampleGen işlem hattı bileşeni tarafından oluşturulan veri kümeleri.
- Yayınlar: Veri kümesi istatistikleri.
StatisticsGen ve TensorFlow Veri Doğrulaması
StatisticsGen, veri kümenizden istatistik oluşturmak için TensorFlow Veri Doğrulamasını kapsamlı bir şekilde kullanır.
StatsGen Bileşenini Kullanma
Bir StatisticsGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:
from tfx import components
...
compute_eval_stats = components.StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
StatsGen Bileşenini Şema ile Kullanma
Bir ardışık düzeneğin ilk çalıştırması için, StatisticsGen çıktısı bir şema çıkarmak için kullanılacaktır. Ancak, sonraki çalıştırmalarda, veri kümeniz hakkında ek bilgiler içeren manuel olarak seçilmiş bir şemanız olabilir. Bu şemayı StatisticsGen'e sağlayan TFDV, veri kümenizin bildirilen özelliklerine dayalı olarak daha kullanışlı istatistikler sağlayabilir.
Bu ayarda, aşağıdaki gibi bir ImporterNode tarafından içe aktarılan özel bir şema ile StatisticsGen'i çağıracaksınız:
from tfx import components
from tfx.types import standard_artifacts
...
user_schema_importer = components.ImporterNode(
instance_name='import_user_schema',
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema)
compute_eval_stats = components.StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Seçilmiş Şema Oluşturma
Schema
Tfx içinde TensorFlow Meta bir örneğidir Schema
proto . Bu, sıfırdan metin biçiminde oluşturulabilir. Bununla birlikte, SchemaGen
tarafından üretilen çıkarsanmış şemayı başlangıç noktası olarak kullanmak daha kolaydır. SchemaGen
bileşeni yürütüldüğünde, şema aşağıdaki yolda işlem hattı kökünün altına yerleştirilecektir:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
<artifact_id>
, MLMD'de şemanın bu sürümü için benzersiz bir kimliği temsil eder. Bu şema protokolü daha sonra güvenilir bir şekilde çıkarılamayan veri kümesi hakkındaki bilgileri iletmek için değiştirilebilir, bu da StatisticsGen
çıktısını daha kullanışlı hale getirir ve ExampleValidator
bileşeninde gerçekleştirilen doğrulamayı daha katı hale ExampleValidator
.