StatisticsGen TFXパイプラインコンポーネントは、他のパイプラインコンポーネントで使用できる、トレーニングデータとサービングデータの両方に関する特徴統計を生成します。 StatisticsGenは、Beamを使用して大規模なデータセットにスケーリングします。
- 消費:ExampleGenパイプラインコンポーネントによって作成されたデータセット。
- 放出:データセット統計。
StatisticsGenおよびTensorFlowデータの検証
StatisticsGenは、広範囲に使用可能TensorFlowデータの検証データセットからの統計情報を生成するために。
StatsGenコンポーネントの使用
StatisticsGenパイプラインコンポーネントは通常、展開が非常に簡単で、カスタマイズはほとんど必要ありません。典型的なコードは次のようになります。
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
スキーマでのStatsGenコンポーネントの使用
パイプラインの最初の実行では、StatisticsGenの出力を使用してスキーマを推測します。ただし、その後の実行では、データセットに関する追加情報を含む手動でキュレーションされたスキーマが存在する場合があります。このスキーマをStatisticsGenに提供することにより、TFDVは、データセットの宣言されたプロパティに基づいてより有用な統計を提供できます。
この設定では、次のようにImporterNodeによってインポートされたキュレートされたスキーマを使用してStatisticsGenを呼び出します。
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
キュレーションされたスキーマの作成
Schema
TFXではTensorFlowメタデータのインスタンスであるSchema
プロト。これはで構成することができ、テキスト形式ゼロから。しかし、によって生成推論スキーマを使用する方が簡単であるSchemaGen
出発点として。一旦SchemaGen
コンポーネントが実行され、スキーマは次のパスにパイプライン・ルートの下に配置されます。
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
ここで、 <artifact_id>
MLMDにおけるスキーマのこのバージョンのためのユニークなIDを表します。このスキーマプロトは、その後の出力になります確実に推測することができないデータセットに関する情報を通信するために修飾することができるStatisticsGen
より有用とで行われる検証ExampleValidator
より厳格なコンポーネント。
詳細はで利用可能なStatisticsGen APIリファレンス。