ExampleValidator TFX パイプライン コンポーネント

ExampleValidator パイプライン コンポーネントは、トレーニング データとサービング データの異常を識別します。データ内のさまざまなクラスの異常を検出できます。たとえば、次のことができます。

  1. ユーザーの期待を成文化したスキーマに対してデータ統計を比較することにより、有効性チェックを実行します。
  2. トレーニング データとサービング データを比較して、トレーニング/サービング スキューを検出します。
  3. 一連のデータを見て、データのドリフトを検出します。
  4. SQL ベースの構成を使用してカスタム検証を実行します。

ExampleValidator パイプライン コンポーネントは、StatisticsGen パイプライン コンポーネントによって計算されたデータ統計をスキーマと比較することにより、サンプル データの異常を識別します。推論されたスキーマは、入力データが満たすことが期待されるプロパティを体系化し、開発者が変更できます。

  • 消費: SchemaGen コンポーネントからのスキーマ、および StatisticsGen コンポーネントからの統計。
  • エミット: 検証結果

ExampleValidator と TensorFlow のデータ検証

ExampleValidator は、入力データを検証するためにTensorFlow Data Validationを広範囲に使用します。

ExampleValidator コンポーネントの使用

ExampleValidator パイプライン コンポーネントは通常、デプロイが非常に簡単で、カスタマイズはほとんど必要ありません。典型的なコードは次のようになります。

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

詳細については、 ExampleValidator API リファレンスを参照してください。