このページは Cloud Translation API によって翻訳されました。

SchemaGen TFX パイプラインコンポーネント

一部の TFX コンポーネントは、スキーマと呼ばれる入力データの記述を使用します。スキーマはschema.protoのインスタンスです。特徴値のデータ型、すべての例に特徴が存在する必要があるかどうか、許容される値の範囲、その他のプロパティを指定できます。 SchemaGen パイプラインコンポーネントは、トレーニングデータからタイプ、カテゴリ、および範囲を推測することによってスキーマを自動的に生成します。

消費するもの: StatisticsGen コンポーネントからの統計情報
出力: データスキーマプロト

以下はスキーマプロトからの抜粋です。

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

次の TFX ライブラリはこのスキーマを使用します。

TensorFlow データの検証
TensorFlow 変換
TensorFlow モデル分析

一般的な TFX パイプラインでは、SchemaGen によってスキーマが生成され、他のパイプラインコンポーネントによって使用されます。ただし、自動生成されたスキーマはベストエフォート型であり、データの基本的なプロパティの推論のみを試みます。開発者が必要に応じてレビューし、変更することが期待されます。

変更されたスキーマは、ImportSchemaGen コンポーネントを使用してパイプラインに戻すことができます。初期スキーマ生成用の SchemaGen コンポーネントは削除でき、すべてのダウンストリームコンポーネントは ImportSchemaGen の出力を使用できます。インポートされたスキーマを使用してExampleValidatorを追加し、トレーニングデータを継続的に検査することもお勧めします。

SchemaGen と TensorFlow データの検証

SchemaGen は、スキーマを推論するためにTensorFlow Data Validationを広範囲に利用します。

SchemaGen コンポーネントの使用

初期スキーマ生成の場合

SchemaGen パイプラインコンポーネントは通常、非常に簡単にデプロイでき、カスタマイズはほとんど必要ありません。典型的なコードは次のようになります。

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

詳細については、 SchemaGen API リファレンスを参照してください。

レビューされたスキーマインポートの場合

ImportSchemaGen コンポーネントをパイプラインに追加して、レビューされたスキーマ定義をパイプラインに取り込みます。

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file 、テキスト protobuf ファイルへのフルパスである必要があります。

詳細については、 ImportSchemaGen API リファレンスを参照してください。

SchemaGen TFX パイプライン コンポーネント コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

SchemaGen と TensorFlow データの検証

SchemaGen コンポーネントの使用

初期スキーマ生成の場合

レビューされたスキーマインポートの場合

SchemaGen TFX パイプラインコンポーネント