概要概要
TensorFlow Model Analysis(TFMA)は、モデル評価を実行するためのライブラリです。
- 対象:機械学習エンジニアまたはデータサイエンティスト
- 誰が:TensorFlowモデルを分析して理解したい
- それは:スタンドアロンライブラリまたはTFXパイプラインのコンポーネントです
- つまり、トレーニングで定義されたのと同じメトリックで、分散した方法で大量のデータのモデルを評価します。これらのメトリックはデータのスライス全体で比較され、JupyterまたはColabノートブックで視覚化されます。
- とは異なり:モデルイントロスペクションを提供するテンソルボードなどの一部のモデルイントロスペクションツール
TFMAは、 Apache Beamを使用して、大量のデータに対して分散して計算を実行します。次のセクションでは、基本的なTFMA評価パイプラインを設定する方法について説明します。基盤となる実装の詳細については、アーキテクチャを参照してください。
飛び込んで始めたいだけなら、私たちのcolabノートブックをチェックしてください。
このページは、 tensorflow.orgからも表示できます。
サポートされているモデルタイプ
TFMAは、テンソルフローベースのモデルをサポートするように設計されていますが、他のフレームワークもサポートするように簡単に拡張できます。歴史的に、TFMAが必要EvalSavedModel
TFMAを使用するために作成されますが、TFMAの最新バージョンは、ユーザーのニーズに応じて、モデルの複数のタイプをサポートしています。 EvalSavedModelの設定は、 tf.estimator
ベースのモデルが使用され、カスタムトレーニング時間メトリックが必要な場合にのみ必要です。
TFMAはサービングモデルに基づいて実行されるようになったため、TFMAはトレーニング時に追加されたメトリックを自動的に評価しなくなりました。この場合の例外は、kerasが保存されたモデルと一緒に使用されるメトリックを保存するため、kerasモデルが使用される場合です。ただし、これが難しい要件である場合は、最新のTFMAに下位互換性があるため、 EvalSavedModel
をTFMAパイプラインで実行できます。
次の表は、デフォルトでサポートされているモデルをまとめたものです。
モデルタイプ | トレーニング時間の指標 | トレーニング後の指標 |
---|---|---|
TF2(ケラス) | Y * | Y |
TF2(ジェネリック) | 該当なし | Y |
EvalSavedModel(推定量) | Y | Y |
なし(pd.DataFrameなど) | 該当なし | Y |
- トレーニング時間メトリックは、トレーニング時に定義され、モデル(TFMA EvalSavedModelまたはkeras保存モデル)とともに保存されたメトリックを指します。トレーニング後のメトリックは、
tfma.MetricConfig
を介して追加されたメトリックを指します。 - 汎用TF2モデルは、推論に使用できる署名をエクスポートするカスタムモデルであり、kerasまたはestimatorのいずれにも基づいていません。
これらの異なるモデルタイプをセットアップおよび構成する方法の詳細については、 FAQを参照してください。
セットアップ
評価を実行する前に、少量のセットアップが必要です。最初に、 tfma.EvalConfig
されるモデル、メトリック、およびスライスの仕様を提供するtfma.EvalConfig
オブジェクトを定義する必要があります。次に、評価中に使用される実際のモデルを指すtfma.EvalSharedModel
を作成する必要があります。これらが定義されると、適切なデータセットをtfma.run_model_analysis
してtfma.run_model_analysis
を呼び出して評価が実行されます。詳細については、セットアップガイドを参照してください。
TFXパイプライン内で実行している場合は、TFXエバリュエーターコンポーネントとして実行するようにTFMAを構成する方法について、TFXガイドを参照してください。
例
単一モデルの評価
以下では、 tfma.run_model_analysis
を使用して、サービングモデルの評価を実行します。必要なさまざまな設定の説明については、セットアップガイドを参照してください。
# Run in a Jupyter Notebook.
from google.protobuf import text_format
eval_config = text_format.Parse("""
## Model information
model_specs {
# This assumes a serving model with a "serving_default" signature.
label_key: "label"
example_weight_key: "weight"
}
## Post export metric information
metrics_specs {
# This adds AUC and as a post training metric. If the model has built in
# training metrics which also contains AUC, this metric will replace it.
metrics { class_name: "AUC" }
# ... other post training metrics ...
# Plots are also configured here...
metrics { class_name: "ConfusionMatrixPlot" }
}
## Slicing information
slicing_specs {} # overall slice
slicing_specs {
feature_keys: ["age"]
}
""", tfma.EvalConfig())
eval_shared_model = tfma.default_eval_shared_model(
eval_saved_model_path='/path/to/saved/model', eval_config=eval_config)
eval_result = tfma.run_model_analysis(
eval_shared_model=eval_shared_model,
eval_config=eval_config,
# This assumes your data is a TFRecords file containing records in the
# tf.train.Example format.
data_location='/path/to/file/containing/tfrecords',
output_path='/path/for/output')
tfma.view.render_slicing_metrics(eval_result)
分散評価の場合、分散ランナーを使用してApacheBeamパイプラインを構築します。パイプラインで、 tfma.ExtractEvaluateAndWriteResults
を使用して評価し、結果を書き出します。結果は、 tfma.load_eval_result
を使用して視覚化するためにロードできます。
例えば:
# To run the pipeline.
from google.protobuf import text_format
from tfx_bsl.tfxio import tf_example_record
eval_config = text_format.Parse("""
## Model information
model_specs {
# This assumes a serving model with a "serving_default" signature.
label_key: "label"
example_weight_key: "weight"
}
## Post export metric information
metrics_specs {
# This adds AUC and as a post training metric. If the model has built in
# training metrics which also contains AUC, this metric will replace it.
metrics { class_name: "AUC" }
# ... other post training metrics ...
# Plots are also configured here...
metrics { class_name: "ConfusionMatrixPlot" }
}
## Slicing information
slicing_specs {} # overall slice
slicing_specs {
feature_keys: ["age"]
}
""", tfma.EvalConfig())
eval_shared_model = tfma.default_eval_shared_model(
eval_saved_model_path='/path/to/saved/model', eval_config=eval_config)
output_path = '/path/for/output'
tfx_io = tf_example_record.TFExampleRecord(
file_pattern=data_location, raw_record_column_name=tfma.ARROW_INPUT_COLUMN)
with beam.Pipeline(runner=...) as p:
_ = (p
# You can change the source as appropriate, e.g. read from BigQuery.
# This assumes your data is a TFRecords file containing records in the
# tf.train.Example format. If using EvalSavedModel then use the following
# instead: 'ReadData' >> beam.io.ReadFromTFRecord(file_pattern=...)
| 'ReadData' >> tfx_io.BeamSource()
| 'ExtractEvaluateAndWriteResults' >>
tfma.ExtractEvaluateAndWriteResults(
eval_shared_model=eval_shared_model,
eval_config=eval_config,
output_path=output_path))
# To load and visualize results.
# Note that this code should be run in a Jupyter Notebook.
result = tfma.load_eval_result(output_path)
tfma.view.render_slicing_metrics(result)
モデルの検証
候補とベースラインに対してモデル検証を実行するには、構成を更新してしきい値設定を含め、2つのモデルをtfma.run_model_analysis
ます。
例えば:
# Run in a Jupyter Notebook.
from google.protobuf import text_format
eval_config = text_format.Parse("""
## Model information
model_specs {
# This assumes a serving model with a "serving_default" signature.
label_key: "label"
example_weight_key: "weight"
}
## Post export metric information
metrics_specs {
# This adds AUC and as a post training metric. If the model has built in
# training metrics which also contains AUC, this metric will replace it.
metrics {
class_name: "AUC"
threshold {
value_threshold {
lower_bound { value: 0.9 }
}
change_threshold {
direction: HIGHER_IS_BETTER
absolute { value: -1e-10 }
}
}
}
# ... other post training metrics ...
# Plots are also configured here...
metrics { class_name: "ConfusionMatrixPlot" }
}
## Slicing information
slicing_specs {} # overall slice
slicing_specs {
feature_keys: ["age"]
}
""", tfma.EvalConfig())
eval_shared_models = [
tfma.default_eval_shared_model(
model_name=tfma.CANDIDATE_KEY,
eval_saved_model_path='/path/to/saved/candiate/model',
eval_config=eval_config),
tfma.default_eval_shared_model(
model_name=tfma.BASELINE_KEY,
eval_saved_model_path='/path/to/saved/baseline/model',
eval_config=eval_config),
]
output_path = '/path/for/output'
eval_result = tfma.run_model_analysis(
eval_shared_models,
eval_config=eval_config,
# This assumes your data is a TFRecords file containing records in the
# tf.train.Example format.
data_location='/path/to/file/containing/tfrecords',
output_path=output_path)
tfma.view.render_slicing_metrics(eval_result)
tfma.load_validation_result(output_path)
視覚化
TFMAの評価結果は、TFMAに含まれているフロントエンドコンポーネントを使用して、Jupyterノートブックで視覚化できます。例えば:
。