MLコミュニティデーは11月9日です! TensorFlow、JAXからの更新のために私たちに参加し、より多くの詳細をご覧ください

TensorFlowモデル分析入門

概要概要

TensorFlow Model Analysis(TFMA)は、モデル評価を実行するためのライブラリです。

  • 対象:機械学習エンジニアまたはデータサイエンティスト
  • 誰が:TensorFlowモデルを分析して理解したい
  • それは:スタンドアロンライブラリまたはTFXパイプラインのコンポーネントです
  • つまり、トレーニングで定義されたのと同じメトリックで、分散した方法で大量のデータのモデルを評価します。これらのメトリックはデータのスライス全体で比較され、JupyterまたはColabノートブックで視覚化されます。
  • とは異なり:モデルイントロスペクションを提供するテンソルボードなどの一部のモデルイントロスペクションツール

TFMAは、 Apache Beamを使用して、大量のデータに対して分散して計算を実行します。次のセクションでは、基本的なTFMA評価パイプラインを設定する方法について説明します。基盤となる実装の詳細については、アーキテクチャを参照してください。

飛び込んで始めたいだけなら、私たちのcolabノートブックをチェックしてください。

このページは、 tensorflow.orgからも表示できます。

サポートされているモデルタイプ

TFMAは、テンソルフローベースのモデルをサポートするように設計されていますが、他のフレームワークもサポートするように簡単に拡張できます。歴史的に、TFMAが必要EvalSavedModel TFMAを使用するために作成されますが、TFMAの最新バージョンは、ユーザーのニーズに応じて、モデルの複数のタイプをサポートしています。 EvalSavedModelの設定は、 tf.estimatorベースのモデルが使用され、カスタムトレーニング時間メトリックが必要な場合にのみ必要です。

TFMAはサービングモデルに基づいて実行されるようになったため、TFMAはトレーニング時に追加されたメトリックを自動的に評価しなくなりました。この場合の例外は、kerasが保存されたモデルと一緒に使用されるメトリックを保存するため、kerasモデルが使用される場合です。ただし、これが難しい要件である場合は、最新のTFMAに下位互換性があるため、 EvalSavedModelをTFMAパイプラインで実行できます。

次の表は、デフォルトでサポートされているモデルをまとめたものです。

モデルタイプトレーニング時間の指標トレーニング後の指標
TF2(ケラス) Y * Y
TF2(ジェネリック)該当なしY
EvalSavedModel(推定量) Y Y
なし(pd.DataFrameなど)該当なしY
  • トレーニング時間メトリックは、トレーニング時に定義され、モデル(TFMA EvalSavedModelまたはkeras保存モデル)とともに保存されたメトリックを指します。トレーニング後のメトリックは、 tfma.MetricConfigを介して追加されたメトリックを指します。
  • 汎用TF2モデルは、推論に使用できる署名をエクスポートするカスタムモデルであり、kerasまたはestimatorのいずれにも基づいていません。

これらの異なるモデルタイプをセットアップおよび構成する方法の詳細については、 FAQを参照してください

セットアップ

評価を実行する前に、少量のセットアップが必要です。最初に、 tfma.EvalConfigされるモデル、メトリック、およびスライスの仕様を提供するtfma.EvalConfigオブジェクトを定義する必要があります。次に、評価中に使用される実際のモデルを指すtfma.EvalSharedModelを作成する必要があります。これらが定義されると、適切なデータセットをtfma.run_model_analysisしてtfma.run_model_analysisを呼び出して評価が実行されます。詳細については、セットアップガイドを参照してください。

TFXパイプライン内で実行している場合は、TFMAをTFXエバリュエーターコンポーネントとして実行するように構成する方法について、TFXガイドを参照してください。

単一モデルの評価

以下では、 tfma.run_model_analysisを使用して、サービングモデルの評価を実行します。必要なさまざまな設定の説明については、セットアップガイドを参照してください。

# Run in a Jupyter Notebook.
from google.protobuf import text_format

eval_config = text_format.Parse("""
  ## Model information
  model_specs {
    # This assumes a serving model with a "serving_default" signature.
    label_key: "label"
    example_weight_key: "weight"
  }
  ## Post export metric information
  metrics_specs {
    # This adds AUC and as a post training metric. If the model has built in
    # training metrics which also contains AUC, this metric will replace it.
    metrics { class_name: "AUC" }
    # ... other post training metrics ...

    # Plots are also configured here...
    metrics { class_name: "ConfusionMatrixPlot" }
  }
  ## Slicing information
  slicing_specs {}  # overall slice
  slicing_specs {
    feature_keys: ["age"]
  }
""", tfma.EvalConfig())

eval_shared_model = tfma.default_eval_shared_model(
    eval_saved_model_path='/path/to/saved/model', eval_config=eval_config)

eval_result = tfma.run_model_analysis(
    eval_shared_model=eval_shared_model,
    eval_config=eval_config,
    # This assumes your data is a TFRecords file containing records in the
    # tf.train.Example format.
    data_location='/path/to/file/containing/tfrecords',
    output_path='/path/for/output')

tfma.view.render_slicing_metrics(eval_result)

分散評価の場合、分散ランナーを使用してApacheBeamパイプラインを構築します。パイプラインで、 tfma.ExtractEvaluateAndWriteResultsを使用して評価し、結果を書き出します。結果は、 tfma.load_eval_resultを使用して視覚化するためにロードできます。

例えば:

# To run the pipeline.
from google.protobuf import text_format
from tfx_bsl.tfxio import tf_example_record

eval_config = text_format.Parse("""
  ## Model information
  model_specs {
    # This assumes a serving model with a "serving_default" signature.
    label_key: "label"
    example_weight_key: "weight"
  }
  ## Post export metric information
  metrics_specs {
    # This adds AUC and as a post training metric. If the model has built in
    # training metrics which also contains AUC, this metric will replace it.
    metrics { class_name: "AUC" }
    # ... other post training metrics ...

    # Plots are also configured here...
    metrics { class_name: "ConfusionMatrixPlot" }
  }
  ## Slicing information
  slicing_specs {}  # overall slice
  slicing_specs {
    feature_keys: ["age"]
  }
""", tfma.EvalConfig())

eval_shared_model = tfma.default_eval_shared_model(
    eval_saved_model_path='/path/to/saved/model', eval_config=eval_config)

output_path = '/path/for/output'

tfx_io = tf_example_record.TFExampleRecord(
    file_pattern=data_location, raw_record_column_name=tfma.ARROW_INPUT_COLUMN)

with beam.Pipeline(runner=...) as p:
  _ = (p
       # You can change the source as appropriate, e.g. read from BigQuery.
       # This assumes your data is a TFRecords file containing records in the
       # tf.train.Example format. If using EvalSavedModel then use the following
       # instead: 'ReadData' >> beam.io.ReadFromTFRecord(file_pattern=...)
       | 'ReadData' >> tfx_io.BeamSource()
       | 'ExtractEvaluateAndWriteResults' >>
       tfma.ExtractEvaluateAndWriteResults(
            eval_shared_model=eval_shared_model,
            eval_config=eval_config,
            output_path=output_path))

# To load and visualize results.
# Note that this code should be run in a Jupyter Notebook.
result = tfma.load_eval_result(output_path)
tfma.view.render_slicing_metrics(result)

モデルの検証

候補とベースラインに対してモデル検証を実行するには、構成を更新してしきい値設定を含め、2つのモデルをtfma.run_model_analysisます。

例えば:

# Run in a Jupyter Notebook.
from google.protobuf import text_format

eval_config = text_format.Parse("""
  ## Model information
  model_specs {
    # This assumes a serving model with a "serving_default" signature.
    label_key: "label"
    example_weight_key: "weight"
  }
  ## Post export metric information
  metrics_specs {
    # This adds AUC and as a post training metric. If the model has built in
    # training metrics which also contains AUC, this metric will replace it.
    metrics {
      class_name: "AUC"
      threshold {
        value_threshold {
          lower_bound { value: 0.9 }
        }
        change_threshold {
          direction: HIGHER_IS_BETTER
          absolute { value: -1e-10 }
        }
      }
    }
    # ... other post training metrics ...

    # Plots are also configured here...
    metrics { class_name: "ConfusionMatrixPlot" }
  }
  ## Slicing information
  slicing_specs {}  # overall slice
  slicing_specs {
    feature_keys: ["age"]
  }
""", tfma.EvalConfig())

eval_shared_models = [
  tfma.default_eval_shared_model(
      model_name=tfma.CANDIDATE_KEY,
      eval_saved_model_path='/path/to/saved/candiate/model',
      eval_config=eval_config),
  tfma.default_eval_shared_model(
      model_name=tfma.BASELINE_KEY,
      eval_saved_model_path='/path/to/saved/baseline/model',
      eval_config=eval_config),
]

output_path = '/path/for/output'

eval_result = tfma.run_model_analysis(
    eval_shared_models,
    eval_config=eval_config,
    # This assumes your data is a TFRecords file containing records in the
    # tf.train.Example format.
    data_location='/path/to/file/containing/tfrecords',
    output_path=output_path)

tfma.view.render_slicing_metrics(eval_result)
tfma.load_validation_result(output_path)

視覚化

TFMAの評価結果は、TFMAに含まれているフロントエンドコンポーネントを使用して、Jupyterノートブックで視覚化できます。例えば:

TFMAスライシングメトリクスブラウザ

詳しくは