MinDiff の要件

MinDiff をいつ使用する必要がありますか?

MinDiff は、モデルのパフォーマンスが一般的に良好であるものの、機密グループに属するサンプルでは有害なエラーがより頻繁に発生するため、パフォーマンスのギャップを埋めたい場合に適用します。機密性の高い関心のあるグループはユースケースによって異なりますが、多くの場合、人種、宗教、性別、性的指向などの保護されたクラスが含まれます。このドキュメント全体を通じて、保護されたクラスに属する一連の例を指すために「機密グループ」を使用します。

MinDiff を使用してパフォーマンスの低いデータ スライスに対処するには、主に 2 つの条件があります。

  • モデルの調整と評価はすでに完了しており、パフォーマンスの低いデータ スライスを示すメトリクスを特定しています。これは、モデルの修復を適用する前に行う必要があります。
  • パフォーマンスが低いグループに属する関連するラベル付きサンプルを十分な数持っているか、入手できる場合があります (詳細は以下を参照)。

MinDiff は、不平等な動作を修正するための多くの手法のうちの 1 つです。特に、グループ間のパフォーマンスを直接均等化しようとする場合には、これは良い選択となる可能性があります。 MinDiff は、データ拡張などの他のアプローチと組み合わせて使用​​でき、より良い結果が得られる可能性があります。ただし、どの技術に投資するかを優先する必要がある場合は、製品のニーズに応じて決定する必要があります。

MinDiff を適用すると、パフォーマンスの低いグループが改善するにつれて、最もパフォーマンスの高いグループのパフォーマンスが低下したり、わずかに変化したりすることがあります。このトレードオフは予想されるものであり、製品要件に照らして評価する必要があります。実際には、MinDiff によって最高パフォーマンスのスライスが許容レベルを下回らないことがよく見られますが、これはアプリケーション固有であり、製品所有者が決定する必要があります。

どのようなモデルタイプに MinDiff を適用できますか?

MinDiff は、バイナリ分類子に適用すると一貫して効果的であることが示されています。この方法を他のアプリケーションに適用することは可能ですが、完全にはテストされていません。複数の分類およびランク付けタスク1での成功を示すためにいくつかの作業が行われていますが、これらのモデルまたは他のタイプのモデルでの MinDiff の使用は実験的であると考えられる必要があります。

どのようなメトリクスに MinDiff を適用できますか?

MinDiff は、グループ間で均等化しようとしているメトリクスが偽陽性率 (FPR)または偽陰性率 (FNR)である場合に適したソリューションである可能性がありますが、他のメトリクスでも機能する可能性があります。一般に、MinDiff は、ターゲットとするメトリクスが、機密グループに属するサンプルと機密グループに属さないサンプルの間のスコア分布の違いの結果である場合に機能します。

MinDiff データセットの構築

MinDiff を使用してトレーニングする準備をする場合は、3 つの個別のデータセットを準備する必要があります。通常のトレーニングと同様、MinDiff データセットは、モデルがサービスを提供するユーザーを表す必要があります。 MinDiff はこれなしでも機能する可能性がありますが、その場合は特に注意する必要があります。

機密クラスに属するサンプルのモデルの FPR を改善しようとしていると仮定すると、次のものが必要になります。

  1. 元のトレーニング セット - ベースライン モデルのトレーニングに使用された元のデータセット
  2. MinDiff 機密セット - 負のグラウンド トゥルース ラベルのみを持つ機密クラスに属するサンプルのデータセット。これらの例は、MinDiff 損失の計算にのみ使用されます。
  3. MinDiff 非機密セット - 機密クラスに属さない、負のグラウンド トゥルース ラベルのみを持つサンプルのデータセット。これらの例は、MinDiff 損失の計算にのみ使用されます。

ライブラリを使用する場合、これら 3 つのデータセットすべてを 1 つのデータセットに結合し、これが新しいトレーニング セットとして機能します。

MinDiff の選択例

偽陽性率の差を主に考慮している場合、上記の例で否定的にラベル付けされた例のセットを切り出すのは直観に反するように思われたかもしれません。ただし、偽陽性予測は、陽性として誤って分類され、陰性ラベルが付けられた例から得られることに注意してください。

MinDiff 用のデータを収集するときは、パフォーマンスの差が明らかな例を選択する必要があります。上記の例では、FPR に対処するために否定的にラベル付けされた例を選択することを意味します。 FNR をターゲットにすることに興味があった場合は、ポジティブにラベル付けされた例を選択する必要がありました。

どれくらいのデータ量が必要ですか?

良い質問です -- それはあなたのユースケースによって異なります。モデルのアーキテクチャ、データ分散、MinDiff 構成に基づいて、必要なデータの量は大幅に変わる可能性があります。過去のアプリケーションでは、MinDiff が各 MinDiff トレーニング セット (前のセクションのセット 2 とセット 3) の 5,000 個のサンプルで適切に機能することがわかりました。データが少ないと、パフォーマンスが低下するリスクが高くなりますが、運用上の制約の範囲内では最小限であるか、許容できる可能性があります。 MinDiff を適用した後、許容可能なパフォーマンスを確保するために結果を徹底的に評価する必要があります。信頼性が低い場合、またはパフォーマンスの期待を満たしていない場合でも、さらにデータを収集することを検討することをお勧めします。

MinDiff が私に合わないのはどのような場合ですか?

MinDiff は優れた結果をもたらす強力な手法ですが、すべての状況に適した方法であるというわけではありません。無計画に適用しても、適切な解決策が得られるとは限りません。

上で説明した要件以外にも、MinDiff が技術的には実現可能であっても、適切ではない場合があります。既知の推奨プラクティスに従って ML ワークフローを常に設計する必要があります。たとえば、モデルのタスクが不明確である場合、製品のニーズが不明確である場合、またはサンプルのラベルが過度に偏っている場合は、これらの問題に対処することを優先する必要があります。同様に、機密グループの明確な定義がない場合、または例が機密グループに属するかどうかを確実に判断できない場合は、MinDiff を効果的に適用することはできません。

より高いレベルでは、製品がそもそも ML に適切な用途であるかどうかを常に考慮する必要があります。そうである場合は、それが生み出すユーザーへの危害の潜在的なベクトルを考慮してください。責任ある ML の追求は、広範囲にわたる潜在的な危害を予測することを目的とした多面的な取り組みです。 MinDiff はこれらの一部を軽減するのに役立ちますが、すべての結果は慎重に検討する必要があります。

1 Beutel A.、Chen, J.、Doshi, T.、Qian, H.、Wei, L.、Wu, Y.、Heldt, L.、Zhao, Z.、Hong, L.、Chi, E.、グッドロウ、C. (2019)。ペアワイズ比較による推奨ランキングの公平性。