日付を保存! Google I / Oが5月18日から20日に戻ってきます今すぐ登録
このページは Cloud Translation API によって翻訳されました。
Switch to English

MinDiffの要件

MinDiffはいつ使用する必要がありますか?

モデルのパフォーマンスは概ね良好であるが、機密性の高いグループに属する例では有害なエラーが頻繁に発生し、パフォーマンスのギャップを埋めたい場合は、MinDiffを適用することをお勧めします。関心のあるデリケートなグループは、ユースケースによって異なる場合がありますが、多くの場合、人種、宗教、性別、性的指向などの保護されたクラスが含まれます。このドキュメント全体を通して、「機密グループ」を使用して、保護されたクラスに属する一連の例を参照します。

MinDiffを使用してパフォーマンスの低いデータスライスに対処するには、主に2つの条件があります。

  • モデルの調整と評価はすでに完了しており、パフォーマンスの低いデータのスライスを示す指標を特定しています。これは、モデル修復を適用するに実行する必要があります。
  • パフォーマンスの低いグループに属する十分な数の関連するラベル付きの例があるか、取得できます(詳細は以下を参照)。

MinDiffは、不平等な動作を修正するための多くの手法の1つです。特に、グループ間でパフォーマンスを直接均等化しようとしている場合に適しています。 MinDiffは、データ拡張などの他のアプローチと組み合わせて使用​​でき、より良い結果につながる可能性があります。ただし、投資する手法に優先順位を付ける必要がある場合は、製品のニーズに応じて優先順位を付ける必要があります。

MinDiffを適用すると、パフォーマンスの低いグループが改善するにつれて、パフォーマンスが低下したり、パフォーマンスの高いグループでわずかにシフトしたりする場合があります。このトレードオフは予想されるものであり、製品要件に照らして評価する必要があります。実際には、MinDiffによってパフォーマンスの高いスライスが許容レベルを下回らないことがよくありますが、これはアプリケーション固有であり、製品所有者が決定する必要があります。

MinDiffはどのモデルタイプに適用できますか?

MinDiffは、バイナリ分類器に適用すると一貫して効果的であることが示されています。この方法を他のアプリケーションに適合させることは可能ですが、十分にテストされていません。複数の分類とランク付けのタスク1で成功を示すためにいくつかの作業が行われましたが、これらまたは他のタイプのモデルでのMinDiffの使用は実験的なものと見なす必要があります。

MinDiffを適用できるメトリックは何ですか?

MinDiffは、グループ間で均等化しようとしているメトリックが偽陽性率(FPR)または偽陰性率(FNR)である場合に適したソリューションですが、他のメトリックでも機能する可能性があります。原則として、MinDiffは、ターゲットとするメトリックが、機密グループに属する例と機密グループに属さない例の間のスコア分布の違いの結果である場合に機能する可能性があります。

MinDiffデータセットの構築

MinDiffでトレーニングする準備をするときは、3つの別々のデータセットを準備する必要があります。通常のトレーニングと同様に、MinDiffデータセットは、モデルがサービスを提供するユーザーを表す必要があります。 MinDiffはこれがなくても機能する可能性がありますが、そのような場合は特に注意する必要があります。

機密クラスに属する例のモデルのFPRを改善しようとしていると仮定すると、次のものが必要になります。

  1. 元のトレーニングセット-ベースラインモデルのトレーニングに使用された元のデータセット
  2. MinDiffセンシティブセット-ネガティブグラウンドトゥルースラベルのみを持つセンシティブクラスに属する例のデータセット。これらの例は、MinDiff損失の計算にのみ使用されます。
  3. MinDiff非機密セット-負のグラウンドトゥルースラベルのみを持つ機密クラスに属していない例のデータセット。これらの例は、MinDiff損失の計算にのみ使用されます。

ライブラリを使用するときは、これら3つのデータセットすべてを1つのデータセットに結合します。これは、新しいトレーニングセットとして機能します。

MinDiffの例を選ぶ

上記の例では、偽陽性率の格差に主に関心がある場合、否定的にラベル付けされた例のセットを作成することは直感に反しているように思われるかもしれません。ただし、誤検出の予測は、誤って正として分類された負のラベルの付いた例に由来することに注意してください。

MinDiffのデータを収集するときは、パフォーマンスの不一致が明らかな例を選択する必要があります。上記の例では、これはFPRに対処するために否定的にラベル付けされた例を選択することを意味しました。 FNRをターゲットにすることに興味があったとしたら、積極的にラベル付けされた例を選択する必要がありました。

どのくらいのデータが必要ですか?

良い質問です-それはあなたのユースケースに依存します!モデルアーキテクチャ、データ分散、およびMinDiff構成に基づいて、必要なデータの量は大幅に異なる可能性があります。過去のアプリケーションでは、MinDiffが各MinDiffトレーニングセット(前のセクションのセット2と3)で5,000の例でうまく機能することを確認しました。データが少ないと、パフォーマンスが低下するリスクが高まりますが、これは最小限であるか、本番環境の制約の範囲内で許容できる場合があります。 MinDiffを適用した後、許容できるパフォーマンスを確保するために、結果を徹底的に評価する必要があります。それらが信頼できない場合、またはパフォーマンスの期待を満たさない場合でも、より多くのデータを収集することを検討することをお勧めします。

MinDiffが私に適していないのはいつですか?

MinDiffは印象的な結果を提供できる強力な手法ですが、これはすべての状況に適した方法であるとは限りません。それを無計画に適用しても、適切な解決策が得られるとは限りません。

上記の要件を超えて、MinDiffは技術的には実現可能であるが、適切でない場合があります。 MLワークフローは、既知の推奨プラクティスに従って常に設計する必要があります。たとえば、モデルタスクが明確に定義されていない場合、製品が不明確である必要がある場合、またはサンプルラベルが過度に歪んでいる場合は、これらの問題への対処を優先する必要があります。同様に、機密グループの明確な定義がない場合、または例が機密グループに属しているかどうかを確実に判断できない場合、MinDiffを効果的に適用することはできません。

より高いレベルでは、製品がMLの適切な使用法であるかどうかを常に検討する必要があります。もしそうなら、それが生み出すユーザーへの危害の潜在的なベクトルを考慮してください。責任あるMLの追求は、広範囲の潜在的な危害を予測することを目的とした多面的な取り組みです。 MinDiffはこれらのいくつかを軽減するのに役立ちますが、すべての結果は慎重に検討する価値があります。

1 Beutel A.、Chen、J.、Doshi、T.、Qian、H.、Wei、L.、Wu、Y.、Heldt、L.、Zhao、Z.、Hong、L.、Chi、E。グッドロウ、C。(2019)。ペアワイズ比較による推奨ランキングの公平性。