モデル修復のための反事実的なロジットペアリング

Counterfactual Logit Paring (CLP) は、例で参照されている機密属性が削除または置換されたときにモデルの予測が変更されないようにしようとする TensorFlow モデル修復ライブラリ内の手法です。たとえば、毒性分類子では、「私は男性です」や「私はレズビアンです」などの例で毒性の異なる予測があってはなりません。

このトピックに関する詳細な議論については、反事実の公平性敵対的ロジット ペアリング反事実ロジット ペアリングに関する研究を参照してください。

反事実ロジットペアリングをいつ使用する必要がありますか?

CLP は、機能内で参照される機密属性の変更によって予測が変更される (予測が変更されるべきでない場合に) シナリオに対処します。そうすることで、「このモデルは、アイデンティティ属性の存在のみに基づいて予測を変更する可能性がありますか?」という質問に答えようとします。反事実的公平性の詳細については、研究論文を参照してください。

この問題は、開発者や発行者がコメントの内容を分析して攻撃的または有害な可能性のあるテキストを分析するために使用する ML ツールであるPerspective APIで発生しました。 Perspective API は、コメント テキストを入力として受け取り、コメントが有害である可能性の指標として 0 から 1 までのスコアを返します。たとえば、「あなたは馬鹿です」のようなコメントは、有害性に関して 0.8 の確率スコアを受け取る可能性があり、読者がそのコメントを有害であると認識する可能性がどの程度であるかを示します。

Perspective API の最初のリリース後、外部ユーザーは、人種または性的指向に関する情報を含むアイデンティティ用語と予測される毒性スコアとの間に正の相関があることを発見しました。たとえば、「私はレズビアンです」というフレーズは 0.51 のスコアを受け取りましたが、「私は男性です」は 0.2 という低いスコアを受け取りました。この場合、アイデンティティ用語は軽蔑的に使用されていないため、スコアにそれほど大きな差はないはずです。 Perspective API の詳細については、 「意図しないバイアスとアイデンティティ用語に関するブログ投稿」を参照してください。

反事実ロジットペアリングの効果を測定するにはどうすればよいですか?

機械学習モデルを評価し、特定の機密属性の変更による予測の変化が有害であると判断した場合は、この問題の蔓延を測定する必要があります。バイナリまたはマルチクラス分類子の場合、フリップは、例で参照されている機密属性が変化したときに、異なる決定 (有毒から毒性なしへの予測の変更など) を与える分類子として定義されます。フリップの蔓延を評価するときは、フリップ数フリップ率を調べることができます。反転によって引き起こされる潜在的なユーザー被害と反転の発生頻度を考慮することで、これが CLP を適用して対処すべき問題であるかどうかを判断できます。これらのメトリックの詳細については、 「公平性インジケーター ガイド」を参照してください。

どのモデルタイプに反事実ロジットペアリングを適用できますか?

この手法は、テキスト、画像、ビデオなどのさまざまな種類のデータのバイナリおよびマルチクラス分類器で使用できます。

反事実ロジットペアリングが私にとって適切でないのはどのような場合ですか?

CLP はすべての状況に適した方法ではありません。たとえば、恒等項の有無が分類子の予測を正当に変更するかどうかは関係ありません。これは、分類子が特徴が特定の ID グループを参照しているかどうかを判断することを目的としている場合に当てはまります。また、分類子の結果と ID グループの間の意図しない相関関係がユーザーに悪影響を及ぼさない場合、この方法の影響は小さくなります。

CLP は、単に「黒人」、「ゲイ」、「イスラム教徒」などの用語が言語モデルに存在するという理由だけで、言語モデルまたは有害性分類子がその出力を不公平な方法で変更しているかどうか (たとえば、テキストの一部を有害であると分類するかどうか) をテストするのに役立ちます。文章。 CLP は、個人の身元を操作するなど、個人に関する予測を行うことを目的としたものではありません。より詳細な議論については、この文書を参照してください。

CLP は、 Responsible AI Toolkit の手法の 1 つであり、特徴内で参照される機密属性によって予測が変化する状況に対処するために特別に設計されたものであることに留意することが重要です。モデルやユースケースによっては、特に CLP がグループのパフォーマンスに影響を与える可能性があるため、歴史的に疎外されてきたグループにパフォーマンスのギャップがあるかどうかを考慮することも重要な場合があります。これは、公平性インジケーターを使用して評価でき、同様に TensorFlow モデル修復ライブラリーにあるMinDiffによって対処できます。

また、あなたの製品が機械学習に適切に使用されるかどうかも考慮する必要があります。その場合、機械学習ワークフローは、明確に定義されたモデル タスクや明確な製品ニーズなど、既知の推奨プラクティスに従って設計される必要があります。

反事実ロジットペアリングはどのように機能しますか?

CLP は、データセットの元の例と反事実の例をロジット ペアリングすることによって提供される元のモデルに損失を追加します。 2 つの値の差を計算することで、分類子の予測を変更する原因となっている機密用語の違いにペナルティを与えます。この研究は、敵対的なロジット ペアリング反事実的なロジット ペアリングに関する研究に基づいています。