今日のローカルTensorFlowEverywhereイベントの出欠確認!
このページは Cloud Translation API によって翻訳されました。
Switch to English

公平性指標:公平性評価について考える

公平性指標ベータの活用に興味がありますか?

その前に、以下のガイダンスをお読みください。

公平性指標は、公平性についてバイナリおよびマルチクラス分類子を評価するための便利なツールです。最終的には、このツールを皆さんと協力して拡張し、さらに多くの考慮事項を評価したいと考えています。

定量的評価は、より広範なユーザーエクスペリエンスを評価することの一部にすぎないことに注意してください。ユーザーが製品を体験する可能性のあるさまざまなコンテキストについて考えることから始めます。あなたの製品が提供することが期待されるさまざまなタイプのユーザーは誰ですか?他に誰がその経験によって影響を受ける可能性がありますか?

AIが人々に与える影響を考えるとき、人間社会は非常に複雑であることを常に覚えておくことが重要です。人々、そして彼らの社会的アイデンティティ、社会構造、文化システムを理解することは、それ自体がオープンリサーチの巨大な分野です。世界中の異文化間の違いの複雑さを投げ込み、社会的影響を理解するための足がかりを得るのは難しい場合があります。可能な限り、社会科学者、社会言語学者、文化人類学者などの適切な分野の専門家、およびテクノロジーが展開される集団のメンバーに相談することをお勧めします。

単一のモデル、たとえば、この例のコラボで活用する毒性モデルは、さまざまな状況で使用できます。たとえば、不快なコメントをフィルタリングするためにWebサイトに展開される毒性モデルは、ユーザーが文を入力してモデルのスコアを確認できるWebUIの例に展開されるモデルとは非常に異なるユースケースです。ユースケース、およびユーザーがモデル予測をどのように体験するかに応じて、製品にはさまざまなリスク、効果、および機会があり、さまざまな公平性の懸念について評価することができます。

上記の質問は、MLベースの製品を設計および開発する際に、公平性などの倫理的考慮事項を考慮に入れる必要がある場合の基礎となります。これらの質問はまた、メトリック、あなたが評価するためのツールを使用する必要があるユーザーのグループいるのやる気引き出します。

さらに詳しく説明する前に、開始時に推奨する3つのリソースを次に示します。

  • 人間中心のAI設計のためのPeople + AIガイドブックこのガイドブックは、機械学習ベースの製品を設計する際に留意すべき質問と側面に関する優れたリソースです。デザイナーを念頭に置いてこのガイドブックを作成しましたが、原則の多くは、上記のような質問に答えるのに役立ちます。
  • 公平性に関する教訓 Google I / Oでのこの講演では、包括的な製品を構築および設計するという目標で学んだ教訓について説明します。
  • MLクラッシュコース:公平性 MLクラッシュコースには、公平性の懸念を特定して評価するための70分のセクションがあります。

では、なぜ個々のスライスを見るのですか?強力な全体的なメトリックが特定のグループのパフォーマンスの低下を覆い隠す可能性があるため、個々のスライスに対する評価は重要です。同様に、特定の指標(精度、AUC)で良好なパフォーマンスを発揮しても、ユーザーの機会と害を評価する上で同様に重要な他の指標(偽陽性率、偽陰性率)で許容できるパフォーマンスにつながるとは限りません。

以下のセクションでは、考慮すべきいくつかの側面について説明します。

どのグループでスライスする必要がありますか?

一般に、製品の影響を受ける可能性のあるグループでスライスすることをお勧めします。これは、パフォーマンスが他のグループといつ異なる可能性があるかがわからないためです。ただし、確信が持てない場合は、製品に関与している可能性のあるさまざまなユーザーと、それらがどのように影響を受ける可能性があるかを考えてください。特に、人種、民族、性別、国籍、収入、性的指向、障害状態などのデリケートな特性に関連するスライスを検討してください。

調査したいスライスのラベルが付いたデータがない場合はどうなりますか?

良い質問。多くのデータセットには、個々のID属性のグラウンドトゥルースラベルがないことがわかっています。

この立場にいる場合は、いくつかのアプローチをお勧めします。

  1. あなたはそれがあなたのグループ全体のパフォーマンスにいくつかの洞察力を与えることが持っている属性があるかどうか確認します。たとえば、地理は民族や人種と同等ではありませんが、パフォーマンスのさまざまなパターンを明らかにするのに役立つ場合があります
  2. 問題にうまく対応できる代表的な公開データセットがあるかどうかを特定します。 Google AIサイトには、 Project RespectInclusive ImagesOpen Images Extendedなど、さまざまな包括的なデータセットがあります
  3. 必要に応じて、ルールまたは分類子を活用して、客観的な表面レベルの属性でデータにラベルを付けます。文中アイデンティティ用語があるか否かの例では、テキストにラベルを付けることができます。分類子には独自の課題があることに注意してください。注意しないと、バイアスの別の層が導入される可能性があります。分類子が実際に何を分類しているかを明確にしてください。たとえば、画像の年齢分類子は、実際には知覚された年齢を分類しています。さらに、可能であれば、データで客観的に識別できる表面レベルの属性を活用します。たとえば、人種や民族の画像分類子を作成することはお勧めできません。これらは画像で定義できる視覚的特性ではないためです。分類子は、プロキシまたはステレオタイプを選択する可能性があります。代わりに、肌の色の分類子を作成することが、画像にラベルを付けて評価するためのより適切な方法である可能性があります。最後に、そのような属性にラベルを付ける分類器の高精度を確保します。
  4. ラベルが付けられているより代表的なデータを検索する

常に複数の多様なデータセットで評価するようにしてください。

評価データがユーザーベースを適切に表していない場合、または遭遇する可能性のあるデータの種類が適切でない場合は、一見優れた公平性メトリックが得られる可能性があります。同様に、あるデータセットでの高いモデルパフォーマンスは、他のデータセットでの高いパフォーマンスを保証するものではありません。

サブグループが個人を分類するための最良の方法であるとは限らないことに注意してください。

人々は多次元であり、単一の次元内であっても、複数のグループに属しています。多民族であるか、複数の人種グループに属している人を考えてみてください。また、特定の人種グループの全体的な指標は公平に見えるかもしれませんが、人種や性別などの特定の相互作用は、意図しないバイアスを示す可能性があります。さらに、多くのサブグループにはあいまいな境界があり、常に再描画されています。

十分な数のスライスをテストしたのはいつですか。また、テストするスライスを確認するにはどうすればよいですか。

テストに関連する可能性のあるグループまたはスライスは非常に多数あることを認識しており、可能であれば、多様で幅広いスライスをスライスして評価し、改善の機会を見つけたらディープダイビングすることをお勧めします。また、テストしたスライスに懸念がない場合でも、製品がすべてのユーザーに対して機能することを意味するわけではないことを認識することも重要です。さまざまなユーザーフィードバックとテストを取得して、新しいものを継続的に特定することが重要です。機会。

開始するには、特定のユースケースと、ユーザーが製品を使用するさまざまな方法について検討することをお勧めします。異なるユーザーはどのように異なる経験をするでしょうか?評価する必要のあるスライスにとって、それはどういう意味ですか?多様なユーザーからフィードバックを収集することで、優先順位を付ける可能性のあるスライスを強調することもできます。

どのメトリックを選択する必要がありますか?

システムに対して評価するメトリックを選択するときは、モデルを誰が経験するか、どのように経験するか、およびその経験の影響を考慮してください。

たとえば、あなたのモデルはどのようにして人々に尊厳や自律性を与えたり、感情的、肉体的、経済的幸福にプラスの影響を与えたりしますか?対照的に、モデルの予測は、人々の尊厳や自律性をどのように低下​​させ、感情的、肉体的、または経済的な幸福に悪影響を与える可能性がありますか?

一般に、グッドプラクティスとして、既存のすべてのパフォーマンスメトリックをスライスすることをお勧めします。また、しきい値がさまざまなグループのパフォーマンスにどのように影響するかを理解するために、複数のしきい値にわたってメトリックを評価することをお勧めします

さらに、一様に「良い」または「悪い」と予測されるラベルがある場合は、そのラベルが予測される割合を(サブグループごとに)報告することを検討してください。たとえば、「適切な」ラベルとは、その予測によって、あるリソースへのアクセスが許可されたり、何らかのアクションを実行できるようにするラベルのことです。

分類のための重要な公平性メトリック

分類モデルについて考えるときは、エラーの影響(実際の「グラウンドトゥルース」ラベルとモデルのラベルの違い)について考えてください。一部のエラーがユーザーにより多くの機会や害をもたらす可能性がある場合は、ユーザーのグループ全体でこれらのエラーの割合を評価するようにしてください。これらのエラー率は、FairnessIndicatorsベータで現在サポートされているメトリックで以下に定義されています。

来年中に、さまざまなユースケースのケーススタディとそれらに関連する指標をリリースして、さまざまな指標が最も適切な場合をより明確に示すことができるようにしたいと考えています。

公平性指標で今日利用可能な指標

注:現在、公平性指標のベータ版ではサポートされていない貴重な公平性指標が多数あります。さらにメトリックを追加し続けるので、ここにこれらのメトリックのガイダンスを追加し続けます。以下では、公平性指標に独自の指標を追加するための手順にアクセスできます。さらに、表示したいメトリックがある場合は、 tfx @ tensorflow.orgに連絡してください。これをさらに構築するために、あなたと提携したいと思っています。

正のレート/負のレート

  • 定義:グラウンドトゥルースとは関係なく、正または負に分類されるデータポイントの割合
  • 関連:サブグループ間で等しい場合の人口統計学的な平等と結果の平等
  • このメトリックを使用する場合グループの最終的な割合を等しくすることが重要な公平性のユースケース

真陽性率/偽陰性率

  • 定義:正として正しく分類された(グラウンドトゥルースでラベル付けされた)正のデータポイントのパーセンテージ、または負として誤って分類された正のデータポイントのパーセンテージ
  • 関連:サブグループ間で等しい場合の機会均等(ポジティブクラスの場合)
  • この指標を使用する場合各グループで同じ割合の適格な候補者がポジティブと評価されることが重要な公平性のユースケース。これは、ローンの申し込み、学校への入学、コンテンツが子供向けかどうかなど、肯定的な結果を分類する場合に最も一般的に推奨されます。

真の陰性率/偽陽性率

  • 定義:正として正しく分類された(グラウンドトゥルースでラベル付けされた)負のデータポイントのパーセンテージ、または誤って正として分類された負のデータポイントのパーセンテージ
  • 関連:サブグループ間で等しい場合の機会均等(負のクラスの場合)
  • このメトリックを使用する場合エラー率(または何かをポジティブとして誤分類する)がポジティブの分類よりも懸念される公平性のユースケース。これは虐待の場合に最も一般的であり、ポジティブなことがしばしばネガティブな行動につながります。これらは、顔検出や顔属性などの顔分析テクノロジーにとっても重要です。

精度とAUC

  • 関連:サブグループ間で等しい場合の予測的パリティ
  • これらのメトリックを使用する場合:顔の識別や顔のクラスタリングなど、タスクの精度が最も重要な場合(必ずしも特定の方向である必要はありません)

偽発見率

  • 定義:正として分類されたすべてのデータポイントのうち、誤って正として分類された(グラウンドトゥルースでラベル付けされた)負のデータポイントのパーセンテージ。これもPPVの逆です
  • 関連:サブグループ間で等しい場合の予測パリティ(キャリブレーションとも呼ばれます)
  • このメトリックを使用する場合:正しい正の予測の割合がサブグループ間で等しくなければならない場合

誤省略率

  • 定義:ネガティブとして分類されたすべてのデータポイントのうち、ネガティブとして誤って分類されたポジティブデータポイント(グラウンドトゥルースでラベル付けされている)のパーセンテージ。これはNPVの逆でもあります
  • 関連:サブグループ間で等しい場合の予測パリティ(キャリブレーションとも呼ばれます)
  • このメトリックを使用する場合:正しい負の予測の割合がサブグループ間で等しくなければならない場合

選択するメトリックの例

  • カメラアプリで顔を体系的に検出できないと、特定のユーザーグループのユーザーエクスペリエンスが低下する可能性があります。この場合、顔検出システムの誤検知は製品の故障につながる可能性があり、誤検知(顔がないときに顔を検出する)はユーザーにわずかな迷惑をかける可能性があります。したがって、このユースケースでは、偽陰性率を評価して最小化することが重要です。
  • モデレーションシステムで特定の人々からのテキストコメントを「スパム」または「高毒性」として不当にマークすると、特定の声が沈黙します。一方では、高い偽陽性率は不当な検閲につながります。一方、偽陰性率が高いと、特定のグループからの有毒なコンテンツが急増する可能性があり、ユーザーに害を及ぼし、それらのグループの代表的な害を構成する可能性があります。したがって、精度やAUCなどのすべてのタイプのエラーを考慮に入れるメトリックに加えて、両方のメトリックを考慮することが重要です。

探している指標が表示されませんか?

こちらのドキュメントに従って、独自のカスタム指標を追加してください。

最終メモ

2つのグループ間のメトリックのギャップは、モデルに不公平なスキューがある可能性があることを示している可能性があります。ユースケースに従って結果を解釈する必要があります。ただし、あるユーザーセットを不当に扱っている可能性がある最初の兆候は、そのユーザーセットと全体のメトリックが大幅に異なる場合です。これらの違いを見るときは、信頼区間を考慮に入れてください。特定のスライスに含まれるサンプルが少なすぎると、メトリック間の違いが正確でない場合があります。

公平性指標でグループ間で平等を達成することは、モデルが公平であることを意味しません。システムは非常に複雑であり、提供されたメトリックの1つ(またはすべて)で同等性を達成しても、公平性を保証することはできません。

公平性の評価は、開発プロセス全体とリリース後(リリースの前日ではなく)に実行する必要があります。製品の改善が継続的なプロセスであり、ユーザーと市場のフィードバックに基づいて調整されるのと同様に、製品を公正かつ公平にするためには継続的な注意が必要です。トレーニングデータ、他のモデルからの入力、または設計自体など、モデルのさまざまな側面が変化すると、公平性の指標が変化する可能性があります。 「バーをクリアする」だけでは、相互作用するすべてのコンポーネントが長期間にわたって無傷のままであることを保証するのに十分ではありません。

まれな悪意のある例については、敵対的なテストを実行する必要があります。公平性の評価は、敵対的なテストに取って代わるものではありません。まれなターゲットを絞った例に対する追加の防御は、これらの例がトレーニングまたは評価データに現れない可能性があるため、非常に重要です。