Eine Frage haben? Verbinden Sie sich mit der Community im TensorFlow Forum Visit Forum

Fairness-Indikatoren: Nachdenken über Fairness-Bewertung

Möchten Sie die Beta der Fairness Indicators nutzen?

Bevor Sie dies tun, bitten wir Sie, die folgenden Anleitungen durchzulesen.

Fairness Indicators ist ein nützliches Instrument zur Bewertung von Binär- und Mehrklassenklassifikatoren auf Fairness. Schließlich hoffen wir, dieses Tool in Zusammenarbeit mit Ihnen allen zu erweitern, um noch mehr Überlegungen zu bewerten.

Beachten Sie, dass die quantitative Bewertung nur ein Teil der Bewertung einer breiteren Benutzererfahrung ist. Denken Sie zunächst über die verschiedenen Kontexte nach, in denen ein Benutzer Ihr Produkt erleben kann. Welchen verschiedenen Benutzertypen soll Ihr Produkt dienen? Wer kann noch von der Erfahrung betroffen sein?

Wenn man die Auswirkungen von KI auf Menschen betrachtet, ist es wichtig, sich immer daran zu erinnern, dass menschliche Gesellschaften äußerst komplex sind! Das Verständnis der Menschen und ihrer sozialen Identität, sozialen Strukturen und kulturellen Systeme ist jeweils ein großes Feld offener Forschung für sich. Es kann eine Herausforderung sein, die Komplexität interkultureller Unterschiede rund um den Globus in den Griff zu bekommen und sogar das Verständnis für die Auswirkungen auf die Gesellschaft in den Griff zu bekommen. Wann immer möglich, empfehlen wir die Konsultation geeigneter Fachexperten, zu denen Sozialwissenschaftler, Soziolinguisten und Kulturanthropologen gehören können, sowie von Mitgliedern der Bevölkerungsgruppen, auf denen Technologie eingesetzt wird.

Ein einzelnes Modell, beispielsweise das Toxizitätsmodell, das wir in unserem Beispiel colab verwenden , kann in vielen verschiedenen Kontexten verwendet werden. Ein Toxizitätsmodell, das beispielsweise auf einer Website zum Filtern anstößiger Kommentare bereitgestellt wird, ist ein ganz anderer Anwendungsfall als das Modell, das in einer Beispiel-Web-Benutzeroberfläche bereitgestellt wird, in der Benutzer einen Satz eingeben und sehen können, welche Punktzahl das Modell liefert. Abhängig vom Anwendungsfall und davon, wie Benutzer die Modellvorhersage erleben, hat Ihr Produkt unterschiedliche Risiken, Auswirkungen und Chancen, und Sie möchten möglicherweise unterschiedliche Fairness-Bedenken prüfen.

Die obigen Fragen bilden die Grundlage dafür, welche ethischen Überlegungen, einschließlich Fairness, Sie bei der Entwicklung Ihres ML-basierten Produkts berücksichtigen sollten. Diese Fragen motivieren auch, welche Metriken und welche Benutzergruppen Sie mit dem Tool auswerten sollten.

Bevor Sie weiter eintauchen, empfehlen wir Ihnen drei Ressourcen, um loszulegen:

  • Das People + AI-Handbuch für menschenzentriertes KI-Design: Dieses Handbuch ist eine hervorragende Quelle für Fragen und Aspekte, die beim Entwerfen eines auf maschinellem Lernen basierenden Produkts berücksichtigt werden müssen. Während wir diesen Leitfaden für Designer erstellt haben, helfen viele der Prinzipien bei der Beantwortung von Fragen wie der oben gestellten.
  • Unsere Lehren aus der Fairness : In diesem Vortrag bei Google I / O werden die Lehren erörtert, die wir aus unserem Ziel gezogen haben, integrative Produkte zu entwickeln und zu entwerfen.
  • ML-Crashkurs: Fairness : Der ML-Crashkurs umfasst einen 70-minütigen Abschnitt, in dem Fairnessprobleme identifiziert und bewertet werden

Warum also einzelne Scheiben betrachten? Die Bewertung über einzelne Schichten ist wichtig, da starke Gesamtmetriken die schlechte Leistung für bestimmte Gruppen verschleiern können. In ähnlicher Weise führt eine gute Leistung für eine bestimmte Metrik (Genauigkeit, AUC) nicht immer zu einer akzeptablen Leistung für andere Metriken (falsch positive Rate, falsch negative Rate), die für die Bewertung von Chancen und Schäden für Benutzer gleichermaßen wichtig sind.

In den folgenden Abschnitten werden einige der zu berücksichtigenden Aspekte erläutert.

Nach welchen Gruppen soll ich schneiden?

Im Allgemeinen empfiehlt es sich, so viele Gruppen aufzuteilen, wie von Ihrem Produkt betroffen sind, da Sie nie wissen, wann die Leistung für eine der anderen unterschiedlich sein kann. Wenn Sie sich jedoch nicht sicher sind, denken Sie an die verschiedenen Benutzer, die sich möglicherweise mit Ihrem Produkt beschäftigen, und wie sie betroffen sein könnten. Berücksichtigen Sie insbesondere Aspekte, die sich auf sensible Merkmale wie Rasse, ethnische Zugehörigkeit, Geschlecht, Nationalität, Einkommen, sexuelle Orientierung und Behinderungsstatus beziehen.

Was ist, wenn ich keine Daten für die Slices habe, die ich untersuchen möchte?

Gute Frage. Wir wissen, dass viele Datensätze keine Grundwahrheitsbezeichnungen für einzelne Identitätsattribute haben.

Wenn Sie sich in dieser Position befinden, empfehlen wir einige Ansätze:

  1. Identifizieren Sie, wenn es Attribute , die Sie haben , können Sie einen Einblick in die Leistung in Gruppen geben. Zum Beispiel kann die Geografie, obwohl sie nicht der ethnischen Zugehörigkeit und Rasse entspricht, Ihnen helfen, unterschiedliche Leistungsmuster aufzudecken
  2. Stellen Sie fest, ob es repräsentative öffentliche Datensätze gibt, die Ihrem Problem gut zugeordnet werden können. Auf der Google AI-Website finden Sie eine Reihe verschiedener und umfassender Datensätze, darunter unter anderem Project Respect , Inclusive Images und Open Images Extended .
  3. Nutzen Sie gegebenenfalls Regeln oder Klassifizierer, um Ihre Daten mit objektiven Attributen auf Oberflächenebene zu kennzeichnen. Zum Beispiel können Sie Text, ob oder nicht eine Identität Ausdruck in dem Satz beschriften. Denken Sie daran, dass Klassifikatoren ihre eigenen Herausforderungen haben. Wenn Sie nicht aufpassen, können Sie auch eine weitere Verzerrungsebene einführen. Machen Sie sich klar, was Ihr Klassifikator tatsächlich klassifiziert. Zum Beispiel klassifiziert ein Altersklassifizierer auf Bildern tatsächlich das wahrgenommene Alter . Zusätzlich wird , wenn möglich, Einfluss auf Oberflächenniveau Attribute , die in den Daten objektiv identifiziert werden können. Zum Beispiel ist es nicht ratsam, einen Bildklassifikator für Rasse oder ethnische Zugehörigkeit zu erstellen, da dies keine visuellen Merkmale sind, die in einem Bild definiert werden können. Ein Klassifikator würde wahrscheinlich Proxies oder Stereotypen aufgreifen. Stattdessen kann das Erstellen eines Klassifikators für den Hautton eine geeignetere Methode zum Beschriften und Bewerten eines Bildes sein. Stellen Sie schließlich eine hohe Genauigkeit für Klassifizierer sicher, die solche Attribute kennzeichnen.
  4. Finden Sie repräsentativere Daten, die gekennzeichnet sind

Stellen Sie immer sicher, dass mehrere, unterschiedliche Datensätze ausgewertet werden.

Wenn Ihre Bewertungsdaten nicht ausreichend repräsentativ für Ihre Benutzerbasis oder die Datentypen sind, die wahrscheinlich auftreten, erhalten Sie möglicherweise täuschend gute Fairness-Metriken. Ebenso garantiert eine hohe Modellleistung für einen Datensatz keine hohe Leistung für andere.

Beachten Sie, dass Untergruppen nicht immer die beste Methode zur Klassifizierung von Personen sind.

Menschen sind mehrdimensional und gehören zu mehr als einer Gruppe, auch innerhalb einer einzigen Dimension - betrachten Sie jemanden, der vielpunktig ist oder mehreren Rassengruppen angehört. Auch wenn die Gesamtmetriken für eine bestimmte Rassengruppe gerecht aussehen können, können bestimmte Interaktionen wie Rasse und Geschlecht zusammen unbeabsichtigte Vorurteile aufweisen. Darüber hinaus haben viele Untergruppen unscharfe Grenzen, die ständig neu gezeichnet werden.

Wann habe ich genug Slices getestet und woher weiß ich, welche Slices getestet werden sollen?

Wir erkennen an, dass es eine große Anzahl von Gruppen oder Schnitten gibt, die für den Test relevant sein können. Wenn möglich, empfehlen wir, eine vielfältige und breite Palette von Schnitten zu schneiden und zu bewerten und dann tief zu tauchen, wo Sie Verbesserungsmöglichkeiten erkennen. Es ist auch wichtig zu erkennen, dass, obwohl Sie möglicherweise keine Bedenken in Bezug auf von Ihnen getestete Slices sehen, dies nicht bedeutet, dass Ihr Produkt für alle Benutzer funktioniert, und dass es wichtig ist, vielfältiges Benutzerfeedback und Tests zu erhalten, um sicherzustellen, dass Sie ständig neue identifizieren Chancen.

Zu Beginn empfehlen wir, über Ihren speziellen Anwendungsfall und die verschiedenen Möglichkeiten nachzudenken, mit denen Benutzer mit Ihrem Produkt interagieren können. Wie können unterschiedliche Benutzer unterschiedliche Erfahrungen machen? Was bedeutet das für Scheiben, die Sie bewerten sollten? Das Sammeln von Feedback von verschiedenen Benutzern kann auch potenzielle Slices hervorheben, die priorisiert werden müssen.

Welche Metriken soll ich wählen?

Berücksichtigen Sie bei der Auswahl der zu bewertenden Metriken für Ihr System, wer Ihr Modell erlebt, wie es erlebt wird und welche Auswirkungen diese Erfahrung hat.

Wie verleiht Ihr Modell den Menschen beispielsweise mehr Würde oder Autonomie oder wirkt sich positiv auf ihr emotionales, physisches oder finanzielles Wohlbefinden aus? Wie könnten dagegen die Vorhersagen Ihres Modells die Würde oder Autonomie der Menschen verringern oder sich negativ auf ihr emotionales, physisches oder finanzielles Wohlbefinden auswirken?

Im Allgemeinen empfehlen wir, alle vorhandenen Leistungsmetriken als bewährte Methode aufzuteilen. Wir empfehlen außerdem, Ihre Metriken über mehrere Schwellenwerte hinweg auszuwerten, um zu verstehen, wie sich der Schwellenwert auf die Leistung für verschiedene Gruppen auswirken kann.

Wenn es ein vorhergesagtes Etikett gibt, das einheitlich "gut" oder "schlecht" ist, sollten Sie darüber hinaus in Betracht ziehen, (für jede Untergruppe) die Rate anzugeben, mit der dieses Etikett vorhergesagt wird. Ein „gutes“ Etikett wäre beispielsweise ein Etikett, dessen Vorhersage einer Person Zugriff auf eine Ressource gewährt oder sie in die Lage versetzt, eine Aktion auszuführen.

Kritische Fairness-Metriken für die Klassifizierung

Wenn Sie über ein Klassifizierungsmodell nachdenken, denken Sie an die Auswirkungen von Fehlern (die Unterschiede zwischen dem tatsächlichen „Grundwahrheits“ -Label und dem Etikett aus dem Modell). Wenn einige Fehler Ihren Benutzern mehr Chancen oder Schaden zufügen können, stellen Sie sicher, dass Sie die Häufigkeit dieser Fehler über Benutzergruppen hinweg bewerten. Diese Fehlerraten sind unten in den Metriken definiert, die derzeit von der Beta-Version der Fairness Indicators unterstützt werden.

Wir hoffen, im Laufe des nächsten Jahres Fallstudien zu verschiedenen Anwendungsfällen und den damit verbundenen Metriken veröffentlichen zu können, damit wir besser hervorheben können, wann verschiedene Metriken am besten geeignet sind.

Metriken sind heute in Fairness Indicators verfügbar

Hinweis: Es gibt viele wertvolle Fairness-Metriken, die derzeit in der Beta-Version von Fairness Indicators nicht unterstützt werden. Wenn wir weitere Metriken hinzufügen, werden wir hier weiterhin Anleitungen für diese Metriken hinzufügen. Im Folgenden können Sie auf Anweisungen zugreifen, um Fairness Indicators Ihre eigenen Metriken hinzuzufügen. Wenden Sie sich außerdem an tfx@tensorflow.org, wenn Sie Metriken sehen möchten. Wir hoffen, mit Ihnen zusammenzuarbeiten, um dies weiter auszubauen.

Positive Rate / Negative Rate

  • Definition: Der Prozentsatz der Datenpunkte, die unabhängig von der Grundwahrheit als positiv oder negativ klassifiziert werden
  • Bezieht sich auf: Demografische Parität und Gleichheit der Ergebnisse, wenn sie über Untergruppen hinweg gleich sind
  • Wann diese Metrik verwendet werden soll: Anwendungsfälle für Fairness, bei denen es wichtig ist, gleiche endgültige Prozentsätze von Gruppen zu haben

Richtig positive Rate / Falsch negative Rate

  • Definition: Der Prozentsatz der positiven Datenpunkte (wie in der Grundwahrheit angegeben), die korrekt als positiv klassifiziert wurden, oder der Prozentsatz der positiven Datenpunkte, die fälschlicherweise als negativ klassifiziert wurden
  • Bezieht sich auf: Chancengleichheit (für die positive Klasse), wenn sie über Untergruppen hinweg gleich ist
  • Verwendung dieser Metrik: Fairness-Anwendungsfälle, in denen es wichtig ist, dass in jeder Gruppe der gleiche Prozentsatz qualifizierter Kandidaten als positiv bewertet wird. Dies wird am häufigsten empfohlen, wenn positive Ergebnisse klassifiziert werden, z. B. Kreditanträge, Schulzulassungen oder wenn der Inhalt kinderfreundlich ist

Richtig negative Rate / Falsch positive Rate

  • Definition: Der Prozentsatz der negativen Datenpunkte (wie in der Grundwahrheit angegeben), die korrekt als negativ klassifiziert wurden, oder der Prozentsatz der negativen Datenpunkte, die fälschlicherweise als positiv klassifiziert wurden
  • Bezieht sich auf: Chancengleichheit (für die negative Klasse), wenn sie über Untergruppen hinweg gleich ist
  • Wann diese Metrik verwendet werden soll: Fairness-Anwendungsfälle, bei denen Fehlerraten (oder die Fehlklassifizierung von etwas als positiv) wichtiger sind als die Klassifizierung der Positiven. Dies ist am häufigsten in Missbrauchsfällen der Fall, in denen Positive häufig zu negativen Handlungen führen. Diese sind auch wichtig für Gesichtsanalysetechnologien wie Gesichtserkennung oder Gesichtsattribute

Genauigkeit & AUC

  • Bezieht sich auf: Prädiktive Parität, wenn sie über Untergruppen hinweg gleich ist
  • Verwendung dieser Metriken: Fälle, in denen die Genauigkeit der Aufgabe am kritischsten ist (nicht unbedingt in einer bestimmten Richtung), z. B. Gesichtserkennung oder Gesichtsclustering

Falsche Erkennungsrate

  • Definition: Der Prozentsatz der negativen Datenpunkte (wie in der Grundwahrheit angegeben), die fälschlicherweise von allen als positiv eingestuften Datenpunkten als positiv eingestuft werden. Dies ist auch die Umkehrung von PPV
  • Bezieht sich auf: Prädiktive Parität (auch als Kalibrierung bezeichnet), wenn sie über Untergruppen hinweg gleich ist
  • Wann diese Metrik verwendet werden soll: Fälle, in denen der Anteil der korrekten positiven Vorhersagen über Untergruppen hinweg gleich sein sollte

Falsche Auslassungsrate

  • Definition: Der Prozentsatz der positiven Datenpunkte (wie in der Grundwahrheit angegeben), die von allen als negativ eingestuften Datenpunkten fälschlicherweise als negativ eingestuft werden. Dies ist auch die Umkehrung des Kapitalwerts
  • Bezieht sich auf: Prädiktive Parität (auch als Kalibrierung bezeichnet), wenn sie über Untergruppen hinweg gleich ist
  • Wann diese Metrik verwendet werden soll: Fälle, in denen der Anteil der korrekten negativen Vorhersagen über Untergruppen hinweg gleich sein sollte

Beispiele für die Auswahl von Metriken

  • Das systematische Nichterkennen von Gesichtern in einer Kamera-App kann für bestimmte Benutzergruppen zu einer negativen Benutzererfahrung führen. In diesem Fall können falsch negative Ergebnisse in einem Gesichtserkennungssystem zu einem Produktfehler führen, während falsch positive Ergebnisse (Erkennung eines Gesichts, wenn es keines gibt) den Benutzer leicht stören können. Daher ist die Bewertung und Minimierung der falsch-negativen Rate für diesen Anwendungsfall wichtig.
  • Das falsche Markieren von Textkommentaren bestimmter Personen als "Spam" oder "hohe Toxizität" in einem Moderationssystem führt dazu, dass bestimmte Stimmen zum Schweigen gebracht werden. Einerseits führt eine hohe Falsch-Positiv-Rate zu unfairer Zensur. Andererseits könnte eine hohe Falsch-Negativ-Rate zu einer Zunahme des toxischen Gehalts bestimmter Gruppen führen, was sowohl dem Benutzer schaden als auch einen Repräsentationsschaden für diese Gruppen darstellen kann. Daher sind neben Metriken, die alle Arten von Fehlern wie Genauigkeit oder AUC berücksichtigen, beide Metriken zu berücksichtigen.

Sehen Sie die gesuchten Metriken nicht?

Befolgen Sie die Dokumentation hier , um Ihre eigene benutzerdefinierte Metrik hinzuzufügen.

Schlussbemerkungen

Eine metrische Lücke zwischen zwei Gruppen kann ein Zeichen dafür sein, dass Ihr Modell möglicherweise unfaire Abweichungen aufweist . Sie sollten Ihre Ergebnisse entsprechend Ihrem Anwendungsfall interpretieren. Das erste Anzeichen dafür, dass Sie eine Gruppe von Benutzern ungerecht behandeln, ist jedoch, wenn die Metriken zwischen dieser Gruppe von Benutzern und Ihrer Gesamtheit erheblich voneinander abweichen. Berücksichtigen Sie die Konfidenzintervalle, wenn Sie diese Unterschiede betrachten. Wenn Sie zu wenige Stichproben in einem bestimmten Slice haben, ist der Unterschied zwischen den Metriken möglicherweise nicht genau.

Das Erreichen einer gruppenübergreifenden Gleichstellung bei Fairness-Indikatoren bedeutet nicht, dass das Modell fair ist. Systeme sind sehr komplex und das Erreichen der Gleichheit bei einer (oder sogar allen) der bereitgestellten Metriken kann keine Fairness garantieren.

Fairness-Bewertungen sollten während des gesamten Entwicklungsprozesses und nach dem Start (nicht am Tag vor dem Start) durchgeführt werden. Genauso wie die Verbesserung Ihres Produkts ein fortlaufender Prozess ist und aufgrund von Benutzer- und Marktfeedback angepasst werden muss, erfordert die Fairness und Gerechtigkeit Ihres Produkts ständige Aufmerksamkeit. Wenn sich verschiedene Aspekte des Modells ändern, z. B. Trainingsdaten, Eingaben von anderen Modellen oder das Design selbst, ändern sich wahrscheinlich die Fairness-Metriken. Das einmalige „Löschen der Leiste“ reicht nicht aus, um sicherzustellen, dass alle interagierenden Komponenten im Laufe der Zeit intakt geblieben sind.

Für seltene, böswillige Beispiele sollten kontroverse Tests durchgeführt werden. Fairness-Bewertungen sollen keine kontroversen Tests ersetzen. Eine zusätzliche Verteidigung gegen seltene, zielgerichtete Beispiele ist von entscheidender Bedeutung, da sich diese Beispiele wahrscheinlich nicht in Trainings- oder Bewertungsdaten manifestieren.