Was ist Modellkorrektur?

Sobald Sie die Leistung eines Modells für maschinelles Lernen in Scheiben geschnitten haben , stellen Sie möglicherweise fest, dass Ihr Modell in bestimmten Datenbereichen unterdurchschnittlich abschneidet. Diese Art von ungleicher Leistung kann manchmal zu unfairen und potenziell schädlichen Ergebnissen für gefährdete Untergruppen der Bevölkerung führen. Im Allgemeinen gibt es drei Haupttypen technischer Interventionen, um Voreingenommenheitsprobleme anzugehen:

  • Ändern der Eingabedaten: Sammeln weiterer Daten, Generieren synthetischer Daten, Anpassen der Gewichte und Abtastraten verschiedener Slices usw. 1
  • Eingreifen in das Modell: Ändern des Modells selbst durch Einführen oder Ändern von Modellzielen, Hinzufügen von Einschränkungen usw. 2
  • Nachbearbeitung der Ergebnisse: Ändern der Ausgaben des Modells oder Interpretation der Ausgaben, um die Leistung über Metriken hinweg zu verbessern. 3

from tensorflow_model_remediation import min_diff
import tensorflow as tf

# Start by defining a Keras model.
original_model = ...

# Set the MinDiff weight and choose a loss.
min_diff_loss = min_diff.losses.MMDLoss()
min_diff_weight = 1.0  # Hyperparamater to be tuned.

# Create a MinDiff model.
min_diff_model = min_diff.keras.MinDiffModel(
original_model, min_diff_loss, min_diff_weight)

# Compile the MinDiff model normally.
min_diff_model.compile(...)

# Create a MinDiff Dataset and train the min_diff_model.
min_diff_model.fit(min_diff_dataset, ...)

Was ist MinDiff?

MinDiff ist eine Modellkorrekturtechnik, mit der zwei Verteilungen ausgeglichen werden sollen. In der Praxis kann es verwendet werden, um Fehlerraten über verschiedene Bereiche Ihrer Daten hinweg auszugleichen, indem Verteilungsunterschiede bestraft werden.

In der Regel wird MinDiff angewendet, wenn versucht wird, den Unterschied zwischen einer falsch positiven Rate (FPR) oder einer falsch negativen Rate (FNR) zwischen einem Datenabschnitt, der zu einer sensiblen Klasse gehört, und einem Abschnitt mit besserer Leistung zu minimieren. Lesen Sie die Literatur zu diesem Thema, um eine eingehende Diskussion der Fairness-Metriken zu erhalten. 4 5 6

Wie funktioniert MinDiff?

Anhand von zwei Beispielsätzen aus unserem Datensatz bestraft MinDiff das Modell während des Trainings für Unterschiede in der Verteilung der Punktzahlen zwischen den beiden Sätzen. Je weniger unterscheidbar die beiden Sätze auf Vorhersagewerten basieren, desto geringer ist die Strafe, die angewendet wird.

Die Strafe wird angewendet, indem dem Verlust, mit dem das Modell trainiert, eine Komponente hinzugefügt wird. Es kann als Maß für den Unterschied in der Verteilung von Modellvorhersagen angesehen werden. Während das Modell trainiert, wird es versuchen, die Strafe zu minimieren, indem die Verteilungen näher zusammengebracht werden, wie in der obigen Grafik.

Das Anwenden von MinDiff kann mit Kompromissen hinsichtlich der Leistung bei der ursprünglichen Aufgabe verbunden sein. In der Praxis haben wir oft festgestellt, dass MinDiff effektiv ist, ohne die Leistung über die Produktanforderungen hinaus zu beeinträchtigen. Dies ist jedoch anwendungsabhängig und die Entscheidung sollte absichtlich vom Produktbesitzer getroffen werden. Beispiele zur Implementierung von MinDiff finden Sie in unserem Notebook-Tutorial .

1 Zhang, G., Bai, B., Zhang, J., Bai, K., Zhu, C., Zhao, T. (2020). Demografische Daten sollten nicht der Grund für die Toxizität sein: Verringerung der Diskriminierung in Textklassifizierungen durch Instanzgewichtung.
2 Prost, F., Qian H., Chen, Q., Chi, E., Chen, J., Beutel, A. (2019). Auf dem Weg zu einem besseren Kompromiss zwischen Leistung und Fairness mit kernelbasiertem Distributions-Matching.
3 Alabdulmohsin, I. (2020). Faire Klassifizierung durch uneingeschränkte Optimierung.
4 Dwork, C., Hardt, M., Pitassi, T., Reingold, O., Zemel, R. (2011). Fairness durch Bewusstsein.
5 Hardt, M., Price, E., Srebro, N. (2016). Chancengleichheit beim betreuten Lernen.
6 Chouldechova, A. (2016). Faire Vorhersage mit unterschiedlichen Auswirkungen: Eine Studie zur Voreingenommenheit bei Instrumenten zur Vorhersage von Rückfällen.

Ressourcen