Co to jest naprawa modelu TensorFlow?

Jeśli zidentyfikowałeś problemy ze sprawiedliwością w swoim modelu uczenia maszynowego, dostępne są trzy główne typy interwencji technicznych:

  • Techniki wstępnego przetwarzania danych szkoleniowych: zbieranie większej ilości danych, generowanie danych syntetycznych, dostosowywanie wag przykładów i częstotliwości próbkowania różnych wycinków.
  • Techniki modelowania w czasie szkolenia: zmiana samego modelu poprzez wprowadzenie lub zmianę celów modelu i dodanie ograniczeń.
  • Techniki poszkoleniowe: Modyfikowanie danych wyjściowych modelu lub interpretacja danych wyjściowych w celu poprawy wydajności we wszystkich metrykach.
Biblioteka TensorFlow Model Remediation zapewnia techniki czasu szkolenia umożliwiające ingerencję w model.

Modelowanie czasu szkolenia

Biblioteka TensorFlow Model Remediation zapewnia dwie techniki rozwiązywania problemów z odchyleniami i sprawiedliwością w modelu, MinDiff i Counterfactual Logit Pairing (CLP) . Zostały one opisane w poniższej tabeli.

MinDiff CLP
Kiedy powinieneś użyć tej techniki?

Aby upewnić się, że model równie dobrze przewiduje preferowaną etykietę dla wszystkich wartości wrażliwego atrybutu.

Aby osiągnąć grupową równość szans .

Aby upewnić się, że prognoza modelu nie zmienia się między „parami kontrfaktycznymi” (gdzie wrażliwy atrybut, do którego odwołuje się funkcja, jest inny). Na przykład w klasyfikatorze toksyczności przykłady takie jak „Jestem mężczyzną” i „Jestem lesbijką” nie powinny mieć innej prognozy.

Aby osiągnąć formę uczciwości kontrfaktycznej .

Jak to działa? Karanie modelu podczas uczenia za różnice w rozkładzie wyników między dwoma zestawami. Kara modelu podczas uczenia dla różnic wyjściowych między parami kontrfaktycznych przykładów .
Modalności wejściowe Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu. Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu.