Rekultywacja modelu | Responsible AI Toolkit

Ta strona została przetłumaczona przez Cloud Translation API.

Co to jest naprawa modelu TensorFlow?

Jeśli zidentyfikowałeś problemy ze sprawiedliwością w swoim modelu uczenia maszynowego, dostępne są trzy główne typy interwencji technicznych:

Techniki wstępnego przetwarzania danych szkoleniowych: zbieranie większej ilości danych, generowanie danych syntetycznych, dostosowywanie wag przykładów i częstotliwości próbkowania różnych wycinków.
Techniki modelowania w czasie szkolenia: zmiana samego modelu poprzez wprowadzenie lub zmianę celów modelu i dodanie ograniczeń.
Techniki poszkoleniowe: Modyfikowanie danych wyjściowych modelu lub interpretacja danych wyjściowych w celu poprawy wydajności we wszystkich metrykach.

Biblioteka TensorFlow Model Remediation zapewnia techniki czasu szkolenia umożliwiające ingerencję w model.

Modelowanie czasu szkolenia

Biblioteka TensorFlow Model Remediation zapewnia dwie techniki rozwiązywania problemów z odchyleniami i sprawiedliwością w modelu, MinDiff i Counterfactual Logit Pairing (CLP) . Zostały one opisane w poniższej tabeli.

	MinDiff	CLP
Kiedy powinieneś użyć tej techniki?	Aby upewnić się, że model równie dobrze przewiduje preferowaną etykietę dla wszystkich wartości wrażliwego atrybutu. Aby osiągnąć grupową równość szans .	Aby upewnić się, że prognoza modelu nie zmienia się między „parami kontrfaktycznymi” (gdzie wrażliwy atrybut, do którego odwołuje się funkcja, jest inny). Na przykład w klasyfikatorze toksyczności przykłady takie jak „Jestem mężczyzną” i „Jestem lesbijką” nie powinny mieć innej prognozy. Aby osiągnąć formę uczciwości kontrfaktycznej .
Jak to działa?	Karanie modelu podczas uczenia za różnice w rozkładzie wyników między dwoma zestawami.	Kara modelu podczas uczenia dla różnic wyjściowych między parami kontrfaktycznych przykładów .
Modalności wejściowe	Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu.	Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu.

MinDiff

CLP

Kiedy powinieneś użyć tej techniki?

Aby upewnić się, że model równie dobrze przewiduje preferowaną etykietę dla wszystkich wartości wrażliwego atrybutu.

Aby osiągnąć grupową równość szans .

Aby upewnić się, że prognoza modelu nie zmienia się między „parami kontrfaktycznymi” (gdzie wrażliwy atrybut, do którego odwołuje się funkcja, jest inny). Na przykład w klasyfikatorze toksyczności przykłady takie jak „Jestem mężczyzną” i „Jestem lesbijką” nie powinny mieć innej prognozy.

Aby osiągnąć formę uczciwości kontrfaktycznej .

Jak to działa?

Karanie modelu podczas uczenia za różnice w rozkładzie wyników między dwoma zestawami.

Kara modelu podczas uczenia dla różnic wyjściowych między parami kontrfaktycznych przykładów .

Modalności wejściowe

Funkcje strat działają na wyjściu, więc teoretycznie są niezależne od architektury wejściowej i modelu.