Weź udział w sympozjum Women in ML 7 grudnia Zarejestruj się teraz

Wskaźniki uczciwości: myślenie o ocenie uczciwości

Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Wskaźniki uczciwości to przydatne narzędzie do oceny klasyfikatorów binarnych i wieloklasowych pod kątem uczciwości. Ostatecznie mamy nadzieję rozszerzyć to narzędzie we współpracy z wami wszystkimi, aby ocenić jeszcze więcej kwestii.

Pamiętaj, że ocena ilościowa to tylko jeden z elementów oceny szerszego doświadczenia użytkownika. Zacznij od zastanowienia się nad różnymi kontekstami , w których użytkownik może doświadczyć Twojego produktu. Kim są różne typy użytkowników, które ma obsługiwać Twój produkt? Kogo jeszcze może dotyczyć to doświadczenie?

Rozważając wpływ sztucznej inteligencji na ludzi, należy zawsze pamiętać, że społeczności ludzkie są niezwykle złożone! Zrozumienie ludzi i ich tożsamości społecznych, struktur społecznych i systemów kulturowych są same w sobie ogromnymi polami otwartych badań. Dodaj złożoność różnic międzykulturowych na całym świecie, a nawet zdobycie przyczółka w zrozumieniu wpływu społecznego może być wyzwaniem. Gdy tylko jest to możliwe, zaleca się konsultację z odpowiednimi ekspertami dziedzinowymi, w tym z naukowcami społecznymi, socjolingwistami i antropologami kultury, a także z członkami populacji, w których technologia będzie wdrażana.

Pojedynczy model, na przykład model toksyczności, który wykorzystujemy w przykładowym colab , może być używany w wielu różnych kontekstach. Model toksyczności wdrożony na stronie internetowej w celu filtrowania obraźliwych komentarzy, na przykład, jest zupełnie innym przypadkiem użycia niż model wdrażany w przykładowym internetowym interfejsie użytkownika, w którym użytkownicy mogą wpisać zdanie i zobaczyć, jaki wynik daje model. W zależności od przypadku użycia i sposobu, w jaki użytkownicy doświadczają przewidywania modelu, Twój produkt będzie charakteryzował się różnymi zagrożeniami, skutkami i możliwościami i możesz chcieć ocenić pod kątem różnych kwestii dotyczących uczciwości.

Powyższe pytania są podstawą tego, jakie względy etyczne, w tym uczciwość, możesz chcieć wziąć pod uwagę podczas projektowania i rozwijania produktu opartego na ML. Te pytania motywują również, które dane i grupy użytkowników należy wykorzystać do oceny.

Zanim przejdziesz dalej, oto trzy zalecane zasoby na początek:

  • Poradnik People + AI dotyczący projektowania sztucznej inteligencji skoncentrowanej na człowieku: ten przewodnik jest doskonałym źródłem pytań i aspektów, o których należy pamiętać podczas projektowania produktu opartego na uczeniu maszynowym. Chociaż stworzyliśmy ten przewodnik z myślą o projektantach, wiele zasad pomoże odpowiedzieć na pytania takie jak postawione powyżej.
  • Wyciągnięte wnioski dotyczące uczciwości : podczas tego wykładu na Google I/O omówiono wnioski, których nauczyliśmy się w celu tworzenia i projektowania produktów integracyjnych.
  • ML Crash Course: Fairness : ML Crash Course ma 70-minutową sekcję poświęconą identyfikacji i ocenie problemów związanych z uczciwością

Po co więc patrzeć na poszczególne plastry? Ocena poszczególnych wycinków jest ważna, ponieważ dobre ogólne metryki mogą przesłonić słabą wydajność niektórych grup. Podobnie dobre wyniki w przypadku niektórych wskaźników (dokładność, AUC) nie zawsze przekładają się na akceptowalną wydajność w przypadku innych wskaźników (wskaźnik wyników fałszywie dodatnich, odsetek wyników fałszywie ujemnych), które są równie ważne w ocenie możliwości i szkód dla użytkowników.

Poniższe sekcje omówią niektóre aspekty, które należy wziąć pod uwagę.

Jakie grupy powinienem podzielić?

Ogólnie rzecz biorąc, dobrą praktyką jest podzielenie według tylu grup, na które może mieć wpływ Twój produkt, ponieważ nigdy nie wiadomo, kiedy wydajność jednej z nich może się różnić. Jeśli jednak nie masz pewności, pomyśl o różnych użytkownikach, którzy mogą angażować się w Twój produkt, i o tym, jak może to na nich wpłynąć. Rozważ w szczególności wycinki związane z drażliwymi cechami, takimi jak rasa, pochodzenie etniczne, płeć, narodowość, dochód, orientacja seksualna i status niepełnosprawności.

Co się stanie, jeśli nie mam danych oznaczonych dla wycinków, które chcę zbadać?

Dobre pytanie. Wiemy, że wiele zestawów danych nie ma etykiet z prawdą podstawową dla poszczególnych atrybutów tożsamości.

Jeśli znajdziesz się w takiej sytuacji, zalecamy kilka podejść:

  1. Zidentyfikuj, czy masz atrybuty, które mogą dać ci pewien wgląd w wyniki w różnych grupach. Na przykład geografia , która nie jest równoznaczna z pochodzeniem etnicznym i rasą, może pomóc w odkryciu wszelkich odmiennych wzorców wydajności
  2. Zidentyfikuj, czy istnieją reprezentatywne publiczne zbiory danych, które mogą dobrze odwzorować Twój problem. W witrynie Google AI można znaleźć szereg różnorodnych i kompleksowych zbiorów danych, w tym między innymi Project Respect , Inclusive Images i Open Images Extended .
  3. W razie potrzeby wykorzystaj reguły lub klasyfikatory, aby oznaczyć dane obiektywnymi atrybutami na poziomie powierzchni. Na przykład możesz oznaczyć tekst etykietą określającą, czy w zdaniu występuje termin tożsamości. Pamiętaj, że klasyfikatory mają swoje własne wyzwania, a jeśli nie będziesz ostrożny, mogą również wprowadzić kolejną warstwę uprzedzeń. Jasno określ, co faktycznie klasyfikuje Twój klasyfikator. Na przykład klasyfikator wieku na obrazach w rzeczywistości klasyfikuje postrzegany wiek . Ponadto, jeśli to możliwe, wykorzystuj atrybuty na poziomie powierzchni, które można obiektywnie zidentyfikować w danych. Na przykład niewskazane jest tworzenie klasyfikatora obrazu dla rasy lub pochodzenia etnicznego, ponieważ nie są to cechy wizualne, które można zdefiniować na obrazie. Klasyfikator prawdopodobnie wyłowiłby proxy lub stereotypy. Zamiast tego zbudowanie klasyfikatora dla odcienia skóry może być bardziej odpowiednim sposobem oznaczania i oceny obrazu. Na koniec zapewnij wysoką dokładność klasyfikatorów oznaczających takie atrybuty.
  4. Znajdź więcej reprezentatywnych danych oznaczonych etykietą

Zawsze upewnij się, że przeprowadzasz ocenę na wielu zróżnicowanych zestawach danych.

Jeśli Twoje dane z oceny nie są odpowiednio reprezentatywne dla Twojej bazy użytkowników lub typów danych, z którymi możesz się spotkać, możesz otrzymać zwodniczo dobre wskaźniki uczciwości. Podobnie wysoka wydajność modelu w jednym zestawie danych nie gwarantuje wysokiej wydajności w innych.

Należy pamiętać, że podgrupy nie zawsze są najlepszym sposobem klasyfikacji osób.

Ludzie są wielowymiarowi i należą do więcej niż jednej grupy, nawet w obrębie jednego wymiaru – rozważ kogoś, kto jest wielorasowy lub należy do wielu grup rasowych. Ponadto, chociaż ogólne wskaźniki dla danej grupy rasowej mogą wyglądać sprawiedliwie, poszczególne interakcje, takie jak rasa i płeć razem, mogą wykazywać niezamierzone uprzedzenia. Co więcej, wiele podgrup ma rozmyte granice, które są stale przerysowywane.

Kiedy przetestowałem wystarczającą liczbę wycinków i skąd mam wiedzieć, które wycinki należy przetestować?

Zdajemy sobie sprawę, że istnieje ogromna liczba grup lub przekrojów, które mogą być istotne do testowania, i jeśli to możliwe, zalecamy przekrojenie i ocenę zróżnicowanego i szerokiego zakresu przekrojów, a następnie głębokie nurkowanie, w którym zauważysz możliwości poprawy. Ważne jest również, aby pamiętać, że nawet jeśli nie widzisz obaw dotyczących testowanych wycinków, nie oznacza to, że Twój produkt działa dla wszystkich użytkowników, a uzyskiwanie różnych opinii użytkowników i testowanie jest ważne, aby zapewnić, że stale identyfikujesz nowe możliwości.

Na początek zalecamy przemyślenie konkretnego przypadku użycia i różnych sposobów, w jakie użytkownicy mogą angażować się w Twój produkt. Jak różni użytkownicy mogą mieć różne doświadczenia? Co to oznacza dla plasterków, które powinieneś ocenić? Zbieranie informacji zwrotnych od różnych użytkowników może również wskazać potencjalne wycinki do ustalenia priorytetów.

Jakie dane mam wybrać?

Wybierając metryki do oceny dla swojego systemu, zastanów się, kto będzie doświadczał Twojego modelu, w jaki sposób będzie on doświadczany i jakie będą skutki tego doświadczenia.

Na przykład, w jaki sposób twój model zapewnia ludziom większą godność lub autonomię albo pozytywnie wpływa na ich samopoczucie emocjonalne, fizyczne lub finansowe? W przeciwieństwie do tego, w jaki sposób przewidywania twojego modelu mogą zmniejszyć godność lub autonomię ludzi albo negatywnie wpłynąć na ich samopoczucie emocjonalne, fizyczne lub finansowe?

Ogólnie zalecamy wycięcie wszystkich istniejących metryk wydajności jako dobrą praktykę. Zalecamy również ocenę danych na wielu progach , aby zrozumieć, jak próg może wpływać na skuteczność w różnych grupach.

Ponadto, jeśli istnieje przewidywana etykieta, która jest jednolicie „dobra” lub „zła”, rozważ zgłoszenie (dla każdej podgrupy) szybkości, z jaką ta etykieta jest przewidywana. Na przykład „dobra” etykieta to etykieta, której przewidywanie przyznaje osobie dostęp do jakiegoś zasobu lub umożliwia wykonanie określonej czynności.

Krytyczne wskaźniki sprawiedliwości do klasyfikacji

Myśląc o modelu klasyfikacyjnym, pomyśl o skutkach błędów (różnic między etykietą „rzeczywista prawda” a etykietą z modelu). Jeśli niektóre błędy mogą stwarzać większe możliwości lub szkodzić Twoim użytkownikom, upewnij się, że oceniasz odsetek tych błędów w różnych grupach użytkowników. Te poziomy błędów są zdefiniowane poniżej, w metrykach obecnie obsługiwanych przez wersję beta wskaźników rzetelności.

W ciągu przyszłego roku mamy nadzieję opublikować studia przypadków różnych przypadków użycia i powiązane z nimi metryki, abyśmy mogli lepiej wskazać, kiedy różne metryki mogą być najbardziej odpowiednie.

Metryki dostępne dzisiaj we wskaźnikach uczciwości

Wskaźnik dodatni / wskaźnik ujemny

  • Definicja: Odsetek punktów danych sklasyfikowanych jako dodatnie lub ujemne, niezależnie od podstawowej prawdy
  • Odnosi się do: Równość demograficzna i równość wyników, jeśli są równe we wszystkich podgrupach
  • Kiedy używać tego wskaźnika: Sprawiedliwe przypadki użycia, w których ważne jest posiadanie równych końcowych procentów grup

Współczynnik prawdziwie dodatniej / współczynnik fałszywie ujemny

  • Definicja: Odsetek pozytywnych punktów danych (zgodnie z podstawowym opisem), które są poprawnie sklasyfikowane jako pozytywne, lub procent pozytywnych punktów danych, które są błędnie sklasyfikowane jako negatywne
  • Odnosi się do: Równość szans (dla klasy pozytywnej), gdy są równe we wszystkich podgrupach
  • Kiedy używać tego miernika: Sprawiedliwe przypadki użycia, w których ważne jest, aby ten sam procent wykwalifikowanych kandydatów uzyskał ocenę pozytywną w każdej grupie. Jest to najczęściej zalecane w przypadku klasyfikowania pozytywnych wyników, takich jak wnioski o pożyczkę, przyjęcia do szkoły lub treści przyjazne dzieciom

Współczynnik prawdziwie ujemnych / współczynnik fałszywie dodatnich

  • Definicja: Odsetek negatywnych punktów danych (zgodnie z podstawowym opisem), które są poprawnie sklasyfikowane jako negatywne, lub procent negatywnych punktów danych, które są błędnie sklasyfikowane jako pozytywne
  • Odnosi się do: Równość szans (dla klasy negatywnej), gdy są równe we wszystkich podgrupach
  • Kiedy stosować tę metrykę: Sprawiedliwe przypadki użycia, w których wskaźniki błędów (lub błędne zaklasyfikowanie czegoś jako pozytywnego) są bardziej niepokojące niż klasyfikowanie pozytywnych. Dzieje się tak najczęściej w przypadkach nadużyć, w których pozytywy często prowadzą do negatywnych działań. Są one również ważne dla technologii analizy twarzy, takich jak wykrywanie twarzy lub atrybuty twarzy

Dokładność i AUC

  • Odnosi się do: Predykcyjny parytet, gdy jest równy we wszystkich podgrupach
  • Kiedy stosować te metryki: przypadki, w których precyzja zadania jest najbardziej krytyczna (niekoniecznie w określonym kierunku), takie jak identyfikacja twarzy lub grupowanie twarzy

Wskaźnik fałszywych odkryć

  • Definicja: Odsetek ujemnych punktów danych (zgodnie z podstawowymi nazwami), które są błędnie sklasyfikowane jako dodatnie ze wszystkich punktów danych sklasyfikowanych jako dodatnie. To też jest odwrotność PPV
  • Odnosi się do: Parzystość przewidywania (znana również jako kalibracja), gdy jest równa we wszystkich podgrupach
  • Kiedy używać tego wskaźnika: przypadki, w których część poprawnych pozytywnych prognoz powinna być równa we wszystkich podgrupach

Wskaźnik fałszywych pominięć

  • Definicja: Odsetek pozytywnych punktów danych (zgodnie z podstawowymi nazwami), które zostały błędnie sklasyfikowane jako negatywne spośród wszystkich punktów danych sklasyfikowanych jako negatywne. Jest to również odwrotność NPV
  • Odnosi się do: Parzystość przewidywania (znana również jako kalibracja), gdy jest równa we wszystkich podgrupach
  • Kiedy używać tego wskaźnika: przypadki, w których odsetek poprawnych prognoz negatywnych powinien być równy we wszystkich podgrupach

Ogólny współczynnik przerzuceń / Prognozowany współczynnik przerzuceń z dodatniej na negatywną / Współczynnik przerzucenia z prognozy ujemnej do dodatniej

  • Definicja: Prawdopodobieństwo, że klasyfikator poda inną prognozę, jeśli atrybut tożsamości w danym obiekcie został zmieniony.
  • Odnosi się do: Uczciwość kontrfaktyczna
  • Kiedy używać tej metryki: Podczas określania, czy prognoza modelu zmienia się, gdy wrażliwe atrybuty, do których odwołuje się przykład, są usuwane lub zastępowane. Jeśli tak, rozważ użycie techniki Counterfactual Logit Pairing dostępnej w bibliotece Tensorflow Model Remediation.

Liczba przewrotek / Przewidywanie przewrotek z dodatniej na ujemną Liczba przewrotek / Przewidywanie z przewrotek od ujemnej do dodatniej *

  • Definicja: Ile razy klasyfikator podaje inną predykcję, jeśli termin tożsamości w danym przykładzie został zmieniony.
  • Odnosi się do: Uczciwość kontrfaktyczna
  • Kiedy używać tej metryki: Podczas określania, czy prognoza modelu zmienia się, gdy wrażliwe atrybuty, do których odwołuje się przykład, są usuwane lub zastępowane. Jeśli tak, rozważ użycie techniki Counterfactual Logit Pairing dostępnej w bibliotece Tensorflow Model Remediation.

Przykłady wybranych metryk

  • Systematyczne nie wykrywanie twarzy w aplikacji aparatu może prowadzić do negatywnych doświadczeń użytkowników dla niektórych grup użytkowników. W takim przypadku fałszywie negatywy w systemie wykrywania twarzy mogą prowadzić do awarii produktu, podczas gdy fałszywie pozytywy (wykrywanie twarzy, gdy jej nie ma) mogą nieco irytować użytkownika. Dlatego ocena i minimalizacja współczynnika wyników fałszywie ujemnych jest ważna w tym przypadku użycia.
  • Nieuczciwe oznaczanie komentarzy tekstowych od niektórych osób jako „spam” lub „wysoka toksyczność” w systemie moderacji prowadzi do wyciszenia niektórych głosów. Z jednej strony wysoki odsetek wyników fałszywie pozytywnych prowadzi do nieuczciwej cenzury. Z drugiej strony, wysoki wskaźnik wyników fałszywie negatywnych może prowadzić do rozprzestrzeniania się toksycznych treści z niektórych grup, co może zarówno zaszkodzić użytkownikowi, jak i stanowić szkodę reprezentacyjną dla tych grup. W związku z tym obie metryki są ważne do rozważenia, oprócz metryk, które uwzględniają wszelkiego rodzaju błędy, takie jak dokładność lub AUC.

Nie widzisz danych, których szukasz?

Postępuj zgodnie z dokumentacją tutaj, aby dodać własne niestandardowe metryki.

Uwagi końcowe

Luka w metryce między dwiema grupami może oznaczać, że Twój model może mieć niesprawiedliwe pochylenia . Wyniki należy interpretować zgodnie z przypadkiem użycia. Jednak pierwszą oznaką, że możesz niesprawiedliwie traktować jedną grupę użytkowników, jest to, że wskaźniki między tą grupą użytkowników a Twoją ogólną grupą znacznie się różnią. Przyglądając się tym różnicom, należy uwzględnić przedziały ufności. Jeśli masz za mało próbek w danym wycinku, różnica między metrykami może nie być dokładna.

Osiągnięcie równości między grupami na podstawie wskaźników uczciwości nie oznacza, że ​​model jest sprawiedliwy. Systemy są bardzo złożone, a osiągnięcie równości na jednej (lub nawet wszystkich) dostarczonych metrykach nie może zagwarantować uczciwości.

Oceny uczciwości należy przeprowadzać przez cały proces rozwoju i po uruchomieniu (nie na dzień przed uruchomieniem). Podobnie jak ulepszanie produktu jest procesem ciągłym i podlega dostosowaniu w oparciu o opinie użytkowników i rynku, tak aby Twój produkt był uczciwy i sprawiedliwy, wymaga ciągłej uwagi. Ponieważ zmieniają się różne aspekty modelu, takie jak dane uczące, dane wejściowe z innych modeli lub sam projekt, prawdopodobnie zmienią się metryki sprawiedliwości. Jednorazowe wyczyszczenie paska nie wystarczy, aby zapewnić, że wszystkie wchodzące w interakcje elementy pozostały nienaruszone z biegiem czasu.

Testy kontradyktoryjne należy przeprowadzać dla rzadkich, złośliwych przykładów. Oceny uczciwości nie mają na celu zastąpienia testów kontradyktoryjnych. Dodatkowa obrona przed rzadkimi, ukierunkowanymi przykładami jest kluczowa, ponieważ te przykłady prawdopodobnie nie będą widoczne w danych szkoleniowych lub ewaluacyjnych.