Dzień Społeczności ML jest 9 listopada! Dołącz do nas na aktualizacje z TensorFlow Jax i więcej Dowiedz się więcej

Wymagania MinDiff

Kiedy należy używać MinDiff?

Zalecamy stosowanie MinDiff w przypadkach, w których model działa ogólnie dobrze, ale częściej powoduje szkodliwe błędy w przykładach należących do wrażliwej grupy, a użytkownik chce wypełnić lukę w wydajności. Drażliwe grupy zainteresowań mogą się różnić w zależności od przypadku użycia, ale często obejmują klasy chronione, takie jak rasa, religia, płeć, orientacja seksualna i inne. W całym dokumencie będziemy używać terminu „grupa wrażliwa” w odniesieniu do dowolnego zestawu przykładów należących do klasy chronionej.

Istnieją dwa podstawowe warunki korzystania z funkcji MinDiff w celu rozwiązania problemów z segmentami danych o słabych wynikach:

  • Już dostroiłeś i oceniłeś swój model, identyfikując metryki, które pokazują nieskuteczne fragmenty danych. Należy to zrobić przed zastosowaniem naprawy modelu.
  • Masz lub możesz uzyskać wystarczającą liczbę odpowiednich oznaczonych przykładów należących do grupy o słabych wynikach (więcej szczegółów poniżej).

MinDiff to jedna z wielu technik korygowania nierównego zachowania. W szczególności może to być dobry wybór, gdy próbujesz bezpośrednio wyrównać wyniki między grupami. MinDiff można stosować w połączeniu z innymi podejściami, takimi jak rozszerzanie danych i innymi, co może prowadzić do lepszych wyników. Jeśli jednak chcesz ustalić priorytet, w którą technikę zainwestować, powinieneś to zrobić zgodnie z potrzebami produktu.

Stosując MinDiff, możesz zauważyć spadek wydajności lub nieznaczne przesunięcie w przypadku grup z najlepszymi wynikami w miarę poprawy wyników grup o słabszych wynikach. Ten kompromis jest oczekiwany i należy go ocenić w kontekście wymagań produktu. W praktyce często widzieliśmy, że MinDiff nie powoduje spadku wydajności wycinków poniżej akceptowalnych poziomów, ale jest to specyficzne dla aplikacji i decyzja, którą musi podjąć właściciel produktu.

Na jakich typach modeli mogę zastosować MinDiff?

Wykazano, że funkcja MinDiff jest konsekwentnie skuteczna, gdy jest stosowana do klasyfikatorów binarnych. Dostosowanie metody do innych zastosowań jest możliwe, ale nie zostało w pełni przetestowane. Podjęto pewne prace, aby wykazać sukces w zadaniach wielokrotnej klasyfikacji i rankingu 1, ale jakiekolwiek użycie MinDiff na tych lub innych typach modeli powinno być traktowane jako eksperymentalne.

Na jakich metrykach mogę zastosować MinDiff?

MinRiff może być dobrym rozwiązaniem, gdy metryka, którą próbujesz wyrównać między grupami, jest współczynnikiem fałszywie dodatnich (FPR) lub fałszywie ujemnym współczynnikiem (FNR) , ale może działać w przypadku innych wskaźników. Zasadniczo MinDiff może działać, gdy metryka, na którą kierujesz reklamy, jest wynikiem różnic w rozkładach wyników między przykładami należącymi do wrażliwej grupy a przykładami nienależącymi do wrażliwej grupy.

Tworzenie zbioru danych MinDiff

Przygotowując się do treningu z MinDiff, musisz przygotować trzy oddzielne zestawy danych. Podobnie jak w przypadku zwykłego szkolenia, zestawy danych MinDiff powinny być reprezentatywne dla użytkowników obsługiwanych przez model. MinDiff może działać bez tego, ale w takich przypadkach należy zachować szczególną ostrożność.

Zakładając, że próbujesz poprawić FPR swojego modelu dla przykładów należących do wrażliwej klasy, będziesz potrzebować:

  1. Oryginalny zestaw szkoleniowy - oryginalny zestaw danych, który był używany do uczenia modelu bazowego
  2. Zestaw wrażliwy MinDiff - zbiór danych przykładów należących do klasy wrażliwej z tylko etykietami negatywnej podstawy. Te przykłady zostaną wykorzystane tylko do obliczenia straty MinDiff.
  3. MinDiff niewrażliwe set - Zestaw danych przykładów nie należących do klasy z wrażliwym tylko negatywne etykiety ziemia prawdy. Te przykłady zostaną wykorzystane tylko do obliczenia straty MinDiff.

Korzystając z biblioteki, połączysz wszystkie trzy z tych zestawów danych w jeden zestaw danych, który będzie służył jako nowy zestaw szkoleniowy.

Wybór przykładów dla MinDiff

W powyższym przykładzie może wydawać się sprzeczne z intuicją, aby wyrzeźbić zestawy negatywnie oznakowanych przykładów, jeśli chodzi przede wszystkim o różnice w odsetku wyników fałszywie pozytywnych . Należy jednak pamiętać, że fałszywie pozytywna prognoza pochodzi z negatywnie oznaczonego przykładu nieprawidłowo sklasyfikowanego jako pozytywny.

Gromadząc dane dla MinDiff, powinieneś wybrać przykłady, w których rozbieżności w wydajności są ewidentne. W naszym przykładzie powyżej oznaczało to wybranie negatywnie oznaczonych przykładów w celu rozwiązania problemu FPR. Gdybyśmy byli zainteresowani ukierunkowaniem na FNR, musielibyśmy wybrać przykłady pozytywnie oznaczone.

Ile danych potrzebuję?

Dobre pytanie - to zależy od twojego przypadku użycia! W zależności od architektury modelu, dystrybucji danych i konfiguracji MinDiff ilość potrzebnych danych może się znacznie różnić. W poprzednich aplikacjach widzieliśmy, że MinDiff działa dobrze z 5000 przykładów w każdym zestawie treningowym MinDiff (zestawy 2 i 3 w poprzedniej sekcji). Przy mniejszej ilości danych istnieje zwiększone ryzyko obniżenia wydajności, ale może to być minimalne lub akceptowalne w granicach ograniczeń produkcyjnych. Po zastosowaniu MinDiff będziesz musiał dokładnie ocenić swoje wyniki, aby zapewnić akceptowalną wydajność. Jeśli są niewiarygodne lub nie spełniają oczekiwań dotyczących wydajności, możesz nadal rozważyć zebranie większej ilości danych.

Kiedy MinDiff nie jest dla mnie odpowiednie?

MinDiff to potężna technika, która może zapewnić imponujące wyniki, ale nie oznacza to, że jest to właściwa metoda we wszystkich sytuacjach. Jej przypadkowe zastosowanie nie gwarantuje osiągnięcia odpowiedniego rozwiązania.

Oprócz wymagań omówionych powyżej istnieją przypadki, w których MinDiff może być technicznie wykonalne, ale nieodpowiednie. Zawsze należy projektować przepływ pracy ML zgodnie ze znanymi zalecanymi praktykami. Na przykład, jeśli zadanie modelu jest źle zdefiniowane, produkt wymaga niejasności lub przykładowe etykiety są nadmiernie wypaczone, należy nadać priorytet rozwiązaniu tych problemów. Podobnie, jeśli nie masz jasnej definicji grupy wrażliwej lub nie jesteś w stanie wiarygodnie określić, czy przykłady należą do grupy wrażliwej, nie będziesz w stanie skutecznie zastosować MinRiff.

Na wyższym poziomie zawsze powinieneś rozważyć, czy twój produkt jest w ogóle odpowiedni dla ML. Jeśli tak, rozważ potencjalne wektory szkód dla użytkownika, jakie stwarza. Dążenie do odpowiedzialnej ML jest wieloaspektowym wysiłkiem, którego celem jest przewidywanie szerokiego zakresu potencjalnych szkód; MinDiff może pomóc złagodzić niektóre z nich, ale wszystkie wyniki zasługują na dokładne rozważenie.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Uczciwość rankingu rekomendacji poprzez porównania parami.