MinDiff — это метод исправления модели, который стремится уравнять два распределения. На практике его можно использовать для балансировки частоты ошибок в разных фрагментах ваших данных путем штрафования различий в распределении.
Как правило, вы применяете MinDiff, пытаясь обеспечить групповую справедливость, например, минимизируя разницу в коэффициенте ложных срабатываний (FPR) или ложноотрицательном уровне (FNR) между срезом данных, принадлежащим конфиденциальному классу, и более производительным срезом. Для более подробного обсуждения показателей справедливости просмотрите литературу по этому вопросу. 1 2 3
Как работает MinDiff?
Учитывая два набора примеров из нашего набора данных, MinDiff наказывает модель во время обучения за различия в распределении оценок между двумя наборами. Чем менее различимы два набора основаны на оценках предсказания, тем меньший штраф будет применен.
Штраф применяется путем добавления компонента к потерям, которые модель использует для обучения. Его можно рассматривать как измерение разницы в распределении предсказаний модели. По мере обучения модель пытается минимизировать штраф, сближая распределения, как показано на графиках ниже.
Применение MinDiff может привести к компромиссам в отношении производительности исходной задачи. MinDiff может быть эффективным, не снижая производительность сверх потребностей продукта, но решение о балансе между производительностью и эффективностью MinDiff должно приниматься сознательно владельцем продукта. Примеры, показывающие, как реализовать MinDiff, см. в записной книжке с примерами исправления модели .
Ресурсы
Учебник по применению MinDiff к модели классификации текста см. в блокноте MinDiff Keras .
Запись блога о MinDiff в блоге TensorFlow см. в статье «Применение MinDiff для улучшения модели» .
Полную библиотеку Model Remediation см. в репозитории Github по исправлению модели .
Дворк, К., Хардт, М., Питасси, Т., Рейнгольд, О., Земель, Р. (2011). Справедливость через осознание. ↩
Хардт, М., Прайс, Э., Сребро, Н. (2016). Равенство возможностей в контролируемом обучении. ↩
Чулдечева, А. (2016). Справедливое предсказание с несоизмеримым влиянием: исследование предвзятости в инструментах предсказания рецидивизма. ↩