Что такое исправление модели TensorFlow?

Если вы выявили проблемы справедливости в своей модели машинного обучения, доступны три основных типа технических вмешательств:

  • Методы предварительной обработки обучающих данных: сбор дополнительных данных, создание синтетических данных, корректировка весов примеров и частоты дискретизации различных срезов.
  • Методы моделирования во время обучения: изменение самой модели путем введения или изменения целей модели и добавления ограничений.
  • Методы постобучения : изменение выходных данных модели или интерпретация выходных данных для повышения производительности по метрикам.
Библиотека TensorFlow Model Remediation предоставляет методы обучения для вмешательства в модель.

Моделирование времени обучения

Библиотека TensorFlow Model Remediation предоставляет два метода для решения проблем предвзятости и справедливости в вашей модели: MinDiff и Counterfactual Logit Pairing (CLP) . Они описаны в таблице ниже.

Минимальная разница CLP
Когда следует использовать эту технику?

Чтобы модель одинаково хорошо предсказывала предпочтительную метку для всех значений чувствительного атрибута.

Для достижения группового равенства возможностей .

Чтобы гарантировать, что прогноз модели не изменится между «контрфактическими парами» (где чувствительный атрибут, на который ссылается функция, отличается). Например, в классификаторе токсичности такие примеры, как «я мужчина» и «я лесбиянка», не должны иметь различный прогноз.

Для достижения формы контрфактической справедливости .

Как это работает? Штрафует модель во время обучения за различия в распределении баллов между двумя наборами. Штрафует модель во время обучения за различия в выводе между контрфактической парой примеров .
Способы ввода Функции потерь работают с выходными данными, поэтому теоретически они не зависят от входных данных и архитектуры модели. Функции потерь работают с выходными данными, поэтому теоретически они не зависят от входных данных и архитектуры модели.