Неверное логит-спаривание для исправления модели

Counterfactual Logit Pairing (CLP) — это метод в библиотеке исправления моделей TensorFlow, который направлен на то, чтобы гарантировать, что прогноз модели не изменится, когда конфиденциальный атрибут, указанный в примере, либо удален, либо заменен. Например, в классификаторе токсичности такие примеры, как «я мужчина» и «я лесбиянка», не должны иметь различный прогноз токсичности.

Более подробное обсуждение этой темы см. в исследованиях контрфактической честности , состязательных логит-пар и контрфактических логит-пар .

Когда следует использовать Counterfactual Logit Pairing?

CLP предназначен для сценария, в котором изменение конфиденциального атрибута, на который ссылается функция, изменяет прогноз (когда прогноз не должен был измениться). При этом он пытается ответить на вопрос: подвержена ли эта модель изменению своего прогноза, основанного исключительно на наличии атрибута идентичности? Подробнее о контрфактической справедливости см. в исследовательской статье .

Эта проблема была обнаружена в Perspective API — инструменте машинного обучения, используемом разработчиками и издателями для анализа содержания комментариев на наличие потенциально оскорбительного или токсичного текста. API-интерфейс Perspective принимает текст комментария в качестве входных данных и возвращает оценку от 0 до 1 в качестве показателя вероятности того, что комментарий является токсичным. Например, такой комментарий, как «Ты идиот», может получить оценку вероятности 0,8 за токсичность, что указывает на то, насколько вероятно, что читатель воспримет этот комментарий как токсичный.

После первоначального запуска Perspective API внешние пользователи обнаружили положительную корреляцию между идентификационными данными, содержащими информацию о расе или сексуальной ориентации, и прогнозируемой оценкой токсичности. Например, фраза «Я лесбиянка» получила 0,51 балла, а фраза «Я мужчина» — 0,2 балла ниже. В этом случае термины идентичности не использовались уничижительно, поэтому не должно быть такой существенной разницы в баллах. Для получения дополнительной информации об API Perspective см. запись в блоге о непреднамеренном предвзятости и терминах идентификации .

Как я могу измерить эффект Counterfactual Logit Pairing?

Если вы оценили свою модель машинного обучения и определили, что изменения в прогнозах из-за изменений в определенных конфиденциальных атрибутах будут вредными, вам следует измерить распространенность этой проблемы. В случае бинарного или мультиклассового классификатора переворот определяется как классификатор, дающий другое решение (например, изменение прогноза с токсичного на нетоксичное) при изменении чувствительного атрибута, указанного в примере. Оценивая распространенность флипов , вы можете посмотреть на количество флипов и скорость флипов. Принимая во внимание потенциальный вред для пользователя, вызванный переворотом , и частоту переворотов, вы можете определить, следует ли решать эту проблему путем применения CLP. Дополнительные сведения об этих показателях см. в руководстве по индикаторам честности .

К каким типам моделей я могу применить Counterfactual Logit Pairing?

Этот метод можно использовать с бинарными и многоклассовыми классификаторами различных типов данных, таких как текст, изображения и видео.

Когда Counterfactual Logit Pairing мне не подходит?

CLP не подходит для всех ситуаций. Например, не имеет значения, законно ли присутствие или отсутствие термина идентичности изменяет предсказание классификатора. Это может иметь место, если классификатор стремится определить, ссылается ли функция на конкретную группу идентификаторов. Этот метод также менее эффективен, если непреднамеренная корреляция между результатом классификатора и группой удостоверений не имеет негативных последствий для пользователя.

CLP полезен для проверки того, изменяет ли языковая модель или классификатор токсичности свои выходные данные несправедливым образом (например, классифицируя фрагмент текста как токсичный) просто потому, что такие термины, как «черный», «гей», «мусульманин» присутствуют в текст. CLP не предназначен для прогнозирования отдельных лиц, например, путем манипулирования личностью человека. См. этот документ для более подробного обсуждения.

Важно помнить, что CLP — это один из методов в наборе инструментов ответственного ИИ , который специально разработан для решения ситуаций, когда конфиденциальные атрибуты, на которые ссылаются функции, изменяют прогноз. В зависимости от вашей модели и варианта использования также может быть важно учитывать, существуют ли пробелы в производительности для исторически маргинализированных групп, особенно потому, что CLP может повлиять на производительность группы. Это можно оценить с помощью индикаторов справедливости и решить с помощью MinDiff , который также находится в библиотеке исправления моделей TensorFlow.

Вы также должны подумать, подходит ли ваш продукт для машинного обучения. Если это так, ваш рабочий процесс машинного обучения должен быть разработан в соответствии с известными рекомендуемыми практиками, такими как четко определенная модельная задача и четкие потребности в продукте.

Как работает Counterfactual Logit Pairing?

CLP добавляет к исходной модели потерю, которая обеспечивается логит-связкой исходного и контрфактического примера из набора данных. Вычисляя разницу между двумя значениями, вы наказываете различия чувствительных терминов, которые вызывают изменение вашего прогноза классификатора. Эта работа была основана на исследованиях состязательных логит-пар и контрфактических логит-пар .