Контрфактическое объединение логитов для исправления модели

Контрфактическое логит-спаривание (CLP) — это метод в библиотеке исправления моделей TensorFlow, который призван гарантировать, что прогноз модели не изменится, когда чувствительный атрибут, на который ссылается пример, будет удален или заменен. Например, в классификаторе токсичности такие примеры, как «Я мужчина» и «Я лесбиянка», не должны иметь разные прогнозы токсичности.

Более подробное обсуждение этой темы можно найти в исследовании контрфактической справедливости , состязательного логит-спаривания и контрфактического логит-спаривания .

Когда следует использовать Counterfactual Logit Pairing?

CLP рассматривает сценарий, когда изменение конфиденциального атрибута, на который ссылается объект, меняет прогноз (когда прогноз не должен был измениться). При этом он пытается ответить на вопрос: способна ли эта модель изменить свой прогноз исключительно на основании наличия атрибута идентичности? Подробную информацию о контрфактической справедливости см. в исследовательской статье .

Эта проблема наблюдалась в Perspective API — инструменте машинного обучения, используемом разработчиками и издателями для анализа содержимого комментариев на наличие потенциально оскорбительного или токсичного текста. API Perspective принимает текст комментария в качестве входных данных и возвращает оценку от 0 до 1, указывающую вероятность того, что комментарий является токсичным. Например, комментарий типа «Ты идиот» может получить оценку вероятности токсичности 0,8, указывающую, насколько вероятно, что читатель воспримет этот комментарий как токсичный.

После первого запуска Perspective API внешние пользователи обнаружили положительную корреляцию между идентификационными терминами, содержащими информацию о расовой принадлежности или сексуальной ориентации, и прогнозируемым показателем токсичности. Например, фраза «Я лесбиянка» получила оценку 0,51, а фраза «Я мужчина» получила меньший балл — 0,2. В этом случае термины идентичности не использовались уничижительно, поэтому не должно быть такой значительной разницы в баллах. Дополнительные сведения о Perspective API см. в записи блога о непреднамеренной предвзятости и терминах идентичности .

Как я могу измерить эффект контрфактического логит-спаривания?

Если вы оценили свою модель машинного обучения и определили, что изменения в прогнозах из-за изменений конкретных чувствительных атрибутов будут вредными, вам следует измерить распространенность этой проблемы. В случае бинарного или многоклассового классификатора переворот определяется как классификатор, дающий другое решение (например, изменение прогноза с токсичного на нетоксичный) при изменении чувствительного атрибута, упомянутого в примере. Оценивая распространенность переворотов , вы можете посмотреть на количество и частоту переворотов . Принимая во внимание потенциальный вред для пользователя, вызванный переворотом , и частоту возникновения переворотов, вы можете определить, следует ли решить эту проблему с помощью CLP. Дополнительную информацию об этих показателях можно найти в руководстве «Показатели справедливости» .

К каким типам моделей я могу применить Counterfactual Logit Pairing?

Этот метод можно использовать с двоичными и многоклассовыми классификаторами различных типов данных, таких как текст, изображения и видео.

Когда Counterfactual Logit Pairing мне не подходит?

CLP не является подходящим методом для всех ситуаций. Например, не имеет значения, действительно ли присутствие или отсутствие идентификационного термина изменяет предсказание классификатора. Это может быть тот случай, если классификатор стремится определить, ссылается ли признак на определенную группу идентификаторов. Этот метод также менее эффективен, если непреднамеренная корреляция между результатом классификатора и идентификационной группой не имеет негативных последствий для пользователя.

CLP полезен для проверки того, изменяет ли языковая модель или классификатор токсичности несправедливые результаты (например, классифицируя фрагмент текста как токсичный) просто потому, что в нем присутствуют такие термины, как «черный», «гей», «мусульманин». текст. CLP не предназначен для прогнозирования личности, например, путем манипулирования личностью человека. См. этот документ для более подробного обсуждения.

Важно помнить, что CLP — это один из методов в наборе инструментов Responsible AI Toolkit , специально разработанный для решения ситуации, когда чувствительные атрибуты, указанные в функциях, изменяют прогноз. В зависимости от вашей модели и варианта использования также может быть важно учитывать, существуют ли пробелы в производительности для исторически маргинализированных групп, особенно потому, что CLP может повлиять на производительность группы. Это можно оценить с помощью индикаторов справедливости и устранить с помощью MinDiff , который также находится в библиотеке исправления модели TensorFlow.

Вам также следует подумать, подходит ли ваш продукт вообще для машинного обучения. Если это так, ваш рабочий процесс машинного обучения должен быть разработан с учетом известных рекомендуемых практик, таких как наличие четко определенной модельной задачи и четких потребностей в продукте.

Как работает контрфактическое логит-спаривание?

CLP добавляет потерю к исходной модели, которая обеспечивается логит-спариванием исходного и контрфактического примера из набора данных. Вычисляя разницу между двумя значениями, вы наказываете различия чувствительных терминов, которые вызывают изменение прогноза классификатора. Эта работа была основана на исследовании состязательного логит-спаривания и контрфактического спаривания логитов .