Настройтесь на первые женщина в ML Симпозиуме этого вторник, 19 октября в 9 утра PST Зарегистрируйтесь сейчас

Требования MinDiff

Когда мне следует использовать MinDiff?

Мы рекомендуем применять MinDiff в тех случаях, когда ваша модель в целом работает хорошо, но чаще вызывает опасные ошибки на примерах, принадлежащих к чувствительной группе, и вы хотите сократить разрыв в производительности. Конфиденциальные группы интересов могут варьироваться в зависимости от вашего варианта использования, но часто включают защищенные классы, такие как раса, религия, пол, сексуальная ориентация и т. Д. В этом документе мы будем использовать «чувствительную группу» для обозначения любого набора примеров, принадлежащих защищенному классу.

Есть два основных условия использования MinDiff для устранения неэффективных сегментов данных:

  • Вы уже настроили и оценили свою модель, выявив показатели, которые показывают неэффективные срезы данных. Это необходимо сделать до применения исправления модели.
  • У вас есть или вы можете получить достаточное количество соответствующих помеченных примеров, принадлежащих группе отстающих (более подробная информация ниже).

MinDiff - один из многих методов исправления неравноправного поведения. В частности, это может быть хорошим выбором, когда вы пытаетесь напрямую уравнять производительность между группами. MinDiff можно использовать вместе с другими подходами, такими как увеличение данных и другими, что может привести к лучшим результатам. Однако, если вам нужно определить приоритетность того, в какую технику инвестировать, вы должны делать это в соответствии с потребностями вашего продукта.

При применении MinDiff вы можете увидеть, что производительность ваших наиболее эффективных групп снизится или немного изменится, так как ваши неэффективные группы улучшатся. Это ожидаемый компромисс, и его следует оценивать в контексте требований к вашему продукту. На практике мы часто видели, что MinDiff не приводит к падению наиболее эффективных срезов ниже приемлемого уровня, но это зависит от приложения и должно приниматься владельцем продукта.

На каких типах моделей я могу применить MinDiff?

Показано, что MinDiff неизменно эффективен при применении к двоичным классификаторам. Возможна адаптация метода для других приложений, но это еще не было полностью протестировано. Была проделана некоторая работа, чтобы показать успехи в задачах множественной классификации и ранжирования 1, но любое использование MinDiff на тех или иных типах моделей следует рассматривать как экспериментальное.

На каких метриках можно применить MinDiff?

MinDiff может быть хорошим решением, когда метрикой, которую вы пытаетесь уравнять по группам, является частота ложноположительных (FPR) или ложноотрицательных (FNR) , но это может работать и для других показателей. Как правило, MinDiff может работать, когда целевой показатель является результатом различий в распределении оценок между примерами, принадлежащими к чувствительной группе, и примерами, не принадлежащими к чувствительной группе.

Создание набора данных MinDiff

При подготовке к обучению с MinDiff вам необходимо подготовить три отдельных набора данных. Как и при регулярном обучении, ваши наборы данных MinDiff должны быть репрезентативными для пользователей, которых обслуживает ваша модель. MinDiff может работать и без этого, но в таких случаях следует проявлять особую осторожность.

Предполагая, что вы пытаетесь улучшить FPR своей модели для примеров, принадлежащих к чувствительному классу, вам понадобятся:

  1. Исходный обучающий набор - исходный набор данных, который использовался для обучения вашей базовой модели.
  2. Чувствительный набор MinDiff - набор данных примеров, принадлежащих к чувствительному классу с только отрицательными наземными метками. Эти примеры будут использоваться только для расчета потерь MinDiff.
  3. Нечувствительный набор MinDiff - набор данных примеров, не принадлежащих к чувствительному классу, с только отрицательными наземными метками истинности. Эти примеры будут использоваться только для расчета потерь MinDiff.

При использовании библиотеки вы объедините все три этих набора данных в один набор данных, который будет служить вашим новым обучающим набором.

Примеры выбора для MinDiff

В приведенном выше примере могло показаться нелогичным вырезать наборы примеров с отрицательной маркировкой, если вас в первую очередь беспокоит неравенство в частоте ложных срабатываний . Однако помните, что ложноположительный прогноз исходит из отрицательно маркированного примера, неправильно классифицированного как положительный.

При сборе данных для MinDiff вы должны выбрать примеры, в которых разница в производительности очевидна. В нашем примере выше это означало выбор примеров с отрицательной маркировкой для решения проблемы FPR. Если бы мы были заинтересованы в нацеливании на FNR, нам пришлось бы выбирать примеры с положительной маркировкой.

Сколько данных мне нужно?

Хороший вопрос - это зависит от вашего варианта использования! В зависимости от архитектуры вашей модели, распределения данных и конфигурации MinDiff необходимый объем данных может значительно различаться. В прошлых приложениях мы видели, что MinDiff хорошо работает с 5000 примеров в каждом обучающем наборе MinDiff (наборы 2 и 3 в предыдущем разделе). При меньшем количестве данных повышается риск снижения производительности, но это может быть минимальным или приемлемым в рамках ваших производственных ограничений. После применения MinDiff вам нужно будет тщательно оценить свои результаты, чтобы обеспечить приемлемую производительность. Если они ненадежны или не соответствуют ожиданиям производительности, вы все равно можете подумать о сборе дополнительных данных.

Когда мне не подходит MinDiff?

MinDiff - мощный метод, который может обеспечить впечатляющие результаты, но это не значит, что это правильный метод для всех ситуаций. Его случайное применение не гарантирует, что вы получите адекватное решение.

Помимо требований, рассмотренных выше, есть случаи, когда MinDiff может быть технически выполнимым, но не подходящим. Вы всегда должны проектировать рабочий процесс машинного обучения в соответствии с известными рекомендуемыми методами. Например, если ваша модельная задача нечетко определена, продукт неясен или этикетки в вашем примере чрезмерно искажены, вам следует уделить первоочередное внимание решению этих проблем. Точно так же, если у вас нет четкого определения чувствительной группы или вы не можете надежно определить, относятся ли примеры к чувствительной группе, вы не сможете эффективно применить MinDiff.

На более высоком уровне вы всегда должны учитывать, подходит ли ваш продукт для машинного обучения вообще. Если это так, рассмотрите потенциальные векторы вреда для пользователей, который это создает. Стремление к ответственному ОД - это многогранная работа, направленная на предотвращение широкого спектра потенциального вреда; MinDiff может помочь смягчить некоторые из них, но все результаты заслуживают внимательного рассмотрения.

1 Бейтель А., Чен, Дж., Доши, Т., Цянь, Х., Вэй, Л., Ву, Ю., Хельдт, Л., Чжао, З., Хун, Л., Чи, Э., Гудроу, К. (2019). Справедливость в рейтинге рекомендаций посредством парных сравнений.