Помогают защитить Большой Барьерный Риф с TensorFlow на Kaggle Присоединяйтесь вызов

Индикаторы справедливости: размышления об оценке справедливости

Заинтересованы в использовании бета-версии индикаторов справедливости?

Прежде чем вы это сделаете, мы просим вас прочитать следующее руководство.

Справедливость Показатели является полезным инструментом для оценки бинарной и мульти-класс классификаторы для справедливости. В конце концов, мы надеемся расширить этот инструмент в партнерстве со всеми вами, чтобы оценить еще больше соображений.

Имейте в виду, что количественная оценка - это только одна часть оценки более широкого пользовательского опыта. Начните думать о различных контекстах , посредством которых пользователь может испытать ваш продукт. Каких пользователей будет обслуживать ваш продукт? На кого еще может повлиять опыт?

Рассматривая влияние ИИ на людей, важно всегда помнить, что человеческие общества чрезвычайно сложны! Понимание людей и их социальной идентичности, социальных структур и культурных систем - каждая отдельная огромная область открытых исследований. Добавьте к этому всю сложность межкультурных различий по всему миру, и получить хотя бы точку опоры для понимания социального воздействия может быть непросто. По возможности мы рекомендуем проконсультироваться с экспертами в соответствующей предметной области, в число которых могут входить социологи, социолингвисты и культурные антропологи, а также с представителями групп населения, в которых будут применяться технологии.

Одна модель, например, модель токсичности , которые мы использовать в нашем примере colab , могут быть использованы в самых разных контекстах. Например, модель токсичности, развернутая на веб-сайте для фильтрации оскорбительных комментариев, представляет собой совершенно другой вариант использования, чем модель, развернутая в примере веб-интерфейса пользователя, где пользователи могут ввести предложение и посмотреть, какой балл дает модель. В зависимости от варианта использования и того, как пользователи воспринимают прогноз модели, ваш продукт будет иметь разные риски, эффекты и возможности, и вы можете захотеть оценить различные проблемы справедливости.

Приведенные выше вопросы являются основой того, какие этические соображения, включая справедливость, вы можете принять во внимание при проектировании и разработке продукта на основе машинного обучения. Эти вопросы также мотивируют , какие показатели и какие группы пользователей вы должны использовать инструмент для оценки.

Прежде чем углубиться в подробности, мы рекомендуем три ресурса для начала:

  • Люди + AI Руководство по человеко-центрированному дизайну AI: Это руководство является большим ресурсом для вопросов и аспектов , которые необходимо учитывать при разработке продукта на основе машинного обучения. Хотя мы создали это руководство для дизайнеров, многие принципы помогут ответить на такие вопросы, как тот, который мы задали выше.
  • Наши Справедливость Извлеченные уроки : Этот разговор на Google I / O обсуждаются уроки , которые мы извлекли в нашей цели сборки и разработки инклюзивных продукции.
  • ML Crash Course: Честность : МЛ Crash Course имеет 70 минутный раздел , посвященный выявлению и оценке проблем честности

Итак, зачем смотреть на отдельные срезы? Оценка отдельных срезов важна, поскольку сильные общие показатели могут скрыть низкую производительность определенных групп. Точно так же хорошая производительность для определенного показателя (точность, AUC) не всегда означает приемлемую производительность для других показателей (частота ложных срабатываний, частота ложных отрицательных результатов), которые одинаково важны для оценки возможностей и вреда для пользователей.

В следующих разделах будут рассмотрены некоторые аспекты, которые необходимо учитывать.

По каким группам я должен нарезать?

В общем, хорошей практикой является разделение на столько групп, на которые может повлиять ваш продукт, поскольку вы никогда не знаете, когда производительность может отличаться для одной из других. Однако, если вы не уверены, подумайте о разных пользователях, которые могут взаимодействовать с вашим продуктом, и о том, как они могут пострадать. Рассмотрим, в частности, срезы, относящиеся к чувствительным характеристикам, таким как раса, этническая принадлежность, пол, национальность, доход, сексуальная ориентация и статус инвалидности.

Что делать, если у меня нет данных, помеченных для срезов, которые я хочу исследовать?

Хороший вопрос. Мы знаем, что во многих наборах данных нет достоверных меток для индивидуальных атрибутов личности.

Если вы оказались в таком положении, рекомендуем несколько подходов:

  1. Определить , если есть признаки , что у вас есть , что может дать вам некоторое представление о производительности по группам. Например, в то время как география не соответствует этническому и расовой принадлежности, может помочь вам выявить любые несопоставимые модели в исполнении
  2. Определите, существуют ли репрезентативные общедоступные наборы данных, которые могут хорошо соответствовать вашей проблеме. Вы можете найти целый ряд разнообразных и всеобъемлющих наборы данных на сайте Google AI , в том числе проекта Respect , Inclusive изображений и открытые изображения Extended , среди других.
  3. При необходимости используйте правила или классификаторы для маркировки данных с помощью объективных атрибутов поверхностного уровня. Например, вы можете пометить текст или нет есть термин идентичности в предложении. Имейте в виду, что у классификаторов есть свои проблемы, и если вы не будете осторожны, они также могут внести еще один уровень предвзятости. Четко определите, что ваш классификатор фактически классификацию. Например, возраст классификаторы на изображениях в том , сортировочном воспринимаемом возрасте. Кроме того, когда это возможно, атрибуты рычагов поверхностного уровня , которые могут быть объективно определены в данных. Например, не рекомендуется создавать классификатор изображений по расе или этнической принадлежности, потому что это не визуальные черты, которые можно определить в изображении. Классификатор, скорее всего, уловит косвенные данные или стереотипы. Вместо этого создание классификатора тона кожи может быть более подходящим способом маркировать и оценивать изображение. Наконец, обеспечьте высокую точность классификаторов, маркирующих такие атрибуты.
  4. Найдите более репрезентативные данные, помеченные

Всегда следите за тем, чтобы оценивать множество разнообразных наборов данных.

Если ваши оценочные данные неадекватно репрезентативны для вашей пользовательской базы или типов данных, которые могут встретиться, вы можете получить обманчиво хорошие показатели справедливости. Точно так же высокая производительность модели для одного набора данных не гарантирует высокую производительность для других.

Имейте в виду, что подгруппы не всегда лучший способ классифицировать людей.

Люди многомерны и принадлежат к нескольким группам, даже в одном измерении - рассмотрим кого-то, кто является многорасовым или принадлежит к нескольким расовым группам. Кроме того, хотя общие показатели для данной расовой группы могут выглядеть справедливыми, отдельные взаимодействия, такие как раса и пол вместе, могут показывать непреднамеренную предвзятость. Более того, многие подгруппы имеют нечеткие границы, которые постоянно обновляются.

Когда я проверил достаточно срезов и как узнать, какие срезы тестировать?

Мы признаем, что существует огромное количество групп или срезов, которые могут иметь отношение к тестированию, и, когда это возможно, мы рекомендуем срезать и оценивать разнообразный и широкий спектр срезов, а затем углубиться в поиск возможностей для улучшения. Важно также признать , что даже если вы не можете увидеть проблемы на срезах вы испытали, это не означает , что ваш продукт работает для всех пользователей, а также получать разнообразную обратную связь с пользователем и тестирование важно , чтобы убедиться , что вы постоянно выявления новых возможности.

Для начала мы рекомендуем продумать ваш конкретный вариант использования и различные способы взаимодействия пользователей с вашим продуктом. Как разные пользователи могут иметь разный опыт? Что это означает для фрагментов, которые вы должны оценить? Сбор отзывов от разных пользователей также может выявить потенциальные фрагменты, которые нужно расставить по приоритетам.

Какие показатели мне выбрать?

При выборе показателей для оценки вашей системы подумайте, кто будет испытывать вашу модель, как она будет восприниматься и последствия этого опыта.

Например, как ваша модель дает людям больше достоинства или автономии или положительно влияет на их эмоциональное, физическое или финансовое благополучие? Напротив, как прогнозы вашей модели могут снизить достоинство или автономию людей или негативно повлиять на их эмоциональное, физическое или финансовое благополучие?

В целом, мы рекомендуем нарезка все существующие метрики производительности как хорошая практика. Мы также рекомендуем оценить свои показатели по нескольким порогам для того , чтобы понять , как порог может повлиять на производительность для различных групп.

Кроме того, если существует прогнозируемая метка, которая всегда является «хорошей» или «плохой», рассмотрите возможность сообщения (для каждой подгруппы) скорости, с которой эта метка прогнозируется. Например, «хорошая» метка - это метка, прогноз которой предоставляет человеку доступ к некоторому ресурсу или позволяет ему выполнить какое-либо действие.

Критические показатели справедливости для классификации

Когда вы думаете о модели классификации, подумайте о последствиях ошибок (различия между фактическим «землей правдой» ярлыком, а ярлык от модели). Если некоторые ошибки могут создать больше возможностей или причинить вред вашим пользователям, убедитесь, что вы оцениваете частоту этих ошибок среди групп пользователей. Эти коэффициенты ошибок определены ниже в показателях, которые в настоящее время поддерживаются бета-версией индикаторов справедливости.

В течение следующего года мы надеемся выпустить тематические исследования различных вариантов использования и связанных с ними показателей, чтобы мы могли лучше выделить, когда другие показатели могут быть наиболее подходящими.

Показатели, доступные сегодня в индикаторах справедливости

Примечание. Есть много ценных показателей справедливости, которые в настоящее время не поддерживаются в бета-версии индикаторов справедливости. По мере того, как мы продолжаем добавлять больше метрик, мы продолжим добавлять руководство по этим метрикам здесь. Ниже вы можете получить доступ к инструкциям по добавлению собственных показателей в индикаторы справедливости. Кроме того, обратитесь к tfx@tensorflow.org , если есть показатели , которые вы хотели бы видеть. Мы надеемся сотрудничать с вами для дальнейшего развития.

Положительная ставка / отрицательная ставка

  • Определение: Процент точек данных, которые классифицируются как положительный или отрицательный, независимо от земли истины
  • Касается: Демографический Паритет и равенство результатов, когда равные по подгруппам
  • Когда использовать этот показатель: случаи использования Справедливости , где имеющие одинаковые конечные проценты групп важны

Истинно положительная ставка / ложно отрицательная ставка

  • Определение: Процент положительных точек данных (как помечать в первом истины), которые правильно классифицированы как положительные, или процент положительных точек данных, которые неправильно классифицированы как негативные
  • Касается: равенства возможностей (для положительного класса), когда равны по подгруппам
  • Когда использовать эту метрику: случаи использования справедливости там , где это важно , что же% квалифицированных кандидатов оцениваются Позитив в каждой группе. Это чаще всего рекомендуется в случаях классификации положительных результатов, таких как заявки на получение кредита, поступление в школу или если контент предназначен для детей.

Истинно отрицательная ставка / ложноположительная ставка

  • Определение: Процент отрицательных точек данных (как помечать в первом истины), которые правильно классифицированы как негативные, или процент отрицательных точек данных, которые неправильно классифицированы как позитив
  • Касается: равенства возможностей (для отрицательного класса), когда равны по подгруппам
  • Когда использовать эту метрику: случаи использования СПРАВЕДЛИВОСТИ , где частота ошибок (или что - то в неправильной оценки положительны) более , чем в отношении классификации позитивы. Это наиболее распространенный в случаях злоупотребления, когда позитивы часто приводят к негативным действиям. Они также важны для технологий анализа лица, таких как обнаружение лиц или атрибуты лиц.

Точность и AUC

  • Касается: Predictive Паритет, когда равные по подгруппам
  • Когда использовать эти метрики: случаи , когда точность задачи является наиболее важной (не обязательно в заданном направлении), такие как идентификация лица или лица кластеризацию

Коэффициент ложного обнаружения

  • Определение: Процент отрицательных точек данных (как помечать в первом истины), которые неправильно классифицированы как положительные из всех точек данных , классифицированных как положительные. Это также обратное PPV
  • Касается: Predictive Parity (также известный как калибровка), при равной по подгруппам
  • Когда использовать эту метрику: случаи , когда доля правильных положительных прогнозов должна быть равна по подгруппам

Уровень ложных пропусков

  • Определение: Процент положительных точек данных (как помечать в первом истины), которые неправильно классифицированы как негативные из всех точек данных , отнесенных к отрицательному. Это также обратное значение NPV.
  • Касается: Predictive Parity (также известный как калибровка), при равной по подгруппам
  • Когда использовать эту метрику: случаи , когда доля правильных отрицательных прогнозов должна быть равна по подгруппам

Примеры того, какие метрики выбрать

  • Систематическая неспособность обнаруживать лица в приложении камеры может негативно повлиять на восприятие пользователем определенных групп пользователей. В этом случае ложноотрицательные результаты в системе обнаружения лиц могут привести к отказу продукта, в то время как ложные срабатывания (обнаружение лица, когда его нет) может немного раздражать пользователя. Таким образом, оценка и минимизация количества ложноотрицательных результатов важны для этого варианта использования.
  • Недобросовестная маркировка текстовых комментариев от определенных людей как «спам» или «высокая токсичность» в системе модерации приводит к тому, что определенные голоса заглушаются. С одной стороны, высокий уровень ложных срабатываний ведет к несправедливой цензуре. С другой стороны, высокий уровень ложноотрицательных результатов может привести к распространению токсичного контента от определенных групп, что может как нанести вред пользователю, так и нанести ущерб репутации этих групп. Таким образом, важно учитывать обе метрики в дополнение к метрикам, которые учитывают все типы ошибок, такие как точность или AUC.

Не видите нужных показателей?

Следуйте документации здесь , чтобы добавить вам собственную метрику.

Заключительные примечания

Разрыв в метрике между двумя группами может быть признаком того, что ваша модель может иметь несправедливые перекосы. Вы должны интерпретировать свои результаты в соответствии с вашим вариантом использования. Тем не менее, первый признак того, что вы можете быть лечением одного набора пользователей несправедлив, когда метрики между этой группой пользователей и вашим общей значительно отличаются. При рассмотрении этих различий обязательно учитывайте доверительные интервалы. Когда у вас слишком мало образцов в определенном срезе, разница между показателями может быть неточной.

Достижение равенства между группами по показателям справедливости не означает, что модель справедлива. Системы очень сложны, и достижение равенства по одному (или даже по всем) из предоставленных показателей не может гарантировать справедливости.

Оценка справедливости должна проводиться на протяжении всего процесса разработки и после запуска (а не за день до запуска). Так же, как улучшение вашего продукта - это непрерывный процесс, который может корректироваться на основе отзывов пользователей и рынка, так и для того, чтобы сделать ваш продукт справедливым и равноправным, необходимо постоянно уделять внимание. По мере изменения различных аспектов модели, таких как данные обучения, входные данные из других моделей или сам дизайн, показатели справедливости, вероятно, изменятся. «Очистить планку» один раз недостаточно, чтобы гарантировать, что все взаимодействующие компоненты останутся нетронутыми с течением времени.

Состязательное тестирование следует проводить на редких вредоносных примерах. Оценка справедливости не предназначена для замены состязательного тестирования. Дополнительная защита от редких целевых примеров имеет решающее значение, поскольку эти примеры, вероятно, не будут отражены в данных обучения или оценки.