Indicadores de equidad: pensando en la evaluación de equidad

¿Está interesado en aprovechar la versión beta de los indicadores de equidad?

Antes de hacerlo, le pedimos que lea la siguiente guía.

Los indicadores de equidad son una herramienta útil para evaluar la equidad de los clasificadores binarios y de clases múltiples . Con el tiempo, esperamos ampliar esta herramienta, en asociación con todos ustedes, para evaluar aún más consideraciones.

Tenga en cuenta que la evaluación cuantitativa es solo una parte de la evaluación de una experiencia de usuario más amplia. Empiece por pensar en los diferentes contextos a través de los cuales un usuario puede experimentar su producto. ¿Quiénes son los diferentes tipos de usuarios que se espera que sirva su producto? ¿Quién más puede verse afectado por la experiencia?

Al considerar el impacto de la IA en las personas, es importante recordar siempre que las sociedades humanas son extremadamente complejas. Comprender a las personas y sus identidades sociales, estructuras sociales y sistemas culturales son campos enormes de investigación abierta por derecho propio. Agregue las complejidades de las diferencias interculturales en todo el mundo, y lograr incluso un punto de apoyo en la comprensión del impacto social puede ser un desafío. Siempre que sea posible, recomendamos consultar con los expertos de dominio apropiados, que pueden incluir científicos sociales, sociolingüistas y antropólogos culturales, así como con miembros de las poblaciones en las que se implementará la tecnología.

Un solo modelo, por ejemplo, el modelo de toxicidad que aprovechamos en nuestro colab de ejemplo , se puede utilizar en muchos contextos diferentes. Un modelo de toxicidad implementado en un sitio web para filtrar comentarios ofensivos, por ejemplo, es un caso de uso muy diferente al modelo que se implementa en una interfaz de usuario web de ejemplo donde los usuarios pueden escribir una oración y ver qué puntuación otorga el modelo. Dependiendo del caso de uso y de cómo los usuarios experimentan la predicción del modelo, su producto tendrá diferentes riesgos, efectos y oportunidades, y es posible que desee evaluar diferentes problemas de equidad.

Las preguntas anteriores son la base de qué consideraciones éticas, incluida la equidad, es posible que desee tener en cuenta al diseñar y desarrollar su producto basado en ML. Estas preguntas también motivan qué métricas y qué grupos de usuarios debe usar la herramienta para evaluar.

Antes de profundizar más, aquí hay tres recursos que recomendamos para comenzar:

  • La guía People + AI para el diseño de inteligencia artificial centrada en el ser humano: esta guía es un gran recurso para las preguntas y los aspectos que se deben tener en cuenta al diseñar un producto basado en el aprendizaje automático. Si bien creamos esta guía teniendo en cuenta a los diseñadores, muchos de los principios ayudarán a responder preguntas como la que planteamos anteriormente.
  • Nuestras lecciones de equidad aprendidas : esta charla en Google I / O analiza las lecciones que hemos aprendido en nuestro objetivo de crear y diseñar productos inclusivos.
  • Curso intensivo de ML: Equidad : El curso intensivo de ML tiene una sección de 70 minutos dedicada a identificar y evaluar las preocupaciones sobre la equidad.

Entonces, ¿por qué mirar porciones individuales? La evaluación de segmentos individuales es importante, ya que unas métricas generales sólidas pueden ocultar el rendimiento deficiente de ciertos grupos. Del mismo modo, un buen rendimiento para una determinada métrica (precisión, AUC) no siempre se traduce en un rendimiento aceptable para otras métricas (tasa de falsos positivos, tasa de falsos negativos) que son igualmente importantes para evaluar la oportunidad y el daño para los usuarios.

Las siguientes secciones explicarán algunos de los aspectos a considerar.

¿Qué grupos debo dividir?

En general, una buena práctica es dividir en tantos grupos como puedan verse afectados por su producto, ya que nunca se sabe cuándo el rendimiento puede diferir para uno del otro. Sin embargo, si no está seguro, piense en los diferentes usuarios que pueden interactuar con su producto y cómo podrían verse afectados. Considere, especialmente, las secciones relacionadas con características sensibles como la raza, la etnia, el género, la nacionalidad, los ingresos, la orientación sexual y el estado de discapacidad.

¿Qué sucede si no tengo los datos etiquetados para los sectores que quiero investigar?

Buena pregunta. Sabemos que muchos conjuntos de datos no tienen etiquetas de verdad fundamental para los atributos de identidad individuales.

Si se encuentra en esta posición, le recomendamos algunos enfoques:

  1. Identificar si existen atributos que tiene que le puede dar una idea de la actuación de los grupos. Por ejemplo, la geografía , aunque no es equivalente a la etnia y la raza, puede ayudarlo a descubrir patrones dispares en el desempeño.
  2. Identifique si hay conjuntos de datos públicos representativos que puedan correlacionarse bien con su problema. Puede encontrar una variedad de conjuntos de datos diversos e inclusivos en el sitio de Google AI , que incluyen Project Respect , Inclusive Images y Open Images Extended , entre otros.
  3. Aproveche las reglas o clasificadores, cuando sea relevante, para etiquetar sus datos con atributos objetivos a nivel de superficie. Por ejemplo, puede etiquetar el texto para indicar si hay o no un término de identidad en la oración. Tenga en cuenta que los clasificadores tienen sus propios desafíos y, si no tiene cuidado, también pueden introducir otra capa de sesgo. Sea claro acerca de lo que realmente está clasificando su clasificador. Por ejemplo, un clasificador de edad en imágenes está clasificando la edad percibida . Además, cuando sea posible, aproveche los atributos a nivel de superficie que se pueden identificar objetivamente en los datos. Por ejemplo, no es aconsejable construir un clasificador de imágenes por raza o etnia, porque estos no son rasgos visuales que puedan definirse en una imagen. Es probable que un clasificador se dé cuenta de los sustitutos o los estereotipos. En cambio, construir un clasificador para el tono de piel puede ser una forma más apropiada de etiquetar y evaluar una imagen. Por último, asegure una alta precisión para los clasificadores que etiquetan tales atributos.
  4. Encuentre datos más representativos que están etiquetados

Asegúrese siempre de evaluar en múltiples y diversos conjuntos de datos.

Si los datos de su evaluación no son lo suficientemente representativos de su base de usuarios, o de los tipos de datos que es probable que se encuentren, puede terminar con métricas de equidad engañosamente buenas. Del mismo modo, el alto rendimiento del modelo en un conjunto de datos no garantiza un alto rendimiento en otros.

Tenga en cuenta que los subgrupos no siempre son la mejor manera de clasificar a las personas.

Las personas son multidimensionales y pertenecen a más de un grupo, incluso dentro de una sola dimensión; considere a alguien que sea multirracial o pertenezca a múltiples grupos raciales. Además, si bien las métricas generales para un grupo racial determinado pueden parecer equitativas, las interacciones particulares, como la raza y el género juntos, pueden mostrar un sesgo no intencionado. Además, muchos subgrupos tienen límites difusos que se vuelven a dibujar constantemente.

¿Cuándo he probado suficientes rebanadas y cómo sé qué rebanadas probar?

Reconocemos que hay una gran cantidad de grupos o porciones que pueden ser relevantes para probar, y cuando sea posible, recomendamos cortar y evaluar una amplia y diversa gama de porciones y luego profundizar donde detecte oportunidades de mejora. También es importante reconocer que, aunque es posible que no vea preocupaciones sobre las porciones que ha probado, eso no implica que su producto funcione para todos los usuarios, y obtener comentarios y pruebas de los usuarios diversos es importante para asegurarse de que está identificando continuamente nuevos oportunidades.

Para comenzar, recomendamos pensar en su caso de uso particular y las diferentes formas en que los usuarios pueden interactuar con su producto. ¿Cómo pueden diferentes usuarios tener diferentes experiencias? ¿Qué significa eso para las rebanadas que debe evaluar? La recopilación de comentarios de diversos usuarios también puede resaltar sectores potenciales para priorizar.

¿Qué métricas debo elegir?

Al seleccionar qué métricas evaluar para su sistema, considere quién experimentará su modelo, cómo se experimentará y los efectos de esa experiencia.

Por ejemplo, ¿cómo su modelo da a las personas más dignidad o autonomía, o impacta positivamente en su bienestar emocional, físico o financiero? En contraste, ¿cómo podrían las predicciones de su modelo reducir la dignidad o autonomía de las personas, o impactar negativamente su bienestar emocional, físico o financiero?

En general, recomendamos dividir todas sus métricas de rendimiento existentes como una buena práctica. También recomendamos evaluar sus métricas en varios umbrales para comprender cómo el umbral puede afectar el rendimiento de diferentes grupos.

Además, si hay una etiqueta predicha que es uniformemente "buena" o "mala", entonces considere informar (para cada subgrupo) la velocidad a la que se predice esa etiqueta. Por ejemplo, una etiqueta "buena" sería una etiqueta cuya predicción otorga a una persona acceso a algún recurso o le permite realizar alguna acción.

Métricas críticas de equidad para la clasificación

Cuando piense en un modelo de clasificación, piense en los efectos de los errores (las diferencias entre la etiqueta real de "verdad fundamental" y la etiqueta del modelo). Si algunos errores pueden representar una mayor oportunidad o daño para sus usuarios, asegúrese de evaluar las tasas de estos errores entre grupos de usuarios. Estas tasas de error se definen a continuación, en las métricas que actualmente son compatibles con la versión beta de los indicadores de equidad.

En el transcurso del próximo año, esperamos publicar estudios de caso de diferentes casos de uso y las métricas asociadas con estos para que podamos resaltar mejor cuándo diferentes métricas podrían ser las más apropiadas.

Métricas disponibles hoy en Fairness Indicators

Nota: Hay muchas métricas de equidad valiosas que actualmente no son compatibles con la versión beta de Indicadores de equidad. A medida que continuamos agregando más métricas, continuaremos agregando orientación para estas métricas, aquí. A continuación, puede acceder a las instrucciones para agregar sus propias métricas a los indicadores de equidad. Además, comuníquese con tfx@tensorflow.org si hay métricas que le gustaría ver. Esperamos asociarnos con usted para desarrollar esto aún más.

Tasa positiva / Tasa negativa

  • Definición: El porcentaje de puntos de datos que se clasifican como positivos o negativos, independientemente de la verdad del terreno.
  • Se relaciona con: paridad demográfica e igualdad de resultados, cuando son iguales en todos los subgrupos
  • Cuándo utilizar esta métrica: casos de uso de equidad en los que es importante tener porcentajes finales iguales de grupos

Tasa de verdaderos positivos / Tasa de falsos negativos

  • Definición: El porcentaje de puntos de datos positivos (según la etiqueta en la verdad básica) que se clasifican correctamente como positivos, o el porcentaje de puntos de datos positivos que se clasifican incorrectamente como negativos.
  • Se relaciona con: Igualdad de oportunidades (para la clase positiva), cuando es igual en todos los subgrupos
  • Cuándo usar esta métrica: casos de uso de equidad en los que es importante que el mismo% de candidatos calificados se califique como positivo en cada grupo. Esto se recomienda con mayor frecuencia en casos de clasificación de resultados positivos, como solicitudes de préstamos, admisiones escolares o si el contenido es apto para niños.

Tasa de verdaderos negativos / Tasa de falsos positivos

  • Definición: El porcentaje de puntos de datos negativos (según lo etiquetado en la verdad básica) que se clasifican correctamente como negativos, o el porcentaje de puntos de datos negativos que se clasifican incorrectamente como positivos.
  • Se relaciona con: Igualdad de oportunidades (para la clase negativa), cuando es igual en todos los subgrupos
  • Cuándo usar esta métrica: casos de uso de equidad en los que las tasas de error (o la clasificación errónea de algo como positivo) son más preocupantes que la clasificación de los positivos. Esto es más común en los casos de abuso, donde los aspectos positivos a menudo conducen a acciones negativas. Estos también son importantes para las tecnologías de análisis facial, como la detección de rostros o los atributos faciales.

Precisión y AUC

  • Se relaciona con: paridad predictiva, cuando es igual en todos los subgrupos
  • Cuándo utilizar estas métricas: casos en los que la precisión de la tarea es más crítica (no necesariamente en una dirección determinada), como la identificación de rostros o la agrupación de rostros.

Tasa de descubrimiento falso

  • Definición: El porcentaje de puntos de datos negativos (como se etiqueta en la verdad básica) que se clasifican incorrectamente como positivos de todos los puntos de datos clasificados como positivos. Esta es también la inversa de PPV
  • Se relaciona con: paridad predictiva (también conocida como calibración), cuando es igual en todos los subgrupos
  • Cuándo utilizar esta métrica: casos en los que la fracción de predicciones positivas correctas debe ser igual en todos los subgrupos.

Tasa de falsas omisiones

  • Definición: El porcentaje de puntos de datos positivos (como se etiqueta en la verdad básica) que se clasifican incorrectamente como negativos de todos los puntos de datos clasificados como negativos. Esto también es el inverso del VPN.
  • Se relaciona con: paridad predictiva (también conocida como calibración), cuando es igual en todos los subgrupos
  • Cuándo utilizar esta métrica: casos en los que la fracción de predicciones negativas correctas debe ser igual en todos los subgrupos.

Ejemplos de qué métricas seleccionar

  • La falta sistemática de detección de rostros en una aplicación de cámara puede generar una experiencia de usuario negativa para ciertos grupos de usuarios. En este caso, los falsos negativos en un sistema de detección de rostros pueden provocar fallas en el producto, mientras que un falso positivo (detectar un rostro cuando no lo hay) puede suponer una leve molestia para el usuario. Por lo tanto, evaluar y minimizar la tasa de falsos negativos es importante para este caso de uso.
  • Marcar injustamente los comentarios de texto de ciertas personas como "spam" o "alta toxicidad" en un sistema de moderación conduce a que se silencien determinadas voces. Por un lado, una alta tasa de falsos positivos conduce a una censura injusta. Por otro lado, una alta tasa de falsos negativos podría conducir a una proliferación de contenido tóxico de ciertos grupos, lo que puede dañar al usuario y constituir un daño representativo para esos grupos. Por tanto, es importante tener en cuenta ambas métricas, además de las métricas que tienen en cuenta todo tipo de errores como la precisión o el AUC.

¿No ve las métricas que está buscando?

Siga la documentación aquí para agregar su propia métrica personalizada.

Notas finales

Una brecha en la métrica entre dos grupos puede ser una señal de que su modelo puede tener sesgos injustos . Debe interpretar sus resultados de acuerdo con su caso de uso. Sin embargo, la primera señal de que puede estar tratando a un grupo de usuarios de manera injusta es cuando las métricas entre ese grupo de usuarios y su conjunto son significativamente diferentes. Asegúrese de tener en cuenta los intervalos de confianza cuando observe estas diferencias. Cuando tiene muy pocas muestras en un segmento en particular, es posible que la diferencia entre las métricas no sea precisa.

Lograr la igualdad entre los grupos en los indicadores de equidad no significa que el modelo sea justo. Los sistemas son muy complejos y lograr la igualdad en una (o incluso en todas) de las métricas proporcionadas no puede garantizar la equidad.

Las evaluaciones de equidad deben realizarse durante todo el proceso de desarrollo y después del lanzamiento (no el día anterior al lanzamiento). Así como mejorar su producto es un proceso continuo y sujeto a ajustes basados ​​en los comentarios de los usuarios y del mercado, hacer que su producto sea justo y equitativo requiere atención continua. A medida que cambian diferentes aspectos del modelo, como los datos de entrenamiento, las entradas de otros modelos o el diseño en sí, es probable que cambien las métricas de equidad. "Limpiar el listón" una vez no es suficiente para garantizar que todos los componentes que interactúan hayan permanecido intactos a lo largo del tiempo.

Se deben realizar pruebas adversas para ejemplos raros y maliciosos. Las evaluaciones de equidad no están destinadas a reemplazar las pruebas adversas. La defensa adicional contra ejemplos específicos específicos es crucial, ya que estos ejemplos probablemente no se manifestarán en los datos de capacitación o evaluación.