Emparejamiento de Logit contrafactual para la corrección de modelos

El emparejamiento logit contrafactual (CLP) es una técnica dentro de la biblioteca de corrección de modelos de TensorFlow que busca garantizar que la predicción de un modelo no cambie cuando se elimina o reemplaza un atributo sensible al que se hace referencia en un ejemplo. Por ejemplo, en un clasificador de toxicidad, ejemplos como "Soy un hombre" y "Soy lesbiana" no deberían tener una predicción de toxicidad diferente.

Para una discusión en profundidad sobre este tema, consulte la investigación sobre equidad contrafactual , emparejamiento logit adversarial y emparejamiento logit contrafactual .

¿Cuándo debería utilizar el emparejamiento Logit contrafactual?

CLP aborda el escenario en el que un cambio en un atributo sensible al que se hace referencia en una característica cambia la predicción (cuando la predicción no debería haber cambiado). Al hacerlo, intenta responder a la pregunta: ¿Es este modelo susceptible de cambiar su predicción basándose únicamente en la presencia de un atributo de identidad? Consulte el artículo de investigación para obtener detalles sobre la equidad contrafactual.

Este problema se observó en Perspective API , una herramienta de aprendizaje automático utilizada por desarrolladores y editores para analizar el contenido de los comentarios en busca de texto potencialmente ofensivo o tóxico . La API de Perspective toma el texto del comentario como entrada y devuelve una puntuación de 0 a 1 como indicación de la probabilidad de que el comentario sea tóxico. Por ejemplo, un comentario como "Eres un idiota" puede recibir una puntuación de probabilidad de 0,8 de toxicidad, lo que indica la probabilidad de que un lector perciba ese comentario como tóxico.

Después del lanzamiento inicial de la API Perspective, los usuarios externos descubrieron una correlación positiva entre los términos de identidad que contienen información sobre raza u orientación sexual y la puntuación de toxicidad prevista. Por ejemplo, la frase “Soy lesbiana” recibió una puntuación de 0,51, mientras que “Soy un hombre” recibió una puntuación inferior de 0,2. En este caso, los términos de identidad no se utilizaban de forma peyorativa, por lo que no debería haber una diferencia tan significativa en la puntuación. Para obtener más información sobre la API de Perspective, consulte la publicación del blog sobre términos de identidad y sesgos no deseados .

¿Cómo puedo medir el efecto del emparejamiento logit contrafactual?

Si evaluó su modelo de aprendizaje automático y determinó que los cambios en las predicciones debido a cambios en atributos sensibles específicos serían perjudiciales, entonces debe medir la prevalencia de este problema. En el caso de un clasificador binario o de clases múltiples, un cambio se define como un clasificador que da una decisión diferente (como cambiar una predicción de tóxica a no tóxica) cuando cambia el atributo sensible al que se hace referencia en el ejemplo. Al evaluar la prevalencia de los giros , se puede observar el número y la tasa de giros . Al tener en cuenta el daño potencial al usuario causado por un cambio y la frecuencia con la que se producen, se puede determinar si se trata de un problema que se debe abordar mediante la aplicación de CLP. Para obtener más información sobre estas métricas, consulte la guía de Indicadores de equidad .

¿Sobre qué tipos de modelos puedo aplicar el Emparejamiento Logit Contrafactual?

Esta técnica se puede utilizar con clasificadores binarios y multiclase de diferentes tipos de datos, como texto, imágenes y videos.

¿Cuándo el emparejamiento Logit contrafactual no es adecuado para mí?

CLP no es el método adecuado para todas las situaciones. Por ejemplo, no es relevante si la presencia o ausencia de un término de identidad cambia legítimamente la predicción del clasificador. Este puede ser el caso si el clasificador pretende determinar si la característica hace referencia a un grupo de identidad particular. Este método también tiene menos impacto si la correlación no deseada entre el resultado del clasificador y el grupo de identidad no tiene repercusiones negativas para el usuario.

CLP es útil para probar si un modelo de lenguaje o clasificador de toxicidad está cambiando su resultado de manera injusta (por ejemplo, clasificando un fragmento de texto como tóxico) simplemente porque términos como "negro", "gay", "musulmán" están presentes en el texto. CLP no está destinado a hacer predicciones sobre individuos, por ejemplo manipulando la identidad de un individuo. Consulte este documento para obtener una discusión más detallada.

Es importante tener en cuenta que CLP es una técnica del Conjunto de herramientas de IA responsable que está diseñada específicamente para abordar la situación en la que los atributos sensibles a los que se hace referencia en las características cambian la predicción. Dependiendo de su modelo y caso de uso, también puede ser importante considerar si existen brechas de desempeño para los grupos históricamente marginados, particularmente porque CLP puede afectar el desempeño del grupo. Esto se puede evaluar con indicadores de equidad y abordar mediante MinDiff , que también se encuentra en la biblioteca de corrección de modelos de TensorFlow.

También debe considerar si su producto es un uso apropiado para el aprendizaje automático. Si es así, su flujo de trabajo de aprendizaje automático debe diseñarse según prácticas recomendadas conocidas, como tener una tarea modelo bien definida y necesidades claras del producto.

¿Cómo funciona el emparejamiento Logit contrafactual?

CLP agrega una pérdida al modelo original que se proporciona al emparejar logit un ejemplo original y contrafactual de un conjunto de datos. Al calcular la diferencia entre los dos valores, penaliza las diferencias de los términos sensibles que están provocando que cambie la predicción de su clasificador. Este trabajo se basó en una investigación sobre el emparejamiento logit adversario y el emparejamiento logit contrafactual .