Emparejamiento logit contrafactual para la remediación del modelo

El emparejamiento de logit contrafactual (CLP) es una técnica dentro de la biblioteca de corrección de modelos de TensorFlow que busca garantizar que la predicción de un modelo no cambie cuando se elimina o reemplaza un atributo confidencial al que se hace referencia en un ejemplo. Por ejemplo, en un clasificador de toxicidad, ejemplos como "Soy hombre" y "Soy lesbiana" no deberían tener una predicción de toxicidad diferente.

Para una discusión en profundidad sobre este tema, consulte la investigación sobre equidad contrafactual , emparejamiento logit adversario y emparejamiento logit contrafactual .

¿Cuándo debería usar el emparejamiento logit contrafactual?

CLP aborda el escenario en el que un cambio en un atributo confidencial al que se hace referencia en una característica cambia la predicción (cuando la predicción no debería haber cambiado). Al hacerlo, intenta responder a la pregunta: ¿Este modelo es susceptible de cambiar su predicción basándose únicamente en la presencia de un atributo de identidad? Consulte el documento de investigación para obtener detalles sobre la equidad contrafáctica.

Este problema se observó en Perspective API , una herramienta de ML utilizada por desarrolladores y editores para analizar el contenido de los comentarios en busca de texto potencialmente ofensivo o tóxico . La API de perspectiva toma el texto del comentario como entrada y devuelve una puntuación de 0 a 1 como indicación de la probabilidad de que el comentario sea tóxico. Por ejemplo, un comentario como "Eres un idiota" puede recibir una puntuación de probabilidad de 0,8 para la toxicidad, lo que indica la probabilidad de que un lector perciba ese comentario como tóxico.

Después del lanzamiento inicial de Perspective API, los usuarios externos descubrieron una correlación positiva entre los términos de identidad que contenían información sobre raza u orientación sexual y la puntuación de toxicidad prevista. Por ejemplo, la frase "soy lesbiana" recibió una puntuación de 0,51, mientras que "soy hombre" recibió una puntuación inferior de 0,2. En este caso, los términos de identidad no se usaban de forma peyorativa, por lo que no debería haber una diferencia tan significativa en la puntuación. Para obtener más información sobre Perspective API, consulte la publicación de blog sobre sesgos no deseados y términos de identidad .

¿Cómo puedo medir el efecto del emparejamiento logit contrafactual?

Si evaluó su modelo de aprendizaje automático y determinó que los cambios en las predicciones debido a cambios en atributos sensibles específicos serían perjudiciales, entonces debe medir la prevalencia de este problema. En el caso de un clasificador binario o multiclase, un flip se define como un clasificador que da una decisión diferente (como cambiar una predicción de tóxico a no tóxico) cuando cambia el atributo sensible al que se hace referencia en el ejemplo. Cuando evalúe la prevalencia de los flips , puede observar el número de flips y la tasa de flips . Al tener en cuenta el daño potencial para el usuario causado por un flip y la frecuencia con la que ocurren, puede determinar si este es un problema que debe abordarse mediante la aplicación de CLP. Para obtener más información sobre estas métricas, consulte la guía Indicadores de equidad .

¿Sobre qué tipos de modelos puedo aplicar el emparejamiento logit contrafactual?

Esta técnica se puede utilizar con clasificadores binarios y de clases múltiples de diferentes tipos de datos, como texto, imágenes y videos.

¿Cuándo el emparejamiento Logit contrafactual no es adecuado para mí?

CLP no es el método adecuado para todas las situaciones. Por ejemplo, no es relevante si la presencia o ausencia de un término de identidad cambia legítimamente la predicción del clasificador. Este puede ser el caso si el clasificador tiene como objetivo determinar si la característica hace referencia a un grupo de identidad en particular. Este método también tiene menos impacto si la correlación no deseada entre el resultado del clasificador y el grupo de identidad no tiene repercusiones negativas en el usuario.

CLP es útil para probar si un modelo de lenguaje o un clasificador de toxicidad está cambiando su salida de manera injusta (por ejemplo, clasificando un fragmento de texto como tóxico) simplemente porque términos como "negro", "gay", "musulmán" están presentes en el texto. CLP no está diseñado para hacer predicciones sobre individuos, por ejemplo, mediante la manipulación de la identidad de un individuo. Ver este documento para una discusión más detallada.

Es importante tener en cuenta que CLP es una técnica en el kit de herramientas de IA responsable que está específicamente diseñada para abordar la situación en la que los atributos confidenciales a los que se hace referencia en las características cambian la predicción. Dependiendo de su modelo y caso de uso, también puede ser importante considerar si existen brechas de desempeño para grupos históricamente marginados, particularmente porque CLP puede afectar el desempeño del grupo. Esto se puede evaluar con indicadores de equidad y se puede abordar con MinDiff, que también se encuentra en la biblioteca de remediación del modelo de TensorFlow.

También debe considerar si su producto es un uso apropiado para el aprendizaje automático. Si es así, su flujo de trabajo de aprendizaje automático debe diseñarse según prácticas recomendadas conocidas, como tener una tarea modelo bien definida y necesidades claras del producto.

¿Cómo funciona el emparejamiento logit contrafactual?

CLP agrega una pérdida al modelo original que proporciona el emparejamiento logit de un ejemplo original y contrafáctico de un conjunto de datos. Al calcular la diferencia entre los dos valores, penaliza las diferencias de los términos confidenciales que hacen que cambie la predicción de su clasificador. Este trabajo se basó en la investigación sobre el emparejamiento logit contradictorio y el emparejamiento logit contrafáctico .