Appariement logit contrefactuel pour la correction du modèle

L'appariement de logit contrefactuel (CLP) est une technique de la bibliothèque de correction de modèles TensorFlow qui vise à garantir que la prédiction d'un modèle ne change pas lorsqu'un attribut sensible référencé dans un exemple est supprimé ou remplacé. Par exemple, dans un classificateur de toxicité, des exemples tels que "Je suis un homme" et "Je suis une lesbienne" ne doivent pas avoir une prédiction différente de la toxicité.

Pour une discussion approfondie sur ce sujet, voir la recherche sur l' équité contrefactuelle , l' appariement logit contradictoire et l' appariement logit contrefactuel .

Quand devriez-vous utiliser le couplage logit contrefactuel ?

CLP traite le scénario dans lequel une modification d'un attribut sensible référencé dans une entité modifie la prédiction (alors que la prédiction n'aurait pas dû changer). Ce faisant, il tente de répondre à la question : ce modèle est-il susceptible de modifier sa prédiction en se basant uniquement sur la présence d'un attribut identitaire ? Voir le document de recherche pour plus de détails sur l'équité contrefactuelle.

Ce problème a été constaté dans l' API Perspective , un outil de ML utilisé par les développeurs et les éditeurs pour analyser le contenu des commentaires à la recherche de texte potentiellement offensant ou toxique . L'API Perspective prend le texte du commentaire en entrée et renvoie un score de 0 à 1 comme indication de la probabilité que le commentaire soit toxique. Par exemple, un commentaire comme "Vous êtes un idiot" peut recevoir un score de probabilité de 0,8 pour la toxicité, indiquant la probabilité qu'un lecteur perçoive ce commentaire comme toxique.

Après le lancement initial de l'API Perspective, les utilisateurs externes ont découvert une corrélation positive entre les termes d'identité contenant des informations sur la race ou l'orientation sexuelle et le score de toxicité prévu. Par exemple, la phrase "Je suis lesbienne" a reçu un score de 0,51, tandis que "Je suis un homme" a reçu un score inférieur de 0,2. Dans ce cas, les termes d'identité n'étaient pas utilisés de manière péjorative, il ne devrait donc pas y avoir une différence aussi significative dans le score. Pour plus d'informations sur l'API Perspective, consultez le billet de blog sur les biais non intentionnels et les termes d'identité .

Comment puis-je mesurer l'effet de l'appariement logit contrefactuel ?

Si vous avez évalué votre modèle d'apprentissage automatique et déterminé que les modifications des prévisions dues à des modifications d'attributs sensibles spécifiques seraient nuisibles, vous devez mesurer la prévalence de ce problème. Dans le cas d'un classificateur binaire ou multi-classes, un retournement est défini comme un classificateur donnant une décision différente (comme changer une prédiction de toxique à non toxique) lorsque l'attribut sensible référencé dans l'exemple change. Lors de l'évaluation de la prévalence des flips , vous pouvez regarder le nombre de flips et le taux de flips. En prenant en compte les dommages potentiels pour l'utilisateur causés par un retournement et la fréquence à laquelle les retournements se produisent, vous pouvez déterminer s'il s'agit d'un problème qui doit être résolu en appliquant le CLP. Pour plus d'informations sur ces mesures, reportez-vous au guide des indicateurs d'équité .

Sur quels types de modèles puis-je appliquer le Counterfactual Logit Pairing ?

Cette technique peut être utilisée avec des classificateurs binaires et multi-classes de différents types de données tels que du texte, des images et des vidéos.

Quand est-ce que le couplage logit contrefactuel ne me convient pas ?

Le CLP n'est pas la bonne méthode pour toutes les situations. Par exemple, il n'est pas pertinent de savoir si la présence ou l'absence d'un terme d'identité modifie légitimement la prédiction du classifieur. Cela peut être le cas si le classificateur vise à déterminer si la caractéristique fait référence à un groupe d'identité particulier. Cette méthode a également moins d'impact si la corrélation involontaire entre le résultat du classificateur et le groupe d'identité n'a pas de répercussions négatives sur l'utilisateur.

Le CLP est utile pour tester si un modèle de langage ou un classificateur de toxicité modifie sa sortie de manière injuste (par exemple en classant un morceau de texte comme toxique) simplement parce que des termes comme « Noir », « gay », « musulman » sont présents dans le texte. Le CLP n'est pas destiné à faire des prédictions sur des individus, par exemple en manipulant l'identité d'un individu. Voir cet article pour une discussion plus détaillée.

Il est important de garder à l'esprit que le CLP est une technique de la boîte à outils d'IA responsable qui est spécifiquement conçue pour traiter la situation où les attributs sensibles référencés dans les caractéristiques modifient la prédiction. En fonction de votre modèle et de votre cas d'utilisation, il peut également être important de déterminer s'il existe des écarts de performances pour les groupes historiquement marginalisés, en particulier car le CLP peut affecter les performances du groupe. Cela peut être évalué avec des indicateurs d'équité et traité par MinDiff qui se trouve également dans la bibliothèque de correction de modèles TensorFlow.

Vous devez également déterminer si votre produit est une utilisation appropriée pour l'apprentissage automatique. Si c'est le cas, votre flux de travail d'apprentissage automatique doit être conçu selon des pratiques recommandées connues, telles qu'avoir une tâche de modèle bien définie et des besoins de produit clairs.

Comment fonctionne l'appariement logit contrefactuel ?

CLP ajoute une perte au modèle original qui est fourni par logit associant un exemple original et contrefactuel à partir d'un ensemble de données. En calculant la différence entre les deux valeurs, vous pénalisez les différences des termes sensibles qui entraînent la modification de la prédiction de votre classifieur. Ce travail était basé sur des recherches sur l' appariement logit contradictoire et l'appariement logit contrefactuel .