Indicateurs d'équité : Penser à l'évaluation de l'équité

Les indicateurs d'équité sont un outil utile pour évaluer l'équité des classificateurs binaires et multi-classes . À terme, nous espérons étendre cet outil, en partenariat avec vous tous, pour évaluer encore plus de considérations.

Gardez à l'esprit que l'évaluation quantitative n'est qu'une partie de l'évaluation d'une expérience utilisateur plus large. Commencez par réfléchir aux différents contextes dans lesquels un utilisateur peut découvrir votre produit. Quels sont les différents types d'utilisateurs que votre produit est censé servir ? Qui d'autre peut être affecté par l'expérience ?

Lorsque l'on considère l'impact de l'IA sur les personnes, il est important de toujours se rappeler que les sociétés humaines sont extrêmement complexes ! Comprendre les gens et leurs identités sociales, leurs structures sociales et leurs systèmes culturels sont chacun d'immenses domaines de recherche ouverte à part entière. Jetez un coup d'œil à la complexité des différences interculturelles à travers le monde et il peut être difficile de comprendre même l'impact sociétal. Dans la mesure du possible, il est recommandé de consulter les experts du domaine approprié, qui peuvent inclure des spécialistes des sciences sociales, des sociolinguistes et des anthropologues culturels, ainsi que des membres des populations sur lesquelles la technologie sera déployée.

Un modèle unique, par exemple, le modèle de toxicité que nous exploitons dans l' exemple de colab , peut être utilisé dans de nombreux contextes différents. Un modèle de toxicité déployé sur un site Web pour filtrer les commentaires offensants, par exemple, est un cas d'utilisation très différent du modèle déployé dans un exemple d'interface utilisateur Web où les utilisateurs peuvent taper une phrase et voir quel score le modèle donne. En fonction du cas d'utilisation et de la manière dont les utilisateurs expérimentent la prédiction du modèle, votre produit présentera différents risques, effets et opportunités et vous souhaiterez peut-être évaluer différents problèmes d'équité.

Les questions ci-dessus sont à la base des considérations éthiques, y compris l'équité, que vous voudrez peut-être prendre en compte lors de la conception et du développement de votre produit basé sur ML. Ces questions motivent également les métriques et les groupes d'utilisateurs que vous devez utiliser l'outil pour évaluer.

Avant de plonger plus avant, voici trois ressources recommandées pour commencer :

  • Le guide People + AI pour la conception d'IA centrée sur l'humain : ce guide est une excellente ressource pour les questions et les aspects à garder à l'esprit lors de la conception d'un produit basé sur l'apprentissage automatique. Bien que nous ayons créé ce guide en pensant aux concepteurs, de nombreux principes aideront à répondre à des questions comme celle posée ci-dessus.
  • Nos leçons d'équité : cette conférence à Google I/O traite des leçons que nous avons apprises dans notre objectif de créer et de concevoir des produits inclusifs.
  • ML Crash Course: Fairness : Le ML Crash Course comporte une section de 70 minutes consacrée à l'identification et à l'évaluation des problèmes d'équité

Alors, pourquoi regarder des tranches individuelles ? L'évaluation sur des tranches individuelles est importante car des métriques globales solides peuvent masquer les mauvaises performances de certains groupes. De même, une bonne performance pour une certaine métrique (précision, AUC) ne se traduit pas toujours par une performance acceptable pour d'autres métriques (taux de faux positifs, taux de faux négatifs) qui sont tout aussi importantes pour évaluer les opportunités et les dommages pour les utilisateurs.

Les sections ci-dessous passeront en revue certains des aspects à prendre en compte.

Par quels groupes dois-je trancher ?

En général, une bonne pratique consiste à découper en autant de groupes que votre produit peut affecter, car vous ne savez jamais quand les performances peuvent différer de l'un à l'autre. Toutefois, si vous n'êtes pas sûr, réfléchissez aux différents utilisateurs susceptibles d'interagir avec votre produit et à la manière dont ils pourraient être affectés. Considérez, en particulier, les tranches liées à des caractéristiques sensibles telles que la race, l'origine ethnique, le sexe, la nationalité, le revenu, l'orientation sexuelle et le statut de handicap.

Que se passe-t-il si je n'ai pas de données étiquetées pour les tranches que je veux étudier ?

Bonne question. Nous savons que de nombreux ensembles de données n'ont pas d'étiquettes de vérité terrain pour les attributs d'identité individuels.

Si vous vous trouvez dans cette situation, nous vous recommandons quelques approches :

  1. Identifiez s'il y a des attributs que vous avez qui peuvent vous donner un aperçu de la performance entre les groupes. Par exemple, la géographie , bien qu'elle ne soit pas équivalente à l'ethnicité et à la race, peut vous aider à découvrir des modèles disparates de performances
  2. Identifiez s'il existe des ensembles de données publics représentatifs qui pourraient bien correspondre à votre problème. Vous pouvez trouver une gamme d'ensembles de données divers et inclusifs sur le site Google AI , qui incluent Project Respect , Inclusive Images et Open Images Extended , entre autres.
  3. Tirez parti des règles ou des classificateurs, le cas échéant, pour étiqueter vos données avec des attributs objectifs au niveau de la surface. Par exemple, vous pouvez étiqueter le texte pour indiquer s'il y a ou non un terme d'identité dans la phrase. Gardez à l'esprit que les classificateurs ont leurs propres défis et que, si vous ne faites pas attention, ils peuvent également introduire une autre couche de biais. Soyez clair sur ce que votre classificateur classe réellement . Par exemple, un classificateur d'âge sur des images classe en fait l' âge perçu . De plus, lorsque cela est possible, tirez parti des attributs au niveau de la surface qui peuvent être identifiés objectivement dans les données. Par exemple, il est déconseillé de construire un classificateur d'image pour la race ou l'ethnicité, car ce ne sont pas des traits visuels qui peuvent être définis dans une image. Un classificateur détecterait probablement des proxys ou des stéréotypes. Au lieu de cela, la création d'un classificateur pour le teint de la peau peut être un moyen plus approprié d'étiqueter et d'évaluer une image. Enfin, assurez une grande précision pour les classificateurs étiquetant ces attributs.
  4. Trouver des données plus représentatives qui sont étiquetées

Assurez-vous toujours d'évaluer sur plusieurs ensembles de données diversifiés.

Si vos données d'évaluation ne sont pas suffisamment représentatives de votre base d'utilisateurs ou des types de données susceptibles d'être rencontrées, vous pouvez vous retrouver avec des mesures d'équité faussement bonnes. De même, des performances élevées du modèle sur un jeu de données ne garantissent pas des performances élevées sur les autres.

Gardez à l'esprit que les sous-groupes ne sont pas toujours la meilleure façon de classer les individus.

Les gens sont multidimensionnels et appartiennent à plus d'un groupe, même au sein d'une seule dimension - considérez quelqu'un qui est multiracial ou appartient à plusieurs groupes raciaux. De plus, alors que les mesures globales pour un groupe racial donné peuvent sembler équitables, des interactions particulières, telles que la race et le sexe ensemble, peuvent montrer un biais involontaire. De plus, de nombreux sous-groupes ont des frontières floues qui sont constamment redessinées.

Quand ai-je testé suffisamment de tranches et comment savoir quelles tranches tester ?

Nous reconnaissons qu'il existe un grand nombre de groupes ou de tranches qui peuvent être pertinents à tester, et lorsque cela est possible, nous vous recommandons de trancher et d'évaluer une gamme variée et large de tranches, puis d'approfondir où vous repérez les opportunités d'amélioration. Il est également important de reconnaître que même si vous ne voyez pas de problèmes sur les tranches que vous avez testées, cela ne signifie pas que votre produit fonctionne pour tous les utilisateurs, et il est important d'obtenir divers commentaires et tests des utilisateurs pour vous assurer que vous identifiez continuellement de nouveaux Opportunités.

Pour commencer, nous vous recommandons de réfléchir à votre cas d'utilisation particulier et aux différentes manières dont les utilisateurs peuvent interagir avec votre produit. Comment différents utilisateurs peuvent-ils avoir des expériences différentes ? Qu'est-ce que cela signifie pour les tranches que vous devez évaluer ? La collecte des commentaires de divers utilisateurs peut également mettre en évidence les tranches potentielles à prioriser.

Quelles métriques dois-je choisir ?

Lors de la sélection des métriques à évaluer pour votre système, considérez qui expérimentera votre modèle, comment il sera expérimenté et les effets de cette expérience.

Par exemple, comment votre modèle donne-t-il aux gens plus de dignité ou d'autonomie, ou a-t-il un impact positif sur leur bien-être émotionnel, physique ou financier ? En revanche, comment les prédictions de votre modèle pourraient-elles réduire la dignité ou l'autonomie des personnes, ou avoir un impact négatif sur leur bien-être émotionnel, physique ou financier ?

En général, nous vous recommandons de découper toutes vos mesures de performances existantes en tant que bonne pratique. Nous vous recommandons également d'évaluer vos métriques sur plusieurs seuils afin de comprendre comment le seuil peut affecter les performances de différents groupes.

De plus, s'il existe une étiquette prédite qui est uniformément "bonne" ou "mauvaise", alors envisagez de rapporter (pour chaque sous-groupe) le taux auquel cette étiquette est prédite. Par exemple, une « bonne » étiquette serait une étiquette dont la prédiction accorde à une personne l'accès à une ressource ou lui permet d'effectuer une action.

Paramètres d'équité critiques pour la classification

Lorsque vous pensez à un modèle de classification, pensez aux effets des erreurs (les différences entre l'étiquette de «vérité terrain» réelle et l'étiquette du modèle). Si certaines erreurs peuvent présenter plus d'opportunités ou de préjudices pour vos utilisateurs, assurez-vous d'évaluer les taux de ces erreurs parmi les groupes d'utilisateurs. Ces taux d'erreur sont définis ci-dessous, dans les mesures actuellement prises en charge par la version bêta des indicateurs d'équité.

Au cours de l'année prochaine, nous espérons publier des études de cas de différents cas d'utilisation et les métriques associées afin que nous puissions mieux mettre en évidence le moment où différentes métriques pourraient être les plus appropriées.

Métriques disponibles aujourd'hui dans les indicateurs d'équité

Taux positif / Taux négatif

  • Définition : Le pourcentage de points de données qui sont classés comme positifs ou négatifs, indépendamment de la vérité terrain
  • Se rapporte à : la parité démographique et l'égalité des résultats, lorsqu'ils sont égaux entre les sous-groupes
  • Quand utiliser cette métrique : Cas d'utilisation d'équité où il est important d'avoir des pourcentages finaux égaux de groupes

Taux de vrais positifs / Taux de faux négatifs

  • Définition : le pourcentage de points de données positifs (tels qu'ils sont étiquetés dans la vérité de terrain) qui sont correctement classés comme positifs, ou le pourcentage de points de données positifs qui sont incorrectement classés comme négatifs
  • Se rapporte à : l'égalité des chances (pour la classe positive), lorsqu'elle est égale entre les sous-groupes
  • Quand utiliser cette métrique : Cas d'utilisation d'équité où il est important que le même pourcentage de candidats qualifiés soit évalué positivement dans chaque groupe. Ceci est le plus souvent recommandé dans les cas de classification de résultats positifs, tels que les demandes de prêt, les admissions à l'école ou si le contenu est adapté aux enfants.

Taux de vrais négatifs / Taux de faux positifs

  • Définition : le pourcentage de points de données négatifs (tels qu'ils sont étiquetés dans la vérité de terrain) qui sont correctement classés comme négatifs, ou le pourcentage de points de données négatifs qui sont incorrectement classés comme positifs
  • Se rapporte à : l'égalité des chances (pour la classe négative), lorsqu'elle est égale entre les sous-groupes
  • Quand utiliser cette métrique : cas d'utilisation d'équité où les taux d'erreur (ou la mauvaise classification de quelque chose comme positif) sont plus préoccupants que la classification des positifs. Ceci est plus courant dans les cas d'abus, où les positifs conduisent souvent à des actions négatives. Celles-ci sont également importantes pour les technologies d'analyse faciale telles que la détection de visage ou les attributs de visage

Précision et ASC

  • Se rapporte à : la parité prédictive, lorsqu'elle est égale entre les sous-groupes
  • Quand utiliser ces mesures : cas où la précision de la tâche est la plus critique (pas nécessairement dans une direction donnée), comme l'identification des visages ou le regroupement des visages

Taux de fausse découverte

  • Définition : Le pourcentage de points de données négatifs (tels qu'étiquetés dans la vérité de terrain) qui sont incorrectement classés comme positifs sur tous les points de données classés comme positifs. C'est aussi l'inverse de PPV
  • Se rapporte à : la parité prédictive (également connue sous le nom d'étalonnage), lorsqu'elle est égale entre les sous-groupes
  • Quand utiliser cette métrique : cas où la fraction de prédictions positives correctes doit être égale dans tous les sous-groupes

Taux de fausses omissions

  • Définition : Le pourcentage de points de données positifs (tels qu'étiquetés dans la vérité de terrain) qui sont incorrectement classés comme négatifs sur tous les points de données classés comme négatifs. C'est aussi l'inverse de la VAN
  • Se rapporte à : la parité prédictive (également connue sous le nom d'étalonnage), lorsqu'elle est égale entre les sous-groupes
  • Quand utiliser cette métrique : cas où la fraction de prédictions négatives correctes doit être égale dans tous les sous-groupes

Taux de retournement global / Taux de retournement de prédiction positif à négatif / Taux de retournement de prédiction négatif à positif

  • Définition : la probabilité que le classificateur donne une prédiction différente si l'attribut d'identité d'une entité donnée a été modifié.
  • Se rapporte à : Équité contrefactuelle
  • Quand utiliser cette métrique : pour déterminer si la prédiction du modèle change lorsque les attributs sensibles référencés dans l'exemple sont supprimés ou remplacés. Si c'est le cas, envisagez d'utiliser la technique Counterfactual Logit Pairing dans la bibliothèque Tensorflow Model Remediation.

Flip Count / Prédiction positive à négative Flip Count / Prédiction négative à positive Flip Count *

  • Définition : Le nombre de fois que le classificateur donne une prédiction différente si le terme d'identité dans un exemple donné a été modifié.
  • Se rapporte à : Équité contrefactuelle
  • Quand utiliser cette métrique : pour déterminer si la prédiction du modèle change lorsque les attributs sensibles référencés dans l'exemple sont supprimés ou remplacés. Si c'est le cas, envisagez d'utiliser la technique Counterfactual Logit Pairing dans la bibliothèque Tensorflow Model Remediation.

Exemples de métriques à sélectionner

  • Le fait de ne pas détecter systématiquement les visages dans une application de caméra peut entraîner une expérience utilisateur négative pour certains groupes d'utilisateurs. Dans ce cas, les faux négatifs dans un système de détection de visage peuvent entraîner une défaillance du produit, tandis qu'un faux positif (détecter un visage alors qu'il n'y en a pas) peut gêner légèrement l'utilisateur. Ainsi, l'évaluation et la minimisation du taux de faux négatifs sont importantes pour ce cas d'utilisation.
  • Marquer injustement les commentaires textuels de certaines personnes comme « spam » ou « haute toxicité » dans un système de modération conduit à faire taire certaines voix. D'une part, un taux élevé de faux positifs conduit à une censure injuste. D'autre part, un taux élevé de faux négatifs pourrait entraîner une prolifération de contenus toxiques de certains groupes, ce qui peut à la fois nuire à l'utilisateur et constituer un préjudice de représentation pour ces groupes. Ainsi, les deux métriques sont importantes à prendre en compte, en plus des métriques qui prennent en compte tous les types d'erreurs telles que la précision ou l'AUC.

Vous ne voyez pas les métriques que vous recherchez ?

Suivez la documentation ici pour ajouter votre propre métrique personnalisée.

Remarques finales

Un écart de métrique entre deux groupes peut être un signe que votre modèle peut avoir des biais injustes . Vous devez interpréter vos résultats en fonction de votre cas d'utilisation. Cependant, le premier signe que vous traitez peut-être un ensemble d'utilisateurs de manière injuste est lorsque les mesures entre cet ensemble d'utilisateurs et votre ensemble sont très différentes. Assurez-vous de tenir compte des intervalles de confiance lorsque vous examinez ces différences. Lorsque vous avez trop peu d'échantillons dans une tranche particulière, la différence entre les métriques peut ne pas être exacte.

Atteindre l'égalité entre les groupes sur les indicateurs d'équité ne signifie pas que le modèle est équitable. Les systèmes sont très complexes, et atteindre l'égalité sur l'un (ou même tous) des métriques fournies ne peut pas garantir l'équité.

Les évaluations d'équité doivent être effectuées tout au long du processus de développement et après le lancement (et non la veille du lancement). Tout comme l'amélioration de votre produit est un processus continu et sujet à des ajustements en fonction des commentaires des utilisateurs et du marché, rendre votre produit juste et équitable nécessite une attention continue. À mesure que différents aspects du modèle changent, tels que les données de formation, les entrées d'autres modèles ou la conception elle-même, les mesures d'équité sont susceptibles de changer. « Effacer la barre » une fois n'est pas suffisant pour s'assurer que tous les composants en interaction sont restés intacts au fil du temps.

Des tests contradictoires doivent être effectués pour les exemples rares et malveillants. Les évaluations d'équité ne sont pas destinées à remplacer les tests contradictoires. Une défense supplémentaire contre des exemples rares et ciblés est cruciale car ces exemples ne se manifesteront probablement pas dans les données de formation ou d'évaluation.