Exigences MinDiff

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Quand dois-je utiliser MinDiff ?

Appliquez MinDiff dans les cas où votre modèle fonctionne généralement bien, mais produit des erreurs nuisibles plus fréquemment sur des exemples appartenant à un groupe sensible, et vous souhaitez combler l'écart de performances. Les groupes d'intérêt sensibles peuvent varier en fonction de votre cas d'utilisation, mais incluent souvent des classes protégées, telles que la race, la religion, le sexe, l'orientation sexuelle, etc. Tout au long de ce document, nous utiliserons «groupe sensible» pour désigner tout ensemble d'exemples appartenant à une classe protégée.

Il existe deux conditions principales pour utiliser MinDiff pour traiter des tranches de données peu performantes :

  • Vous avez déjà ajusté et évalué votre modèle, en identifiant les métriques qui montrent des tranches de données sous-performantes. Cela doit être fait avant d'appliquer la correction du modèle.
  • Vous avez, ou pouvez obtenir, un nombre suffisant d'exemples étiquetés pertinents appartenant au groupe sous-performant (plus de détails ci-dessous).

MinDiff est l'une des nombreuses techniques permettant de remédier aux comportements inégaux. En particulier, cela peut être un bon choix lorsque vous essayez d'égaliser directement les performances entre les groupes. MinDiff peut être utilisé en conjonction avec d'autres approches, telles que l'augmentation des données et autres, ce qui peut conduire à de meilleurs résultats. Cependant, si vous devez prioriser la technique dans laquelle investir, vous devez le faire en fonction des besoins de votre produit.

Lors de l'application de MinDiff, vous pouvez voir les performances se dégrader ou changer légèrement pour vos groupes les plus performants, à mesure que vos groupes les moins performants s'améliorent. Ce compromis est attendu et doit être évalué dans le contexte des exigences de votre produit. Dans la pratique, nous avons souvent vu que MinDiff ne fait pas chuter les tranches les plus performantes en dessous des niveaux acceptables, mais cela est spécifique à l'application et une décision qui doit être prise par le propriétaire du produit.

Sur quels types de modèles puis-je appliquer MinDiff ?

MinDiff s'est avéré systématiquement efficace lorsqu'il est appliqué aux classificateurs binaires. L'adaptation de la méthode pour d'autres applications est possible, mais n'a pas été entièrement testée. Certains travaux ont été effectués pour montrer le succès dans les tâches de multi-classification et de classement 1 , mais toute utilisation de MinDiff sur ces types de modèles ou d'autres doit être considérée comme expérimentale.

Sur quelles métriques puis-je appliquer MinDiff ?

MinDiff peut être une bonne solution lorsque la métrique que vous essayez d'égaliser entre les groupes est le taux de faux positifs (FPR) ou le taux de faux négatifs (FNR) , mais cela peut fonctionner pour d'autres métriques. En règle générale, MinDiff peut fonctionner lorsque la métrique que vous ciblez est le résultat de différences dans les distributions de score entre les exemples appartenant à un groupe sensible et les exemples n'appartenant pas à un groupe sensible.

Construire votre jeu de données MinDiff

Lorsque vous vous préparez à vous entraîner avec MinDiff, vous devrez préparer trois ensembles de données distincts. Comme pour la formation régulière, vos ensembles de données MinDiff doivent être représentatifs des utilisateurs que votre modèle dessert. MinDiff peut fonctionner sans cela, mais vous devez redoubler de prudence dans de tels cas.

En supposant que vous essayez d'améliorer le FPR de votre modèle pour des exemples appartenant à une classe sensible, vous aurez besoin :

  1. L'ensemble d'entraînement d'origine - L'ensemble de données d'origine qui a été utilisé pour l'entraînement de votre modèle de base
  2. L'ensemble sensible MinDiff - Un ensemble de données d'exemples appartenant à la classe sensible avec uniquement des étiquettes de vérité terrain négatives. Ces exemples ne seront utilisés que pour calculer la perte MinDiff.
  3. L'ensemble non sensible MinDiff - Un ensemble de données d'exemples n'appartenant pas à la classe sensible avec uniquement des étiquettes de vérité terrain négatives. Ces exemples ne seront utilisés que pour calculer la perte MinDiff.

Lors de l'utilisation de la bibliothèque, vous combinerez ces trois ensembles de données en un seul ensemble de données, qui servira de nouvel ensemble d'apprentissage.

Choisir des exemples pour MinDiff

Il peut sembler contre-intuitif dans l'exemple ci-dessus de se tailler des ensembles d'exemples étiquetés négativement si vous êtes principalement préoccupé par les disparités dans le taux de faux positifs . Cependant, rappelez-vous qu'une prédiction faussement positive provient d'un exemple étiqueté négativement classé à tort comme positif.

Lors de la collecte de vos données pour MinDiff, vous devez choisir des exemples où la disparité des performances est évidente. Dans notre exemple ci-dessus, cela signifiait choisir des exemples étiquetés négativement pour traiter le FPR. Si nous avions été intéressés à cibler le FNR, nous aurions dû choisir des exemples étiquetés positivement.

De combien de données ai-je besoin ?

Bonne question - cela dépend de votre cas d'utilisation ! En fonction de l'architecture de votre modèle, de la distribution des données et de la configuration MinDiff, la quantité de données nécessaires peut varier considérablement. Dans les applications précédentes, nous avons vu MinDiff bien fonctionner avec 5 000 exemples dans chaque ensemble d'apprentissage MinDiff (ensembles 2 et 3 dans la section précédente). Avec moins de données, il existe un risque accru de baisse des performances, mais cela peut être minime ou acceptable dans les limites de vos contraintes de production. Après avoir appliqué MinDiff, vous devrez évaluer soigneusement vos résultats pour garantir des performances acceptables. S'ils ne sont pas fiables ou ne répondent pas aux attentes en matière de performances, vous pouvez toujours envisager de collecter davantage de données.

Quand est-ce que MinDiff ne me convient pas ?

MinDiff est une technique puissante qui peut fournir des résultats impressionnants, mais cela ne signifie pas que c'est la bonne méthode pour toutes les situations. L'appliquer au hasard ne garantit pas que vous obtiendrez une solution adéquate.

Au-delà des exigences décrites ci-dessus, il existe des cas où MinDiff peut être techniquement faisable, mais pas adapté. Vous devez toujours concevoir votre flux de travail ML conformément aux pratiques recommandées connues. Par exemple, si votre tâche de modèle est mal définie, si le produit n'est pas clair ou si vos exemples d'étiquettes sont trop biaisés, vous devez traiter ces problèmes en priorité. De même, si vous ne disposez pas d'une définition claire du groupe sensible, ou si vous êtes incapable de déterminer de manière fiable si les exemples appartiennent au groupe sensible, vous ne pourrez pas appliquer MinDiff efficacement.

À un niveau supérieur, vous devez toujours vous demander si votre produit est une utilisation appropriée pour le ML. Si c'est le cas, considérez les vecteurs potentiels de préjudice pour l'utilisateur qu'il crée. La poursuite du BC responsable est un effort à multiples facettes qui vise à anticiper un large éventail de dommages potentiels ; MinDiff peut aider à atténuer certains d'entre eux, mais tous les résultats méritent une attention particulière.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Équité dans le classement des recommandations grâce à des comparaisons par paires.