Aide à protéger la Grande barrière de corail avec tensorflow sur Kaggle Rejoignez Défi

MinDiff Exigences

Quand dois-je utiliser MinDiff ?

Nous vous recommandons d'appliquer MinDiff dans les cas où votre modèle fonctionne généralement bien, mais produit des erreurs nuisibles plus fréquemment sur des exemples appartenant à un groupe sensible, et vous souhaitez combler l'écart de performance. Les groupes d'intérêt sensibles peuvent varier en fonction de votre cas d'utilisation, mais incluent souvent des classes protégées, telles que la race, la religion, le sexe, l'orientation sexuelle, etc. Tout au long de ce document, nous utiliserons « groupe sensible » pour désigner tout ensemble d'exemples appartenant à une classe protégée.

Il existe deux conditions principales pour utiliser MinDiff pour traiter les tranches de données sous-performantes :

  • Vous avez déjà réglé et évalué votre modèle, en identifiant les métriques qui montrent des tranches de données sous-performantes. Cela doit être fait avant d' appliquer l' assainissement du modèle.
  • Vous avez, ou pouvez obtenir, un nombre suffisant d'exemples étiquetés pertinents appartenant au groupe sous-performant (plus de détails ci-dessous).

MinDiff est l'une des nombreuses techniques permettant de corriger les comportements inégaux. En particulier, cela peut être un bon choix lorsque vous essayez d'égaliser directement les performances entre les groupes. MinDiff peut être utilisé en conjonction avec d'autres approches, telles que l'augmentation des données et d'autres, ce qui peut conduire à de meilleurs résultats. Cependant, si vous devez prioriser la technique dans laquelle investir, vous devez le faire en fonction des besoins de votre produit.

Lors de l'application de MinDiff, vous pouvez voir les performances se dégrader ou légèrement changer pour vos groupes les plus performants, à mesure que vos groupes les moins performants s'améliorent. Ce compromis est attendu et doit être évalué dans le contexte des exigences de votre produit. Dans la pratique, nous avons souvent vu que MinDiff ne fait pas tomber les tranches les plus performantes en dessous des niveaux acceptables, mais cela est spécifique à l'application et une décision qui doit être prise par le propriétaire du produit.

Sur quels types de modèles puis-je appliquer MinDiff ?

Mindiff a été démontré être toujours efficaces lorsqu'ils sont appliqués à des classificateurs binaires. L'adaptation de la méthode à d'autres applications est possible, mais n'a pas été entièrement testée. Des travaux ont été fait pour montrer le succès dans le classement multi - tâches et classement 1 , mais toute utilisation de mindiff sur ceux - ci ou d' autres types de modèles devrait être considérée comme expérimentale.

Sur quelles métriques puis-je appliquer MinDiff ?

Mindiff peut être une bonne solution lorsque la métrique que vous essayez d'égaliser les groupes est faux taux positif (RPF), ou le taux de faux négatifs (FNR), mais il peut travailler pour d' autres mesures. En règle générale, MinDiff peut fonctionner lorsque la métrique que vous ciblez résulte de différences dans la distribution des scores entre les exemples appartenant à un groupe sensible et les exemples n'appartenant pas à un groupe sensible.

Construire votre jeu de données MinDiff

Lors de la préparation de l'entraînement avec MinDiff, vous devrez préparer trois ensembles de données distincts. Comme pour la formation régulière, vos ensembles de données MinDiff doivent être représentatifs des utilisateurs auxquels votre modèle sert. MinDiff peut fonctionner sans cela, mais vous devez redoubler de prudence dans de tels cas.

En supposant que vous essayez d'améliorer le FPR de votre modèle pour des exemples appartenant à une classe sensible, vous aurez besoin de :

  1. L'ensemble d'entraînement d'origine - L'ensemble de données d'origine qui a été utilisé pour entraîner votre modèle de référence
  2. L'ensemble sensible mindiff - Un ensemble de données d'exemples appartenant à la classe sensible avec seulement des étiquettes négatives de la vérité du terrain. Ces exemples ne seront utilisés que pour le calcul de la perte MinDiff.
  3. L'ensemble non sensibles mindiff - Un ensemble de données d'exemples non appartenant à la classe sensible avec seulement des étiquettes négatives de la vérité du terrain. Ces exemples ne seront utilisés que pour le calcul de la perte MinDiff.

Lorsque vous utilisez la bibliothèque, vous combinerez ces trois ensembles de données en un seul ensemble de données, qui servira de nouvel ensemble d'apprentissage.

Exemples de sélection pour MinDiff

Il peut sembler contraire à l' intuition dans l'exemple ci - dessus pour se tailler des ensembles d'exemples étiquetés négativement si vous êtes principalement concernés par les disparités de taux de faux positifs. Cependant, n'oubliez pas qu'une prédiction faussement positive provient d'un exemple étiqueté négativement et classé à tort comme positif.

Lors de la collecte de vos données pour MinDiff, vous devez choisir des exemples où la disparité des performances est évidente. Dans notre exemple ci-dessus, cela signifiait choisir des exemples étiquetés négativement pour traiter le FPR. Si nous avions été intéressés par le ciblage du FNR, nous aurions dû choisir des exemples étiquetés positivement.

De combien de données ai-je besoin ?

Bonne question, cela dépend de votre cas d'utilisation ! En fonction de l'architecture de votre modèle, de la distribution des données et de la configuration MinDiff, la quantité de données nécessaires peut varier considérablement. Dans les applications précédentes, nous avons vu MinDiff bien fonctionner avec 5 000 exemples dans chaque ensemble d'apprentissage MinDiff (ensembles 2 et 3 dans la section précédente). Avec moins de données, le risque de baisse des performances est accru, mais cela peut être minime ou acceptable dans les limites de vos contraintes de production. Après avoir appliqué MinDiff, vous devrez évaluer soigneusement vos résultats pour garantir des performances acceptables. S'ils ne sont pas fiables ou ne répondent pas aux attentes en matière de performances, vous pouvez toujours envisager de collecter davantage de données.

Quand est - mindiff pas juste pour moi?

MinDiff est une technique puissante qui peut fournir des résultats impressionnants, mais cela ne signifie pas que c'est la bonne méthode pour toutes les situations. L'appliquer au hasard ne garantit pas que vous obtiendrez une solution adéquate.

Au-delà des exigences décrites ci-dessus, il existe des cas où MinDiff peut être techniquement faisable, mais pas adapté. Vous devez toujours concevoir votre workflow ML conformément aux pratiques recommandées connues. Par exemple, si votre tâche de modèle est mal définie, si le produit n'est pas clair ou si vos exemples d'étiquettes sont trop biaisés, vous devez donner la priorité à la résolution de ces problèmes. De même, si vous n'avez pas une définition claire du groupe sensible, ou si vous n'êtes pas en mesure de déterminer de manière fiable si les exemples appartiennent au groupe sensible, vous ne pourrez pas appliquer MinDiff efficacement.

À un niveau supérieur, vous devez toujours déterminer si votre produit est une utilisation appropriée pour le ML. Si c'est le cas, considérez les vecteurs potentiels de préjudice pour les utilisateurs qu'il crée. La poursuite du BC responsable est un effort à multiples facettes qui vise à anticiper un large éventail de dommages potentiels ; MinDiff peut aider à atténuer certains d'entre eux, mais tous les résultats méritent un examen attentif.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Équité dans le classement des recommandations grâce à des comparaisons par paires.