Responsible AI Toolkit

Qu'est-ce que la correction de modèles ?

Une fois que vous avez effectué une évaluation par tranches des performances d'un modèle de machine learning, vous remarquerez peut-être que votre modèle est sous-performant sur certaines tranches de données. Ce type de performance inégale peut parfois conduire à des résultats injustes et potentiellement préjudiciables pour des sous-ensembles vulnérables de la population. En règle générale, il existe trois principaux types d'interventions techniques pour éviter le risque de biais :

Modifier les données d'entrée : collecter plus de données, générer des données synthétiques, ajuster les pondérations et les taux d'échantillonnage des différents segments, etc.¹.
Intervenir sur le modèle : changer le modèle proprement dit en introduisant des objectifs du modèle ou en les modifiant, en ajoutant des contraintes, etc.².
Post-traiter les résultats : modifier les sorties du modèle ou l'interprétation des sorties pour améliorer les performances entre les statistiques³.

from tensorflow_model_remediation import min_diff
import tensorflow as tf

# Start by defining a Keras model.
original_model = ...

# Set the MinDiff weight and choose a loss.
min_diff_loss = min_diff.losses.MMDLoss()
min_diff_weight = 1.0  # Hyperparamater to be tuned.

# Create a MinDiff model.
min_diff_model = min_diff.keras.MinDiffModel(
original_model, min_diff_loss, min_diff_weight)

# Compile the MinDiff model normally.
min_diff_model.compile(...)

# Create a MinDiff Dataset and train the min_diff_model.
min_diff_model.fit(min_diff_dataset, ...)

Qu'est-ce que MinDiff ?

MinDiff est une technique de correction de modèles qui vise à égaliser deux distributions. En pratique, cette technique peut être utilisée pour équilibrer les taux d'erreur entre différentes tranches de données en pénalisant les différences de distribution.

En général, on applique MinDiff en vue de réduire la différence de taux de faux positifs (TFP) ou de faux négatifs (TFN) entre une tranche de données sensibles et une tranche plus performante. Pour une discussion plus approfondie sur les métriques d'équité, consultez les travaux consacrés à ce sujet^{4 5 6}.

Comment fonctionne MinDiff ?

Compte tenu de deux ensembles d'exemples de notre ensemble de données, MinDiff pénalise le modèle pendant l'entraînement pour les différences dans la distribution des scores entre les deux ensembles. Moins on distingue les deux ensembles basés sur des scores de prédiction, plus la pénalité appliquée sera petite.

La pénalité est appliquée en ajoutant un composant à la perte avec laquelle le modèle s'entraîne. Ce composant peut être considéré comme une mesure de la différence de distribution des prédictions du modèle. Au fur et à mesure que le modèle s'entraîne, il essaiera de minimiser la pénalité en rapprochant les distributions, comme illustré dans le graphique ci-dessus.

L'application de MinDiff peut entraîner des compromis en ce qui concerne les performances de la tâche d'origine. Dans la pratique, nous avons souvent constaté que MinDiff était efficace sans détériorer les performances au-delà des besoins du produit, mais cela dépendra de l'application, et la décision devrait être prise délibérément par le propriétaire du produit. Pour obtenir des exemples montrant comment implémenter MinDiff, consultez notre tutoriel sur les notebooks.

¹ Zhang, G., Bai, B., Zhang, J., Bai, K., Zhu, C., Zhao, T. (2020). Les données démographiques ne devraient pas être la raison de la toxicité : atténuer la discrimination dans les classifications textuelles grâce à la pondération des instances.
² Prost, F., Qian H., Chen, Q., Chi, E., Chen, J., Beutel, A. (2019). Vers un meilleur compromis entre performances et équité avec la correspondance de distribution basée sur le noyau.
³ Alabdulmohsin, I. (2020). Classification équitable via une optimisation sans contraintes.
⁴ Dwork, C., Hardt, M., Pitassi, T., Reingold, O., Zemel, R. (2011). L'équité par la sensibilisation.
⁵ Hardt, M., prixE Srebro, N. (2016). Égalité des chances dans l'apprentissage supervisé.
⁶ Chouldechova, A. (2016). Prédiction juste avec un impact disparate : une étude des biais dans les instruments de prédiction de la récidive.

Qu'est-ce que la correction de modèles ?

Qu'est-ce que MinDiff ?

Comment fonctionne MinDiff ?

Ressources

Découvrez comment MinDiff peut être appliqué à un modèle de classification de texte

MinDiff sur le blog TensorFlow

Bibliothèque de correction de modèles sur GitHub