¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

¿Qué es la corrección de modelos?

Una vez que haya realizado una evaluación por segmentos del rendimiento de un modelo de aprendizaje automático, es posible que observe que su modelo tiene un rendimiento inferior en ciertos segmentos de datos. Este tipo de desempeño desigual a veces puede conducir a resultados injustos y potencialmente dañinos para subconjuntos vulnerables de la población. En general, existen tres tipos principales de intervenciones técnicas para abordar los problemas de sesgo:

  • Cambiar los datos de entrada: recopilar más datos, generar datos sintéticos, ajustar los pesos y las tasas de muestreo de diferentes cortes, etc. 1
  • Intervención en el modelo: cambiar el modelo en sí introduciendo o alterando los objetivos del modelo, agregando restricciones, etc. 2
  • Postprocesamiento de los resultados: modificar las salidas del modelo o la interpretación de las salidas para mejorar el rendimiento en todas las métricas 3

from tensorflow_model_remediation import min_diff
import tensorflow as tf

# Start by defining a Keras model.
original_model = ...

# Set the MinDiff weight and choose a loss.
min_diff_loss = min_diff.losses.MMDLoss()
min_diff_weight = 1.0  # Hyperparamater to be tuned.

# Create a MinDiff model.
min_diff_model = min_diff.keras.MinDiffModel(
original_model, min_diff_loss, min_diff_weight)

# Compile the MinDiff model normally.
min_diff_model.compile(...)

# Create a MinDiff Dataset and train the min_diff_model.
min_diff_model.fit(min_diff_dataset, ...)

¿Qué es MinDiff?

MinDiff es una técnica de corrección de modelos que busca igualar dos distribuciones. En la práctica, se puede utilizar para equilibrar las tasas de error en diferentes segmentos de sus datos al penalizar las diferencias de distribución.

Normalmente, se aplica MinDiff cuando se intenta minimizar la diferencia en la tasa de falsos positivos (FPR) o la tasa de falsos negativos (FNR) entre un segmento de datos que pertenece a una clase sensible y un segmento de mejor rendimiento. Para una discusión en profundidad de las métricas de equidad, revise la literatura sobre este tema. 4 5 6

¿Cómo funciona MinDiff?

Dados dos conjuntos de ejemplos de nuestro conjunto de datos, MinDiff penaliza al modelo durante el entrenamiento por las diferencias en la distribución de puntuaciones entre los dos conjuntos. Cuanto menos distinguibles se basen los dos conjuntos en las puntuaciones de predicción, menor será la penalización que se aplicará.

La penalización se aplica agregando un componente a la pérdida con la que se está entrenando el modelo. Puede considerarse como una medida de la diferencia en la distribución de las predicciones del modelo. A medida que el modelo se entrena, intentará minimizar la penalización acercando las distribuciones, como en el gráfico anterior.

La aplicación de MinDiff puede conllevar compensaciones con respecto al rendimiento en la tarea original. En la práctica, a menudo hemos descubierto que MinDiff es eficaz sin deteriorar el rendimiento más allá de las necesidades del producto, pero esto dependerá de la aplicación y la decisión debe tomarla deliberadamente el propietario del producto. Para ver ejemplos que muestran cómo implementar MinDiff, consulte nuestro tutorial de cuaderno .

1 Zhang, G., Bai, B., Zhang, J., Bai, K., Zhu, C., Zhao, T. (2020). La demografía no debe ser la razón de la toxicidad: mitigar la discriminación en las clasificaciones de texto con ponderación de instancias.
2 Prost, F., Qian H., Chen, Q., Chi, E., Chen, J., Beutel, A. (2019). Hacia una mejor compensación entre rendimiento y equidad con la coincidencia de distribución basada en kernel.
3 Alabdulmohsin, I. (2020). Clasificación justa a través de optimización sin restricciones.
4 Dwork, C., Hardt, M., Pitassi, T., Reingold, O., Zemel, R. (2011). Equidad a través de la conciencia.
5 Hardt, M., Price, E., Srebro, N. (2016). Igualdad de oportunidades en el aprendizaje supervisado.
6 Chouldechova, A. (2016). Predicción justa con impacto dispar: un estudio de sesgo en los instrumentos de predicción de reincidencia.

Recursos