Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

Requisitos de MinDiff

¿Cuándo debo usar MinDiff?

Recomendamos aplicar MinDiff en los casos en que su modelo se desempeña bien en general, pero produce errores dañinos con mayor frecuencia en ejemplos que pertenecen a un grupo sensible y desea cerrar la brecha de rendimiento. Los grupos sensibles de interés pueden variar según su caso de uso, pero a menudo incluyen clases protegidas, como raza, religión, género, orientación sexual y más. A lo largo de este documento, usaremos "grupo sensible" para referirnos a cualquier conjunto de ejemplos que pertenezcan a una clase protegida.

Hay dos condiciones principales para usar MinDiff para abordar segmentos de datos de bajo rendimiento:

  • Ya ha ajustado y evaluado su modelo, identificando métricas que muestran porciones de datos de bajo rendimiento. Esto debe hacerse antes de aplicar la corrección del modelo.
  • Tiene, o puede obtener, una cantidad suficiente de ejemplos etiquetados relevantes que pertenecen al grupo de bajo rendimiento (más detalles a continuación).

MinDiff es una de las muchas técnicas para remediar el comportamiento desigual. En particular, puede ser una buena opción cuando intenta igualar directamente el rendimiento entre grupos. MinDiff se puede utilizar junto con otros enfoques, como el aumento de datos y otros, que pueden conducir a mejores resultados. Sin embargo, si necesita priorizar en qué técnica invertir, debe hacerlo de acuerdo con las necesidades de su producto.

Al aplicar MinDiff, es posible que vea que el rendimiento se degrada o cambia ligeramente para sus grupos con mejor rendimiento, a medida que mejoran sus grupos con bajo rendimiento. Se espera esta compensación y debe evaluarse en el contexto de los requisitos de su producto. En la práctica, hemos visto a menudo que MinDiff no hace que los cortes de alto rendimiento caigan por debajo de los niveles aceptables, pero esto es específico de la aplicación y una decisión que debe tomar el propietario del producto.

¿En qué tipos de modelos puedo aplicar MinDiff?

Se ha demostrado que MinDiff es sistemáticamente eficaz cuando se aplica a clasificadores binarios. Es posible adaptar el método para otras aplicaciones, pero no se ha probado completamente. Se ha realizado algún trabajo para demostrar el éxito en las tareas de clasificación múltiple y clasificación 1, pero cualquier uso de MinDiff en estos u otros tipos de modelos debe considerarse experimental.

¿En qué métricas puedo aplicar MinDiff?

MinDiff puede ser una buena solución cuando la métrica que está tratando de igualar entre los grupos es la tasa de falsos positivos (FPR) o la tasa de falsos negativos (FNR) , pero puede funcionar para otras métricas. Como regla general, MinDiff puede funcionar cuando la métrica a la que se dirige es el resultado de diferencias en las distribuciones de puntuación entre ejemplos que pertenecen a un grupo sensible y ejemplos que no pertenecen a un grupo sensible.

Construyendo su conjunto de datos MinDiff

Cuando se prepare para entrenar con MinDiff, deberá preparar tres conjuntos de datos separados. Al igual que con el entrenamiento regular, sus conjuntos de datos MinDiff deben ser representativos de los usuarios a los que atiende su modelo. MinDiff puede funcionar sin esto, pero debe tener mucho cuidado en tales casos.

Suponiendo que está tratando de mejorar el FPR de su modelo para ejemplos que pertenecen a una clase sensible, necesitará:

  1. El conjunto de entrenamiento original: el conjunto de datos original que se usó para entrenar su modelo de línea de base
  2. El conjunto sensible de MinDiff: un conjunto de datos de ejemplos que pertenecen a la clase sensible con solo etiquetas de verdad de terreno negativas. Estos ejemplos se utilizarán solo para calcular la pérdida de MinDiff.
  3. El conjunto no sensible de MinDiff: un conjunto de datos de ejemplos que no pertenecen a la clase sensible con solo etiquetas de verdad de terreno negativas. Estos ejemplos se utilizarán únicamente para calcular la pérdida de MinDiff.

Cuando use la biblioteca, combinará los tres conjuntos de datos en un solo conjunto de datos, que servirá como su nuevo conjunto de entrenamiento.

Ejemplos de selección para MinDiff

Puede parecer contradictorio en el ejemplo anterior crear conjuntos de ejemplos etiquetados negativamente si lo que más le preocupan son las disparidades en la tasa de falsos positivos . Sin embargo, recuerde que una predicción de falso positivo proviene de un ejemplo etiquetado negativamente clasificado incorrectamente como positivo.

Al recopilar sus datos para MinDiff, debe elegir ejemplos en los que la disparidad en el rendimiento sea evidente. En nuestro ejemplo anterior, esto significó elegir ejemplos etiquetados negativamente para abordar FPR. Si hubiéramos estado interesados ​​en apuntar a FNR, habríamos tenido que elegir ejemplos etiquetados positivamente.

¿Cuántos datos necesito?

Buena pregunta, ¡depende de su caso de uso! Según la arquitectura de su modelo, la distribución de datos y la configuración de MinDiff, la cantidad de datos necesarios puede variar significativamente. En aplicaciones anteriores, hemos visto que MinDiff funciona bien con 5000 ejemplos en cada conjunto de entrenamiento MinDiff (conjuntos 2 y 3 en la sección anterior). Con menos datos, existe un mayor riesgo de rendimiento reducido, pero esto puede ser mínimo o aceptable dentro de los límites de sus limitaciones de producción. Después de aplicar MinDiff, deberá evaluar sus resultados a fondo para garantizar un rendimiento aceptable. Si no son fiables o no cumplen con las expectativas de rendimiento, es posible que desee considerar la posibilidad de recopilar más datos.

¿Cuándo MinDiff no es adecuado para mí?

MinDiff es una técnica poderosa que puede proporcionar resultados impresionantes, pero esto no significa que sea el método adecuado para todas las situaciones. Aplicarlo al azar no garantiza que logres una solución adecuada.

Más allá de los requisitos discutidos anteriormente, hay casos en los que MinDiff puede ser técnicamente factible, pero no adecuado. Siempre debe diseñar su flujo de trabajo de AA de acuerdo con las prácticas recomendadas conocidas. Por ejemplo, si su tarea modelo está mal definida, el producto necesita poco claro o sus etiquetas de ejemplo están demasiado sesgadas, debe priorizar el tratamiento de estos problemas. Del mismo modo, si no tiene una definición clara del grupo sensible o no puede determinar de manera confiable si los ejemplos pertenecen al grupo sensible, no podrá aplicar MinDiff de manera efectiva.

En un nivel superior, siempre debe considerar si su producto es un uso apropiado para ML. Si es así, considere los posibles vectores de daño para el usuario que crea. La búsqueda de un LA responsable es un esfuerzo multifacético que tiene como objetivo anticipar una amplia gama de daños potenciales; MinDiff puede ayudar a mitigar algunos de estos, pero todos los resultados merecen una consideración cuidadosa.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Equidad en la clasificación de recomendaciones a través de comparaciones por pares.