Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

Requisitos de MinDiff

¿Cuándo debo usar MinDiff?

Recomendamos aplicar MinDiff en los casos en que su modelo se desempeña bien en general, pero produce errores dañinos con mayor frecuencia en ejemplos que pertenecen a un grupo sensible y desea cerrar la brecha de rendimiento. Los grupos sensibles de interés pueden variar según su caso de uso, pero a menudo incluyen clases protegidas, como raza, religión, género, orientación sexual y más. A lo largo de este documento, usaremos "grupo sensible" para referirnos a cualquier conjunto de ejemplos que pertenezcan a una clase protegida.

Hay dos condiciones principales para usar MinDiff para abordar segmentos de datos de bajo rendimiento:

  • Ya ha ajustado y evaluado su modelo, identificando métricas que muestran porciones de datos de bajo rendimiento. Esto debe hacerse antes de aplicar el modelo de remediación.
  • Tiene, o puede obtener, una cantidad suficiente de ejemplos etiquetados relevantes que pertenecen al grupo de bajo rendimiento (más detalles a continuación).

MinDiff es una de las muchas técnicas para remediar el comportamiento desigual. En particular, puede ser una buena opción cuando intenta igualar directamente el rendimiento entre grupos. MinDiff se puede utilizar junto con otros enfoques, como el aumento de datos y otros, que pueden conducir a mejores resultados. Sin embargo, si necesita priorizar en qué técnica invertir, debe hacerlo de acuerdo con las necesidades de su producto.

Al aplicar MinDiff, es posible que vea que el rendimiento se degrada o cambia ligeramente para sus grupos con mejor rendimiento, a medida que mejoran sus grupos con bajo rendimiento. Se espera esta compensación y debe evaluarse en el contexto de los requisitos de su producto. En la práctica, hemos visto a menudo que MinDiff no hace que los cortes de alto rendimiento caigan por debajo de los niveles aceptables, pero esto es específico de la aplicación y una decisión que debe tomar el propietario del producto.

¿En qué tipos de modelos puedo aplicar MinDiff?

MinDiff ha demostrado ser consistentemente eficaz cuando se aplica a los clasificadores binarios. Es posible adaptar el método para otras aplicaciones, pero no se ha probado completamente. Un cierto trabajo se ha hecho para mostrar el éxito en la clasificación múltiple y las tareas de clasificación 1, pero cualquier uso de MinDiff sobre estos u otros tipos de modelos debe ser considerado experimental.

¿En qué métricas puedo aplicar MinDiff?

MinDiff puede ser una buena solución cuando la métrica que está tratando de igualar a través de grupos es tasa de falsos positivos (FPR), o la tasa de falsos negativos (FNR), pero puede funcionar para otras métricas. Como regla general, MinDiff puede funcionar cuando la métrica a la que se dirige es el resultado de diferencias en las distribuciones de puntuación entre ejemplos que pertenecen a un grupo sensible y ejemplos que no pertenecen a un grupo sensible.

Construyendo su conjunto de datos MinDiff

Cuando se prepare para entrenar con MinDiff, deberá preparar tres conjuntos de datos separados. Al igual que con el entrenamiento regular, sus conjuntos de datos MinDiff deben ser representativos de los usuarios a los que atiende su modelo. MinDiff puede funcionar sin esto, pero debe tener mucho cuidado en tales casos.

Suponiendo que está tratando de mejorar el FPR de su modelo para ejemplos que pertenecen a una clase sensible, necesitará:

  1. El conjunto de entrenamiento original: el conjunto de datos original que se usó para entrenar su modelo de línea de base
  2. El conjunto sensible MinDiff - Un conjunto de datos de ejemplos que pertenecen a la clase sensible con etiquetas terreno la verdad solamente negativas. Estos ejemplos se utilizarán solo para calcular la pérdida de MinDiff.
  3. El conjunto MinDiff no sensibles - Un conjunto de datos de ejemplos que no pertenecen a la clase sensible con etiquetas terreno la verdad solamente negativas. Estos ejemplos se utilizarán solo para calcular la pérdida de MinDiff.

Al usar la biblioteca, combinará los tres conjuntos de datos en un solo conjunto de datos, que servirá como su nuevo conjunto de entrenamiento.

Ejemplos de selección para MinDiff

Puede parecer contrario a la intuición en el ejemplo anterior para labrarse conjuntos de ejemplos etiquetados negativamente si está preocupado principalmente con las disparidades en la tasa de falsos positivos. Sin embargo, recuerde que una predicción de falso positivo proviene de un ejemplo etiquetado negativamente clasificado incorrectamente como positivo.

Al recopilar sus datos para MinDiff, debe elegir ejemplos en los que la disparidad en el rendimiento sea evidente. En nuestro ejemplo anterior, esto significó elegir ejemplos etiquetados negativamente para abordar FPR. Si hubiéramos estado interesados ​​en apuntar a FNR, habríamos tenido que elegir ejemplos etiquetados positivamente.

¿Cuántos datos necesito?

Buena pregunta, ¡depende de su caso de uso! Según la arquitectura de su modelo, la distribución de datos y la configuración de MinDiff, la cantidad de datos necesarios puede variar significativamente. En aplicaciones anteriores, hemos visto que MinDiff funciona bien con 5000 ejemplos en cada conjunto de entrenamiento MinDiff (conjuntos 2 y 3 en la sección anterior). Con menos datos, existe un mayor riesgo de rendimiento reducido, pero esto puede ser mínimo o aceptable dentro de los límites de sus limitaciones de producción. Después de aplicar MinDiff, deberá evaluar sus resultados a fondo para garantizar un rendimiento aceptable. Si no son fiables o no cumplen con las expectativas de rendimiento, es posible que desee considerar la posibilidad de recopilar más datos.

Cuando es MinDiff no adecuado para mí?

MinDiff es una técnica poderosa que puede proporcionar resultados impresionantes, pero esto no significa que sea el método adecuado para todas las situaciones. Aplicarlo al azar no garantiza que logres una solución adecuada.

Más allá de los requisitos discutidos anteriormente, hay casos en los que MinDiff puede ser técnicamente factible, pero no adecuado. Siempre debe diseñar su flujo de trabajo de AA de acuerdo con las prácticas recomendadas conocidas. Por ejemplo, si su tarea modelo está mal definida, el producto necesita poco claro o sus etiquetas de ejemplo están demasiado sesgadas, debe priorizar el tratamiento de estos problemas. De manera similar, si no tiene una definición clara del grupo sensible o no puede determinar de manera confiable si los ejemplos pertenecen al grupo sensible, no podrá aplicar MinDiff de manera efectiva.

En un nivel superior, siempre debe considerar si su producto es un uso apropiado para ML. Si es así, considere los posibles vectores de daño para el usuario que crea. La búsqueda de un LA responsable es un esfuerzo multifacético que tiene como objetivo anticipar una amplia gama de daños potenciales; MinDiff puede ayudar a mitigar algunos de estos, pero todos los resultados merecen una consideración cuidadosa.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Equidad en la clasificación de recomendaciones a través de comparaciones por pares.