Partecipa al simposio Women in ML il 7 dicembre Registrati ora

Requisiti MinDiff

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Quando dovrei usare MinDiff?

Applica MinDiff nei casi in cui il tuo modello funziona bene in generale, ma produce errori dannosi più frequentemente su esempi appartenenti a un gruppo sensibile e desideri colmare il divario di prestazioni. I gruppi di interesse sensibili possono variare a seconda del tuo caso d'uso, ma spesso includono classi protette, come razza, religione, genere, orientamento sessuale e altro. In questo documento useremo "gruppo sensibile" per fare riferimento a qualsiasi insieme di esempi appartenenti a una classe protetta.

Esistono due condizioni principali per l'utilizzo di MinDiff per affrontare le sezioni di dati con prestazioni insufficienti:

  • Hai già ottimizzato e valutato il tuo modello, identificando le metriche che mostrano sezioni di dati con prestazioni inferiori. Questo deve essere fatto prima di applicare la riparazione del modello.
  • Hai, o puoi ottenere, un numero sufficiente di esempi etichettati pertinenti appartenenti al gruppo con prestazioni inferiori (maggiori dettagli di seguito).

MinDiff è una delle tante tecniche per rimediare al comportamento ineguale. In particolare, potrebbe essere una buona scelta quando stai cercando di equalizzare direttamente le prestazioni tra i gruppi. MinDiff può essere utilizzato insieme ad altri approcci, come l'aumento dei dati e altri, che possono portare a risultati migliori. Tuttavia, se devi dare la priorità alla tecnica in cui investire, dovresti farlo in base alle esigenze del tuo prodotto.

Quando si applica MinDiff, è possibile che le prestazioni diminuiscano o si spostino leggermente per i gruppi con le migliori prestazioni, poiché i gruppi con prestazioni inferiori migliorano. Questo compromesso è previsto e dovrebbe essere valutato nel contesto dei requisiti del tuo prodotto. In pratica, abbiamo spesso visto che MinDiff non fa scendere le sezioni con le migliori prestazioni al di sotto dei livelli accettabili, ma questo è specifico dell'applicazione e una decisione che deve essere presa dal proprietario del prodotto.

Su quali tipi di modello posso applicare MinDiff?

MinDiff ha dimostrato di essere costantemente efficace se applicato a classificatori binari. È possibile adattare il metodo per altre applicazioni, ma non è stato completamente testato. È stato svolto del lavoro per dimostrare il successo nelle attività di classificazione multipla e classificazione 1 , ma qualsiasi utilizzo di MinDiff su questi o altri tipi di modelli dovrebbe essere considerato sperimentale.

Su quali metriche posso applicare MinDiff?

MinDiff può essere una buona soluzione quando la metrica che stai cercando di equalizzare tra i gruppi è il tasso di falsi positivi (FPR) o il tasso di falsi negativi (FNR) , ma potrebbe funzionare per altre metriche. Come regola generale, MinDiff può funzionare quando la metrica di destinazione è il risultato di differenze nelle distribuzioni dei punteggi tra esempi appartenenti a un gruppo sensibile ed esempi non appartenenti a un gruppo sensibile.

Costruire il tuo set di dati MinDiff

Quando ti prepari ad allenarti con MinDiff, dovrai preparare tre set di dati separati. Come per l'addestramento regolare, i tuoi set di dati MinDiff dovrebbero essere rappresentativi degli utenti serviti dal tuo modello. MinDiff potrebbe funzionare senza questo, ma dovresti usare la massima cautela in questi casi.

Supponendo che tu stia cercando di migliorare l'FPR del tuo modello per esempi appartenenti a una classe sensibile, avrai bisogno di:

  1. Il set di addestramento originale: il set di dati originale utilizzato per il training del modello di base
  2. Il set sensibile MinDiff - Un set di dati di esempi appartenenti alla classe sensibile con solo etichette di verità di base negative. Questi esempi verranno utilizzati solo per calcolare la perdita MinDiff.
  3. Il set non sensibile MinDiff - Un set di dati di esempi non appartenenti alla classe sensibile con solo etichette di verità di base negative. Questi esempi verranno utilizzati solo per calcolare la perdita MinDiff.

Quando utilizzi la libreria, combinerai tutti e tre questi set di dati in un unico set di dati, che fungerà da nuovo set di addestramento.

Esempi di selezione per MinDiff

Può essere sembrato controintuitivo nell'esempio sopra ritagliarsi serie di esempi etichettati negativamente se si è principalmente interessati alle disparità nel tasso di falsi positivi . Tuttavia, ricorda che una previsione falsa positiva deriva da un esempio etichettato negativamente classificato erroneamente come positivo.

Quando raccogli i tuoi dati per MinDiff, dovresti scegliere esempi in cui la disparità nelle prestazioni è evidente. Nel nostro esempio sopra, questo significava scegliere esempi etichettati negativamente per affrontare FPR. Se fossimo stati interessati a prendere di mira FNR, avremmo dovuto scegliere esempi etichettati positivamente.

Di quanti dati ho bisogno?

Bella domanda: dipende dal tuo caso d'uso! In base all'architettura del modello, alla distribuzione dei dati e alla configurazione di MinDiff, la quantità di dati necessaria può variare in modo significativo. Nelle applicazioni precedenti, abbiamo visto MinDiff funzionare bene con 5.000 esempi in ogni set di training MinDiff (set 2 e 3 nella sezione precedente). Con meno dati, aumenta il rischio di prestazioni ridotte, ma questo può essere minimo o accettabile entro i limiti dei tuoi vincoli di produzione. Dopo aver applicato MinDiff, dovrai valutare accuratamente i tuoi risultati per garantire prestazioni accettabili. Se non sono affidabili o non soddisfano le aspettative sulle prestazioni, potresti comunque prendere in considerazione la possibilità di raccogliere più dati.

Quando MinDiff non va bene per me?

MinDiff è una tecnica potente in grado di fornire risultati impressionanti, ma ciò non significa che sia il metodo giusto per tutte le situazioni. Applicarlo a casaccio non garantisce di ottenere una soluzione adeguata.

Oltre ai requisiti discussi sopra, ci sono casi in cui MinDiff può essere tecnicamente fattibile, ma non adatto. Dovresti sempre progettare il tuo flusso di lavoro ML secondo le pratiche consigliate conosciute. Ad esempio, se l'attività del modello è mal definita, il prodotto non ha bisogno di chiarezza o le etichette di esempio sono eccessivamente distorte, dovresti dare la priorità alla risoluzione di questi problemi. Allo stesso modo, se non si dispone di una definizione chiara del gruppo sensibile o non si è in grado di determinare in modo affidabile se gli esempi appartengono al gruppo sensibile, non sarà possibile applicare MinDiff in modo efficace.

A un livello superiore, dovresti sempre considerare se il tuo prodotto è un uso appropriato per ML. Se lo è, considera i potenziali vettori di danni agli utenti che crea. La ricerca di un riciclaggio responsabile è uno sforzo multiforme che mira ad anticipare un'ampia gamma di potenziali danni; MinDiff può aiutare a mitigare alcuni di questi, ma tutti i risultati meritano un'attenta considerazione.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Equità nella classifica delle raccomandazioni attraverso confronti a coppie.