Che cos'è la correzione del modello TensorFlow?

Se hai identificato problemi di equità con il tuo modello di machine learning, sono disponibili tre tipi principali di interventi tecnici:

  • Tecniche di pre-elaborazione dei dati di addestramento: raccolta di più dati, generazione di dati sintetici, regolazione dei pesi degli esempi e delle frequenze di campionamento di diverse sezioni.
  • Tecniche di modellazione del tempo di formazione: modificare il modello stesso introducendo o alterando gli obiettivi del modello e aggiungendo vincoli.
  • Tecniche di post-formazione: modifica degli output del modello o dell'interpretazione degli output per migliorare le prestazioni attraverso le metriche.
La libreria TensorFlow Model Remediation fornisce tecniche di formazione per intervenire sul modello.

Modellazione del tempo di formazione

La libreria TensorFlow Model Remediation fornisce due tecniche per affrontare i problemi di distorsione e equità nel modello, MinDiff e Counterfactual Logit Pairing (CLP) . Sono descritti nella tabella seguente.

MinDiff CLP
Quando dovresti usare questa tecnica?

Per garantire che un modello preveda ugualmente bene l'etichetta preferita per tutti i valori di un attributo sensibile.

Raggiungere le pari opportunità di gruppo.

Per garantire che la previsione di un modello non cambi tra "coppie controfattuali" (dove l'attributo sensibile a cui si fa riferimento in una caratteristica è diverso). Ad esempio, in un classificatore di tossicità , esempi come "Sono un uomo" e "Sono una lesbica" non dovrebbero avere una previsione diversa.

Per raggiungere una forma di equità controfattuale .

Come funziona? Penalizza il modello durante l'allenamento per differenze nella distribuzione dei punteggi tra i due set. Penalizza il modello durante l'addestramento per differenze di output tra coppie di esempi controfattuali.
Modalità di input Le funzioni di perdita operano sull'output, quindi sono, in teoria, indipendenti dall'input e dall'architettura del modello. Le funzioni di perdita operano sull'output, quindi sono, in teoria, indipendenti dall'input e dall'architettura del modello.