Emparelhamento logit contrafactual para correção de modelo

O emparelhamento logit contrafactual (CLP) é uma técnica da biblioteca de remediação de modelo do TensorFlow que busca garantir que a previsão de um modelo não mude quando um atributo confidencial referenciado em um exemplo é removido ou substituído. Por exemplo, em um classificador de toxicidade, exemplos como “Eu sou um homem” e “Eu sou uma lésbica” não deveriam ter uma previsão de toxicidade diferente.

Para uma discussão aprofundada sobre este tópico, consulte a pesquisa sobre justiça contrafactual , emparelhamento logit adversário e emparelhamento logit contrafactual .

Quando você deve usar o emparelhamento logit contrafactual?

O CLP aborda o cenário em que uma alteração em um atributo sensível referenciado em um recurso altera a previsão (quando a previsão não deveria ter mudado). Ao fazê-lo, tenta responder à questão: será este modelo susceptível de alterar a sua previsão com base apenas na presença de um atributo de identidade? Consulte o artigo de pesquisa para obter detalhes sobre justiça contrafactual.

Esse problema foi observado na API Perspective , uma ferramenta de ML usada por desenvolvedores e editores para analisar o conteúdo dos comentários em busca de texto potencialmente ofensivo ou tóxico . A API Perspective recebe o texto do comentário como entrada e retorna uma pontuação de 0 a 1 como uma indicação da probabilidade de o comentário ser tóxico. Por exemplo, um comentário como “Você é um idiota” pode receber uma pontuação de probabilidade de 0,8 para toxicidade, indicando a probabilidade de um leitor considerar esse comentário como tóxico.

Após o lançamento inicial da API Perspective, os usuários externos descobriram uma correlação positiva entre os termos de identidade contendo informações sobre raça ou orientação sexual e a pontuação de toxicidade prevista. Por exemplo, a frase “Eu sou lésbica” recebeu pontuação de 0,51, enquanto “Eu sou homem” recebeu pontuação inferior de 0,2. Neste caso, os termos de identidade não estavam sendo usados ​​de forma pejorativa, portanto não deveria haver uma diferença tão significativa na pontuação. Para obter mais informações sobre a API Perspective, consulte a postagem do blog sobre preconceito não intencional e termos de identidade .

Como posso medir o efeito do emparelhamento logit contrafactual?

Se avaliou o seu modelo de aprendizagem automática e determinou que alterações nas previsões devido a alterações em atributos sensíveis específicos seriam prejudiciais, então deverá medir a prevalência deste problema. No caso de um classificador binário ou multiclasse, um flip é definido como um classificador que dá uma decisão diferente (como alterar uma previsão de tóxica para não tóxica) quando o atributo sensível referenciado no exemplo muda. Ao avaliar a prevalência de inversões , você pode observar a contagem e a taxa de inversões . Levando em consideração o possível dano ao usuário causado por uma inversão e a frequência com que as inversões ocorrem, você pode determinar se esse é um problema que deve ser resolvido aplicando o CLP. Para obter mais informações sobre essas métricas, consulte o guia Indicadores de Justiça .

Em quais tipos de modelo posso aplicar o emparelhamento logit contrafactual?

Esta técnica pode ser usada com classificadores binários e multiclasses de diferentes tipos de dados, como texto, imagens e vídeos.

Quando o emparelhamento logit contrafactual não é adequado para mim?

O CLP não é o método certo para todas as situações. Por exemplo, não é relevante se a presença ou ausência de um termo de identidade altera legitimamente a previsão do classificador. Este pode ser o caso se o classificador pretender determinar se o recurso está fazendo referência a um grupo de identidade específico. Este método também terá menos impacto se a correlação não intencional entre o resultado do classificador e o grupo de identidades não tiver repercussões negativas para o usuário.

O CLP é útil para testar se um modelo de linguagem ou classificador de toxicidade está alterando seu resultado de forma injusta (por exemplo, classificando um trecho de texto como tóxico) simplesmente porque termos como “negro”, “gay”, “muçulmano” estão presentes no texto. O CRE não se destina a fazer previsões sobre indivíduos, por exemplo, através da manipulação da identidade de um indivíduo. Veja este artigo para uma discussão mais detalhada.

É importante ter em mente que o CLP é uma técnica do Kit de ferramentas de IA responsável que foi projetada especificamente para abordar a situação em que atributos confidenciais referenciados em recursos alteram a previsão. Dependendo do seu modelo e caso de uso, também pode ser importante considerar se existem lacunas de desempenho para grupos historicamente marginalizados, especialmente porque o CLP pode afetar o desempenho do grupo. Isso pode ser avaliado com Indicadores de Justiça e abordado pelo MinDiff , que também está na Biblioteca de Remediação de Modelos do TensorFlow.

Você também deve considerar se o seu produto é um uso apropriado para aprendizado de máquina. Se for, seu fluxo de trabalho de aprendizado de máquina deve ser projetado de acordo com práticas recomendadas conhecidas, como ter uma tarefa de modelo bem definida e necessidades claras do produto.

Como funciona o emparelhamento logit contrafactual?

O CLP adiciona uma perda ao modelo original que é fornecida pelo emparelhamento logit de um exemplo original e contrafactual de um conjunto de dados. Ao calcular a diferença entre os dois valores, você penaliza as diferenças dos termos sensíveis que estão causando a alteração da previsão do seu classificador. Este trabalho foi baseado em pesquisas sobre emparelhamento logit adversário e emparelhamento logit contrafactual .