Indicadores de imparcialidade: pensando na avaliação de imparcialidade

Fairness Indicators é uma ferramenta útil para avaliar classificadores binários e multiclasses quanto à imparcialidade. Eventualmente, esperamos expandir esta ferramenta, em parceria com todos vocês, para avaliar ainda mais considerações.

Tenha em mente que a avaliação quantitativa é apenas uma parte da avaliação de uma experiência mais ampla do usuário. Comece pensando nos diferentes contextos através dos quais um usuário pode experimentar seu produto. Quem são os diferentes tipos de usuários que seu produto deve atender? Quem mais pode ser afetado pela experiência?

Ao considerar o impacto da IA ​​nas pessoas, é importante lembrar sempre que as sociedades humanas são extremamente complexas! Compreender as pessoas e as suas identidades sociais, estruturas sociais e sistemas culturais são, por si só, enormes campos de investigação aberta. Acrescente as complexidades das diferenças interculturais em todo o mundo e conseguir uma posição segura na compreensão do impacto social pode ser um desafio. Sempre que possível, recomenda-se que consulte especialistas do domínio apropriado, que podem incluir cientistas sociais, sociolinguistas e antropólogos culturais, bem como membros das populações nas quais a tecnologia será implementada.

Um único modelo, por exemplo, o modelo de toxicidade que utilizamos no exemplo colab , pode ser usado em muitos contextos diferentes. Um modelo de toxicidade implantado em um site para filtrar comentários ofensivos, por exemplo, é um caso de uso muito diferente do modelo implantado em um exemplo de UI da web, onde os usuários podem digitar uma frase e ver a pontuação que o modelo atribui. Dependendo do caso de uso e de como os usuários experimentam a previsão do modelo, seu produto terá diferentes riscos, efeitos e oportunidades e você pode querer avaliar diferentes questões de justiça.

As perguntas acima são a base de quais considerações éticas, incluindo justiça, você pode querer levar em consideração ao projetar e desenvolver seu produto baseado em ML. Essas questões também motivam quais métricas e quais grupos de usuários você deve usar a ferramenta para avaliar.

Antes de aprofundar, aqui estão três recursos recomendados para começar:

  • O Guia People + AI para design de IA centrado no ser humano: Este guia é um ótimo recurso para as questões e aspectos a serem considerados ao projetar um produto baseado em aprendizado de máquina. Embora tenhamos criado este guia pensando nos designers, muitos dos princípios ajudarão a responder perguntas como a colocada acima.
  • Nossas lições aprendidas de justiça : esta palestra no Google I/O discute lições que aprendemos em nosso objetivo de construir e projetar produtos inclusivos.
  • Curso intensivo de ML: justiça : O curso intensivo de ML tem uma seção de 70 minutos dedicada a identificar e avaliar questões de justiça

Então, por que olhar para fatias individuais? A avaliação de fatias individuais é importante, pois métricas gerais sólidas podem obscurecer o fraco desempenho de determinados grupos. Da mesma forma, um bom desempenho para uma determinada métrica (precisão, AUC) nem sempre se traduz em desempenho aceitável para outras métricas (taxa de falsos positivos, taxa de falsos negativos) que são igualmente importantes na avaliação de oportunidades e danos para os usuários.

As seções abaixo abordarão alguns dos aspectos a serem considerados.

Por quais grupos devo dividir?

Em geral, uma boa prática é dividir tantos grupos quantos forem afetados pelo seu produto, já que você nunca sabe quando o desempenho pode ser diferente para um do outro. No entanto, se não tiver certeza, pense nos diferentes usuários que podem estar interagindo com seu produto e como eles podem ser afetados. Considere, especialmente, fatias relacionadas com características sensíveis como raça, etnia, género, nacionalidade, rendimento, orientação sexual e estatuto de deficiência.

E se eu não tiver dados rotulados para as fatias que desejo investigar?

Boa pergunta. Sabemos que muitos conjuntos de dados não possuem rótulos verdadeiros para atributos de identidade individuais.

Se você se encontrar nesta posição, recomendamos algumas abordagens:

  1. Identifique se você possui atributos que possam fornecer algumas dicas sobre o desempenho entre os grupos. Por exemplo, a geografia , embora não seja equivalente a etnia e raça, pode ajudá-lo a descobrir quaisquer padrões díspares de desempenho
  2. Identifique se existem conjuntos de dados públicos representativos que possam mapear bem o seu problema. Você pode encontrar uma variedade de conjuntos de dados diversos e inclusivos no site do Google AI , que incluem Project Respect , Inclusive Images e Open Images Extended , entre outros.
  3. Aproveite regras ou classificadores, quando relevante, para rotular seus dados com atributos objetivos de nível superficial. Por exemplo, você pode rotular o texto informando se há ou não um termo de identidade na frase. Lembre-se de que os classificadores têm seus próprios desafios e, se você não tomar cuidado, também poderão introduzir outra camada de preconceito. Seja claro sobre o que seu classificador está realmente classificando. Por exemplo, um classificador de idade em imagens está, na verdade, classificando a idade percebida . Além disso, quando possível, aproveite atributos de nível superficial que possam ser identificados objetivamente nos dados. Por exemplo, não é aconselhável construir um classificador de imagens para raça ou etnia, porque estes não são traços visuais que podem ser definidos numa imagem. Um classificador provavelmente pegaria proxies ou estereótipos. Em vez disso, construir um classificador para tom de pele pode ser uma forma mais apropriada de rotular e avaliar uma imagem. Por último, garanta alta precisão para classificadores que rotulam tais atributos.
  4. Encontre dados mais representativos rotulados

Sempre certifique-se de avaliar conjuntos de dados múltiplos e diversos.

Se os seus dados de avaliação não forem adequadamente representativos da sua base de usuários ou dos tipos de dados que provavelmente serão encontrados, você poderá acabar com métricas de justiça enganosamente boas. Da mesma forma, o alto desempenho do modelo em um conjunto de dados não garante alto desempenho em outros.

Tenha em mente que os subgrupos nem sempre são a melhor maneira de classificar os indivíduos.

As pessoas são multidimensionais e pertencem a mais de um grupo, mesmo dentro de uma única dimensão – considere alguém que é multirracial ou pertence a vários grupos raciais. Além disso, embora as métricas globais para um determinado grupo racial possam parecer equitativas, interações específicas, como raça e género em conjunto, podem mostrar preconceitos não intencionais. Além disso, muitos subgrupos têm limites confusos que são constantemente redesenhados.

Quando testei fatias suficientes e como posso saber quais fatias testar?

Reconhecemos que há um grande número de grupos ou fatias que podem ser relevantes para testar e, quando possível, recomendamos fatiar e avaliar uma ampla e diversificada gama de fatias e, em seguida, aprofundar-se onde identificar oportunidades de melhoria. Também é importante reconhecer que, mesmo que você não veja preocupações nas fatias testadas, isso não significa que seu produto funcione para todos os usuários, e obter feedback e testes diversos dos usuários é importante para garantir que você esteja identificando continuamente novos oportunidades.

Para começar, recomendamos pensar em seu caso de uso específico e nas diferentes maneiras pelas quais os usuários podem interagir com seu produto. Como diferentes usuários podem ter experiências diferentes? O que isso significa para as fatias que você deve avaliar? A coleta de feedback de diversos usuários também pode destacar possíveis fatias a serem priorizadas.

Quais métricas devo escolher?

Ao selecionar quais métricas avaliar para o seu sistema, considere quem experimentará o seu modelo, como ele será experimentado e os efeitos dessa experiência.

Por exemplo, como é que o seu modelo dá às pessoas mais dignidade ou autonomia, ou impacta positivamente o seu bem-estar emocional, físico ou financeiro? Em contraste, como poderiam as previsões do seu modelo reduzir a dignidade ou autonomia das pessoas, ou impactar negativamente o seu bem-estar emocional, físico ou financeiro?

Em geral, recomendamos dividir todas as métricas de desempenho existentes como uma boa prática. Também recomendamos avaliar suas métricas em vários limites para entender como o limite pode afetar o desempenho de diferentes grupos.

Além disso, se houver um rótulo previsto que seja uniformemente “bom” ou “ruim”, considere relatar (para cada subgrupo) a taxa na qual esse rótulo é previsto. Por exemplo, um rótulo “bom” seria um rótulo cuja previsão concede a uma pessoa acesso a algum recurso ou permite-lhe realizar alguma ação.

Métricas críticas de justiça para classificação

Ao pensar em um modelo de classificação, pense nos efeitos dos erros (as diferenças entre o rótulo de “verdade fundamental” real e o rótulo do modelo). Se alguns erros puderem representar mais oportunidades ou danos aos seus usuários, avalie as taxas desses erros entre grupos de usuários. Essas taxas de erro são definidas abaixo, nas métricas atualmente suportadas pela versão beta dos Indicadores de Equidade.

Ao longo do próximo ano, esperamos lançar estudos de caso de diferentes casos de uso e as métricas associadas a eles, para que possamos destacar melhor quando diferentes métricas podem ser mais apropriadas.

Métricas disponíveis hoje em Indicadores de Justiça

Taxa Positiva / Taxa Negativa

  • Definição: a porcentagem de pontos de dados classificados como positivos ou negativos, independentemente da verdade básica
  • Relaciona-se com: Paridade Demográfica e Igualdade de Resultados, quando iguais entre subgrupos
  • Quando usar esta métrica: Casos de uso de imparcialidade em que é importante ter porcentagens finais iguais de grupos

Taxa de verdadeiro positivo / taxa de falso negativo

  • Definição: A porcentagem de pontos de dados positivos (conforme rotulados na verdade fundamental) que são corretamente classificados como positivos ou a porcentagem de pontos de dados positivos que são classificados incorretamente como negativos
  • Relaciona-se a: Igualdade de oportunidades (para a classe positiva), quando igual entre subgrupos
  • Quando usar esta métrica: Casos de uso de imparcialidade em que é importante que a mesma porcentagem de candidatos qualificados seja avaliada como positiva em cada grupo. Isso é mais comumente recomendado em casos de classificação de resultados positivos, como solicitações de empréstimo, admissões escolares ou se o conteúdo é adequado para crianças.

Taxa de verdadeiro negativo / taxa de falso positivo

  • Definição: A porcentagem de pontos de dados negativos (conforme rotulados na verdade básica) que são corretamente classificados como negativos ou a porcentagem de pontos de dados negativos que são classificados incorretamente como positivos
  • Relaciona-se a: Igualdade de oportunidades (para a classe negativa), quando igual entre subgrupos
  • Quando usar esta métrica: Casos de uso de justiça em que as taxas de erro (ou a classificação incorreta de algo como positivo) são mais preocupantes do que a classificação dos positivos. Isto é mais comum em casos de abuso, onde os aspectos positivos muitas vezes levam a ações negativas. Eles também são importantes para tecnologias de análise facial, como detecção facial ou atributos faciais.

Precisão e AUC

  • Relaciona-se a: Paridade Preditiva, quando igual entre subgrupos
  • Quando usar essas métricas: Casos em que a precisão da tarefa é mais crítica (não necessariamente em uma determinada direção), como identificação facial ou agrupamento de faces

Taxa de descoberta falsa

  • Definição: A porcentagem de pontos de dados negativos (conforme rotulados na verdade básica) que são classificados incorretamente como positivos entre todos os pontos de dados classificados como positivos. Este também é o inverso do PPV
  • Relaciona-se a: Paridade Preditiva (também conhecida como Calibração), quando igual entre subgrupos
  • Quando usar esta métrica: Casos em que a fração de previsões positivas corretas deve ser igual entre os subgrupos

Taxa de falsa omissão

  • Definição: A porcentagem de pontos de dados positivos (conforme rotulados na verdade básica) que são classificados incorretamente como negativos entre todos os pontos de dados classificados como negativos. Este também é o inverso do VPL
  • Relaciona-se a: Paridade Preditiva (também conhecida como Calibração), quando igual entre subgrupos
  • Quando usar esta métrica: Casos em que a fração de previsões negativas corretas deve ser igual entre os subgrupos

Taxa de inversão geral / Taxa de inversão de previsão positiva para negativa / Taxa de inversão de previsão negativa para positiva

  • Definição: A probabilidade de o classificador fornecer uma previsão diferente se o atributo de identidade em um determinado recurso for alterado.
  • Relacionado a: Justiça contrafactual
  • Quando usar esta métrica: Ao determinar se a previsão do modelo muda quando os atributos confidenciais referenciados no exemplo são removidos ou substituídos. Em caso afirmativo, considere usar a técnica Counterfactual Logit Pairing na biblioteca Tensorflow Model Remediation.

Contagem de inversões / Contagem de inversões de previsão positiva para negativa / Contagem de inversões de previsão negativa para positiva *

  • Definição: O número de vezes que o classificador fornece uma previsão diferente se o termo de identidade em um determinado exemplo for alterado.
  • Relacionado a: Justiça contrafactual
  • Quando usar esta métrica: Ao determinar se a previsão do modelo muda quando os atributos confidenciais referenciados no exemplo são removidos ou substituídos. Em caso afirmativo, considere usar a técnica Counterfactual Logit Pairing na biblioteca Tensorflow Model Remediation.

Exemplos de quais métricas selecionar

  • A falha sistemática na detecção de rostos em um aplicativo de câmera pode levar a uma experiência de usuário negativa para determinados grupos de usuários. Neste caso, falsos negativos num sistema de detecção facial podem levar à falha do produto, enquanto um falso positivo (detectar um rosto quando não existe) pode representar um ligeiro aborrecimento para o utilizador. Portanto, avaliar e minimizar a taxa de falsos negativos é importante para este caso de uso.
  • Marcar injustamente comentários de texto de certas pessoas como “spam” ou “alta toxicidade” em um sistema de moderação leva ao silenciamento de certas vozes. Por um lado, uma elevada taxa de falsos positivos leva à censura injusta. Por outro lado, uma elevada taxa de falsos negativos pode levar à proliferação de conteúdos tóxicos de determinados grupos, o que pode prejudicar o utilizador e constituir um dano representacional para esses grupos. Assim, é importante considerar ambas as métricas, além das métricas que levam em consideração todos os tipos de erros, como precisão ou AUC.

Não encontra as métricas que procura?

Siga a documentação aqui para adicionar sua própria métrica personalizada.

Notas finais

Uma lacuna na métrica entre dois grupos pode ser um sinal de que o seu modelo pode ter distorções injustas . Você deve interpretar seus resultados de acordo com seu caso de uso. No entanto, o primeiro sinal de que você pode estar tratando injustamente um conjunto de usuários é quando as métricas entre esse conjunto de usuários e o seu geral são significativamente diferentes. Certifique-se de levar em consideração os intervalos de confiança ao observar essas diferenças. Quando você tem poucas amostras em uma fatia específica, a diferença entre as métricas pode não ser precisa.

Alcançar a igualdade entre grupos nos Indicadores de Justiça não significa que o modelo seja justo. Os sistemas são altamente complexos e alcançar a igualdade em uma (ou mesmo em todas) as métricas fornecidas não pode garantir a Justiça.

As avaliações de imparcialidade devem ser realizadas durante todo o processo de desenvolvimento e pós-lançamento (não um dia antes do lançamento). Assim como melhorar o seu produto é um processo contínuo e sujeito a ajustes com base no feedback do usuário e do mercado, tornar o seu produto justo e equitativo requer atenção contínua. À medida que diferentes aspectos do modelo mudam, como dados de treinamento, entradas de outros modelos ou o próprio design, as métricas de justiça provavelmente mudarão. “Limpar a barra” uma vez não é suficiente para garantir que todos os componentes de interação permaneçam intactos ao longo do tempo.

Testes adversários devem ser realizados para exemplos raros e maliciosos. As avaliações de imparcialidade não pretendem substituir os testes adversários. A defesa adicional contra exemplos raros e específicos é crucial, uma vez que estes exemplos provavelmente não se manifestarão em dados de formação ou avaliação.