Ajuda a proteger a Grande Barreira de Corais com TensorFlow em Kaggle Junte Desafio

Indicadores de justiça: pensando sobre a avaliação de justiça

Interessado em alavancar o Beta dos Indicadores de Equidade?

Antes de fazer isso, pedimos que você leia as seguintes orientações.

Fairness Indicators é uma ferramenta útil para avaliar binários e multi-classe classificadores de justiça. No futuro, esperamos expandir essa ferramenta, em parceria com todos vocês, para avaliar ainda mais considerações.

Lembre-se de que a avaliação quantitativa é apenas uma parte da avaliação de uma experiência mais ampla do usuário. Comece por pensar sobre os diferentes contextos através do qual um usuário pode encontrar seu produto. Quem são os diferentes tipos de usuários que seu produto deve atender? Quem mais pode ser afetado pela experiência?

Ao considerar o impacto da IA ​​nas pessoas, é importante sempre lembrar que as sociedades humanas são extremamente complexas! Compreender as pessoas e suas identidades sociais, estruturas sociais e sistemas culturais são, cada um, campos enormes de pesquisa aberta por direito próprio. Acrescente as complexidades das diferenças culturais ao redor do mundo e obter uma base sólida para entender o impacto social pode ser um desafio. Sempre que possível, recomendamos consultar os especialistas de domínio apropriados, que podem incluir cientistas sociais, sociolinguistas e antropólogos culturais, bem como membros das populações nas quais a tecnologia será implantada.

Um único modelo, por exemplo, o modelo de toxicidade que aproveitamos em nosso exemplo colab , pode ser usado em muitos contextos diferentes. Um modelo de toxicidade implantado em um site para filtrar comentários ofensivos, por exemplo, é um caso de uso muito diferente do modelo que está sendo implantado em uma IU da web de exemplo, onde os usuários podem digitar uma frase e ver a pontuação do modelo. Dependendo do caso de uso e de como os usuários experimentam a previsão do modelo, seu produto terá diferentes riscos, efeitos e oportunidades e você pode querer avaliar diferentes questões de justiça.

As perguntas acima são a base de quais considerações éticas, incluindo justiça, você pode levar em consideração ao projetar e desenvolver seu produto baseado em ML. Estas questões também motivar os quais métricas e quais grupos de usuários que você deve usar a ferramenta para avaliar.

Antes de mergulhar mais fundo, aqui estão três recursos que recomendamos para você começar:

  • O People + AI Guia para o projeto AI humana centrada: Este guia é um grande recurso para as questões e aspectos a ter em mente ao projetar um produto à base de aprendizagem de máquina. Embora tenhamos criado este guia com designers em mente, muitos dos princípios ajudarão a responder a perguntas como a que colocamos acima.
  • Nossos Fairness Lições aprendidas : Esta palestra no Google I / O discute lições que aprendemos em nosso objetivo de construir e projetar produtos inclusivos.
  • ML Bater Curso: Equidade : O Bater Curso ML tem uma seção de 70 minutos dedicado a identificar e avaliar as preocupações de equidade

Então, por que olhar para fatias individuais? A avaliação de fatias individuais é importante, pois fortes métricas gerais podem obscurecer o desempenho insatisfatório de certos grupos. Da mesma forma, um bom desempenho para uma determinada métrica (precisão, AUC) nem sempre se traduz em desempenho aceitável para outras métricas (taxa de falsos positivos, taxa de falsos negativos) que são igualmente importantes na avaliação de oportunidades e danos para os usuários.

As seções a seguir abordarão alguns dos aspectos a serem considerados.

Por quais grupos devo dividir?

Em geral, uma boa prática é dividir em tantos grupos quantos possam ser afetados por seu produto, uma vez que você nunca sabe quando o desempenho pode ser diferente para um dos outros. No entanto, se você não tiver certeza, pense nos diferentes usuários que podem estar interagindo com seu produto e como eles podem ser afetados. Considere, especialmente, fatias relacionadas a características sensíveis, como raça, etnia, gênero, nacionalidade, renda, orientação sexual e status de deficiência.

E se eu não tiver dados rotulados para as fatias que desejo investigar?

Boa pergunta. Sabemos que muitos conjuntos de dados não têm rótulos verdadeiros para atributos de identidade individuais.

Se você se encontra nesta posição, recomendamos algumas abordagens:

  1. Identificar se existem atributos que você tem que pode dar-lhe algumas dicas sobre o desempenho entre os grupos. Por exemplo, geografia, enquanto não é equivalente a etnia e raça, pode ajudá-lo a descobrir quaisquer padrões diferentes no desempenho
  2. Identifique se existem conjuntos de dados públicos representativos que podem ser bem mapeados para o seu problema. Você pode encontrar uma variedade de conjuntos de dados diversos e inclusivos no site do Google AI , que incluem Projeto Respeito , Imagens Inclusive , e Imagens aberto alongado , entre outros.
  3. Aproveite as regras ou classificadores, quando relevante, para rotular seus dados com atributos objetivos de nível de superfície. Por exemplo, você pode rotular texto para saber se há ou não um termo de identidade na sentença. Lembre-se de que os classificadores têm seus próprios desafios e, se você não tomar cuidado, podem introduzir outra camada de preconceito também. Seja claro sobre o que seu classificador é realmente classificar. Por exemplo, um classificador de idade em imagens é na verdade classificar idade aparente. Além disso, quando possível, atributos de nível de superfície alavancagem que pode ser objectivamente identificados nos dados. Por exemplo, não é aconselhável construir um classificador de imagem para raça ou etnia, porque esses não são traços visuais que podem ser definidos em uma imagem. Um classificador provavelmente pegaria proxies ou estereótipos. Em vez disso, construir um classificador para o tom de pele pode ser uma maneira mais apropriada de rotular e avaliar uma imagem. Por último, garanta alta precisão para classificadores que rotulam tais atributos.
  4. Encontre dados mais representativos rotulados

Sempre certifique-se de avaliar em vários conjuntos de dados diversos.

Se seus dados de avaliação não forem adequadamente representativos de sua base de usuários, ou dos tipos de dados que provavelmente serão encontrados, você pode acabar com métricas de imparcialidade enganosamente boas. Da mesma forma, o alto desempenho do modelo em um conjunto de dados não garante alto desempenho em outros.

Lembre-se de que os subgrupos nem sempre são a melhor maneira de classificar os indivíduos.

As pessoas são multidimensionais e pertencem a mais de um grupo, mesmo dentro de uma única dimensão - considere alguém que é multirracial ou pertence a vários grupos raciais. Além disso, embora as métricas gerais para um determinado grupo racial possam parecer equitativas, interações específicas, como raça e gênero juntos, podem mostrar preconceitos não intencionais. Além disso, muitos subgrupos têm limites difusos que são constantemente redesenhados.

Quando testei fatias suficientes e como sei quais fatias testar?

Reconhecemos que há um grande número de grupos ou cortes que podem ser relevantes para teste e, quando possível, recomendamos fatiar e avaliar uma ampla e diversa gama de cortes e, em seguida, mergulhar profundamente onde você encontra oportunidades de melhoria. Também é importante reconhecer que mesmo que você não pode ver as preocupações sobre fatias de ter testado, que não implica que o seu produto funciona para todos os usuários, e obter feedback do usuário diversificada e teste é importante para garantir que você está continuamente identificar novas oportunidades.

Para começar, recomendamos pensar em seu caso de uso específico e nas diferentes maneiras como os usuários podem interagir com seu produto. Como diferentes usuários podem ter experiências diferentes? O que isso significa para as fatias que você deve avaliar? Coletar feedback de diversos usuários também pode destacar fatias potenciais a serem priorizadas.

Quais métricas devo escolher?

Ao selecionar quais métricas avaliar para seu sistema, considere quem experimentará seu modelo, como isso será experimentado e os efeitos dessa experiência.

Por exemplo, como o seu modelo dá às pessoas mais dignidade ou autonomia, ou impacta positivamente em seu bem-estar emocional, físico ou financeiro? Em contraste, como as previsões do seu modelo podem reduzir a dignidade ou autonomia das pessoas, ou impactar negativamente seu bem-estar emocional, físico ou financeiro?

Em geral, recomendamos cortar todas as suas métricas de desempenho existentes como boa prática. Recomendamos também avaliar suas métricas em vários limiares, a fim de entender como o limiar pode afetar o desempenho de diferentes grupos.

Além disso, se houver um rótulo previsto que seja uniformemente "bom" ou "ruim", considere relatar (para cada subgrupo) a taxa em que esse rótulo é previsto. Por exemplo, um rótulo “bom” seria um rótulo cuja previsão concede a uma pessoa acesso a algum recurso ou permite que ela execute alguma ação.

Métricas críticas de justiça para classificação

Quando pensar em um modelo de classificação, pensar sobre os efeitos dos erros (as diferenças entre a etiqueta real “verdade terrestre” eo rótulo do modelo). Se alguns erros podem representar mais oportunidades ou danos aos seus usuários, certifique-se de avaliar as taxas desses erros entre os grupos de usuários. Essas taxas de erro são definidas abaixo, nas métricas atualmente suportadas pelo beta dos Indicadores de Equidade.

Ao longo do próximo ano, esperamos lançar estudos de caso de diferentes casos de uso e as métricas associadas a eles, para que possamos destacar melhor quando diferentes métricas podem ser mais apropriadas.

Métricas disponíveis hoje em Indicadores de justiça

Nota: Existem muitas métricas de justiça valiosas que não são atualmente suportadas na versão beta dos Indicadores de justiça. À medida que continuamos a adicionar mais métricas, continuaremos a adicionar orientações para essas métricas, aqui. Abaixo, você pode acessar as instruções para adicionar suas próprias métricas aos Indicadores de Equidade. Além disso, por favor, chegar a tfx@tensorflow.org se existem métricas que você gostaria de ver. Esperamos fazer parceria com você para desenvolver isso ainda mais.

Taxa positiva / taxa negativa

  • Definição: A porcentagem de pontos de dados que são classificados como positivos ou negativos, independente da verdade terrestre
  • Relaciona-se com: Paridade Demográfico e de igualdade de resultados, quando igual entre os subgrupos
  • Quando usar essa métrica: casos de uso Fairness onde ter iguais percentagens finais de grupos é importante

Taxa de verdadeiro positivo / taxa de falso negativo

  • Definição: A porcentagem de pontos de dados positivos (como rotulados na verdade terrestre) que são corretamente classificados como positivos, ou a percentagem de pontos de dados positivos que são classificadas incorretamente como negativo
  • Relaciona-se com: Igualdade de Oportunidades (para a classe positivo), quando igual entre os subgrupos
  • Quando usar este métricas: casos de uso Equidade em que é importante que o mesmo% de candidatos qualificados são classificados positiva em cada grupo. Isso é mais comumente recomendado em casos de classificação de resultados positivos, como pedidos de empréstimo, admissões em escolas ou se o conteúdo é adequado para crianças

Taxa verdadeira negativa / taxa falsa positiva

  • Definição: A porcentagem de pontos de dados negativos (como rotulados na verdade terrestre) que são corretamente classificados como negativa, ou a percentagem de pontos de dados negativos que são classificados incorretamente como positiva
  • Relaciona-se com: Igualdade de Oportunidades (para a classe negativo), quando igual entre os subgrupos
  • Quando usar este métricas: casos de uso Fairness onde as taxas de erro (ou misclassifying algo tão positivo) são mais a respeito do que classificar os pontos positivos. Isso é mais comum em casos de abuso, onde positivos muitas vezes levam a ações negativas. Eles também são importantes para tecnologias de análise facial, como detecção de rosto ou atributos de rosto

Precisão e AUC

  • Relaciona-se com: Paridade Predictive, quando igual entre os subgrupos
  • Ao usar estas métricas: Casos em que a precisão da tarefa é mais crítica (não necessariamente numa dada direcção), tais como a identificação de face ou agrupamento cara

Taxa de descoberta falsa

  • Definição: A porcentagem de pontos de dados negativos (como rotulados na verdade terrestre) que são classificadas incorretamente como fora positivo de todos os pontos de dados classificados como positivo. Este também é o inverso do PPV
  • Refere-se a: Paridade Preditiva (também conhecido como calibração), quando a igualdade entre os subgrupos
  • Quando usar este métricas: Casos em que a fração de previsões positivas corretos deve ser igual entre os subgrupos

Taxa de falsa omissão

  • Definição: A porcentagem de pontos de dados positivos (como rotulados na verdade terrestre) que são classificadas incorretamente como negativo fora de todos os pontos de dados classificados como negativos. Este também é o inverso do VPL
  • Refere-se a: Paridade Preditiva (também conhecido como calibração), quando a igualdade entre os subgrupos
  • Quando usar este métricas: Casos em que a fração de previsões negativas corretas deve ser igual entre os subgrupos

Exemplos de quais métricas selecionar

  • Deixar de detectar rostos sistematicamente em um aplicativo de câmera pode levar a uma experiência negativa do usuário para certos grupos de usuários. Nesse caso, falsos negativos em um sistema de detecção de rosto podem levar à falha do produto, enquanto um falso positivo (detectar um rosto quando não há um) pode representar um pequeno incômodo para o usuário. Portanto, avaliar e minimizar a taxa de falsos negativos é importante para este caso de uso.
  • Marcar injustamente os comentários de texto de certas pessoas como “spam” ou “alta toxicidade” em um sistema de moderação faz com que certas vozes sejam silenciadas. Por um lado, uma alta taxa de falsos positivos leva à censura injusta. Por outro lado, uma alta taxa de falsos negativos pode levar a uma proliferação de conteúdo tóxico de certos grupos, o que pode tanto prejudicar o usuário quanto constituir um dano representacional para esses grupos. Assim, ambas as métricas são importantes a serem consideradas, além das métricas que levam em consideração todos os tipos de erros, como precisão ou AUC.

Não encontra as métricas que procura?

Siga a documentação aqui para adicioná-lo própria métrica personalizada.

Notas finais

A lacuna na métrica entre dois grupos pode ser um sinal de que seu modelo pode ter skews injustas. Você deve interpretar seus resultados de acordo com seu caso de uso. No entanto, o primeiro sinal de que você pode ser o tratamento de um conjunto de usuários injustamente é quando as métricas entre esse conjunto de usuários e sua geral são significativamente diferentes. Certifique-se de levar em consideração os intervalos de confiança ao observar essas diferenças. Quando você tem poucas amostras em uma fatia específica, a diferença entre as métricas pode não ser precisa.

Alcançar a igualdade entre os grupos nos indicadores de justiça não significa que o modelo seja justo. Os sistemas são altamente complexos e alcançar a igualdade em uma (ou mesmo em todas) as métricas fornecidas não pode garantir a Equidade.

As avaliações de imparcialidade devem ser executadas durante todo o processo de desenvolvimento e pós-lançamento (não no dia anterior ao lançamento). Assim como aprimorar seu produto é um processo contínuo e sujeito a ajustes com base no feedback do usuário e do mercado, tornar seu produto justo e eqüitativo requer atenção contínua. À medida que diferentes aspectos do modelo mudam, como dados de treinamento, entradas de outros modelos ou o próprio design, as métricas de justiça provavelmente mudam. “Limpar a barra” uma vez não é suficiente para garantir que todos os componentes de interação permaneceram intactos ao longo do tempo.

O teste adversário deve ser executado para exemplos raros e maliciosos. As avaliações de imparcialidade não têm como objetivo substituir os testes adversários. Uma defesa adicional contra exemplos raros e direcionados é crucial, pois esses exemplos provavelmente não se manifestarão nos dados de treinamento ou avaliação.