공정성 지표: 공정성 평가에 대한 생각

공정성 지표는 공정성을 위해 이진다중 클래스 분류기를 평가하는 데 유용한 도구입니다. 결국 우리는 여러분 모두와 협력하여 이 도구를 확장하여 더 많은 고려 사항을 평가할 수 있기를 바랍니다.

정량적 평가는 더 광범위한 사용자 경험을 평가하는 일부일 뿐이라는 점을 명심하세요. 사용자가 제품을 경험할 수 있는 다양한 상황 에 대해 생각하는 것부터 시작하세요. 귀하의 제품이 제공할 것으로 예상되는 다양한 유형의 사용자는 누구입니까? 그 경험으로 인해 또 누가 영향을 받을 수 있나요?

AI가 사람들에게 미치는 영향을 고려할 때, 인간 사회는 극도로 복잡하다는 점을 항상 기억하는 것이 중요합니다! 사람과 그들의 사회적 정체성, 사회 구조 및 문화 시스템을 이해하는 것은 그 자체로 거대한 공개 연구 분야입니다. 전 세계의 문화 간 차이로 인한 복잡성을 고려하면 사회적 영향을 이해하기 위한 발판을 마련하는 것조차 어려울 수 있습니다. 가능할 때마다 사회과학자, 사회언어학자, 문화 인류학자를 포함할 수 있는 적절한 분야 전문가는 물론 기술이 배포될 인구 집단의 구성원과 상담하는 것이 좋습니다.

예를 들어 colab 예제 에서 활용하는 독성 모델과 같은 단일 모델은 다양한 상황에서 사용될 수 있습니다. 예를 들어 공격적인 댓글을 필터링하기 위해 웹사이트에 배포된 독성 모델은 사용자가 문장을 입력하고 모델이 제공하는 점수를 확인할 수 있는 예제 웹 UI에 배포되는 모델과 매우 다른 사용 사례입니다. 사용 사례와 사용자가 모델 예측을 경험하는 방식에 따라 제품에는 다양한 위험, 효과 및 기회가 있으며 다양한 공정성 문제를 평가할 수 있습니다.

위의 질문은 ML 기반 제품을 설계하고 개발할 때 공정성을 포함하여 고려해야 할 윤리적 고려 사항의 기초입니다. 이러한 질문은 또한 도구를 사용하여 평가해야 하는 측정항목과 사용자 그룹에 대한 동기를 부여합니다.

더 자세히 알아보기 전에 시작하기 위한 세 가지 권장 리소스는 다음과 같습니다.

  • 인간 중심 AI 디자인을 위한 People + AI 가이드북 : 이 가이드북은 머신러닝 기반 제품을 디자인할 때 염두에 두어야 할 질문과 측면을 정리한 훌륭한 리소스입니다. 우리는 디자이너를 염두에 두고 이 가이드북을 만들었지만, 많은 원칙이 위에 제시된 것과 같은 질문에 답하는 데 도움이 될 것입니다.
  • 우리가 배운 공정성 교훈 : Google I/O의 이 강연에서는 포용적인 제품을 구축하고 설계하려는 우리의 목표에서 배운 교훈을 논의합니다.
  • ML 단기집중과정: 공정성 : ML 단기집중과정에는 공정성 문제를 식별하고 평가하는 데 전념하는 70분 섹션이 있습니다.

그렇다면 개별 조각을 살펴보는 이유는 무엇입니까? 강력한 전체 측정항목이 특정 그룹의 낮은 성능을 가릴 수 있으므로 개별 조각에 대한 평가가 중요합니다. 마찬가지로, 특정 측정항목(정확도, AUC)에 대해 좋은 성과를 내는 것이 사용자에 대한 기회와 피해를 평가하는 데 똑같이 중요한 다른 측정항목(오탐률, 거짓음성률)에 대해 허용 가능한 성능으로 항상 해석되는 것은 아닙니다.

아래 섹션에서는 고려해야 할 몇 가지 측면을 살펴보겠습니다.

어떤 그룹으로 나누어야 합니까?

일반적으로 제품의 영향을 받을 수 있는 그룹을 최대한 많이 분할하는 것이 좋습니다. 왜냐하면 어느 그룹의 성능이 언제 달라질지 알 수 없기 때문입니다. 그러나 확실하지 않은 경우 제품에 참여할 수 있는 다양한 사용자와 이들이 어떤 영향을 받을 수 있는지 생각해 보세요. 특히 인종, 민족, 성별, 국적, 소득, 성적 지향, 장애 상태 등 민감한 특성과 관련된 조각을 고려하세요.

조사하려는 조각에 대해 레이블이 지정된 데이터가 없으면 어떻게 됩니까?

좋은 질문. 우리는 많은 데이터세트에 개별 ID 속성에 대한 실측 라벨이 없다는 것을 알고 있습니다.

이러한 상황에 처한 경우 다음과 같은 몇 가지 접근 방식을 권장합니다.

  1. 그룹 전체의 성과에 대한 통찰력을 제공할 수 있는 속성이 있는지 확인하십시오. 예를 들어, 지역은 민족 및 인종과 동일하지 않지만 실적에서 서로 다른 패턴을 발견하는 데 도움이 될 수 있습니다.
  2. 문제에 잘 매핑될 수 있는 대표적인 공개 데이터세트가 있는지 확인하세요. Google AI 사이트 에서 Project Respect , Inclusive Images , Open Images Extended 등 다양하고 포괄적인 데이터 세트를 찾을 수 있습니다.
  3. 관련된 경우 규칙이나 분류자를 활용하여 객관적인 표면 수준 속성으로 데이터에 레이블을 지정합니다. 예를 들어, 문장 식별 용어가 있는지 여부에 대해 텍스트에 레이블을 지정할 수 있습니다. 분류자에는 고유한 문제가 있으며, 주의하지 않으면 또 다른 편향 계층이 발생할 수도 있다는 점을 명심하세요. 분류자가 실제로 무엇을 분류하는지 명확하게 설명하세요. 예를 들어, 이미지의 연령 분류자는 실제로 인식된 연령을 분류합니다. 또한 가능하면 데이터에서 객관적으로 식별 할 수 있는 표면 수준 속성을 활용하세요. 예를 들어, 인종이나 민족에 대한 이미지 분류자를 구축하는 것은 좋지 않습니다. 왜냐하면 인종이나 민족은 이미지에서 정의할 수 있는 시각적 특성이 아니기 때문입니다. 분류자는 프록시나 고정관념을 포착할 가능성이 높습니다. 대신, 피부색에 대한 분류기를 구축하는 것이 이미지에 레이블을 지정하고 평가하는 더 적절한 방법일 수 있습니다. 마지막으로, 그러한 속성에 라벨을 붙인 분류자의 높은 정확성을 보장하세요.
  4. 라벨이 붙은 더 많은 대표 데이터 찾기

항상 여러 개의 다양한 데이터 세트를 평가해야 합니다.

평가 데이터가 사용자 기반이나 접할 수 있는 데이터 유형을 적절하게 나타내지 못하는 경우 믿을 수 없을 만큼 우수한 공정성 지표를 얻게 될 수 있습니다. 마찬가지로, 한 데이터세트의 높은 모델 성능이 다른 데이터세트에서도 높은 성능을 보장하지 않습니다.

하위 그룹이 개인을 분류하는 가장 좋은 방법은 아니라는 점을 명심하세요.

사람들은 다차원적이며 단일 차원 내에서도 두 개 이상의 그룹에 속합니다. 다인종이거나 여러 인종 그룹에 속한 사람을 생각해 보세요. 또한 특정 인종 그룹에 대한 전반적인 지표는 공평해 보일 수 있지만 인종 및 성별과 같은 특정 상호 작용은 의도하지 않은 편견을 나타낼 수 있습니다. 더욱이 많은 하위 그룹에는 지속적으로 다시 그려지는 모호한 경계가 있습니다.

언제 충분한 조각을 테스트했으며 어떤 조각을 테스트할지 어떻게 알 수 있나요?

우리는 테스트와 관련될 수 있는 수많은 그룹 또는 슬라이스가 있다는 것을 알고 있으며, 가능하다면 다양하고 광범위한 슬라이스를 슬라이싱 및 평가한 다음 개선 기회를 발견하는 심층 분석을 권장합니다. 테스트한 슬라이스에 대한 우려 사항이 보이지 않더라도 제품이 모든 사용자에게 적합하다는 의미는 아니며 다양한 사용자 피드백을 받고 테스트하여 지속적으로 새로운 것을 식별하는 것이 중요하다는 점을 인정하는 것도 중요합니다. 기회.

시작하려면 특정 사용 사례와 사용자가 제품에 참여할 수 있는 다양한 방식을 고려하는 것이 좋습니다. 사용자마다 경험이 어떻게 다를 수 있나요? 평가해야 하는 조각에 대한 의미는 무엇입니까? 다양한 사용자로부터 피드백을 수집하면 우선순위를 정할 잠재적인 부분을 강조할 수도 있습니다.

어떤 지표를 선택해야 합니까?

시스템에 대해 평가할 측정항목을 선택할 때 모델을 경험할 사람, 경험 방법 및 해당 경험의 효과를 고려하세요.

예를 들어, 귀하의 모델은 어떻게 사람들에게 더 많은 존엄성과 자율성을 부여하거나 감정적, 신체적 또는 재정적 웰빙에 긍정적인 영향을 미치나요? 이와 대조적으로, 모델의 예측은 어떻게 사람들의 존엄성이나 자율성을 감소시키거나 감정적, 신체적 또는 재정적 안녕에 부정적인 영향을 미칠 수 있습니까?

일반적으로 모범 사례로 기존 성능 지표를 모두 분할하는 것이 좋습니다. 또한 임계값이 다양한 그룹의 성능에 어떤 영향을 미칠 수 있는지 이해하려면 여러 임계값 에 걸쳐 측정항목을 평가하는 것이 좋습니다 .

또한 균일하게 "좋음" 또는 "나쁨"인 예측 레이블이 있는 경우 각 하위 그룹에 대해 해당 레이블이 예측되는 비율을 보고하는 것이 좋습니다. 예를 들어, '좋은' 라벨은 예측을 통해 사람에게 일부 리소스에 대한 액세스 권한을 부여하거나 특정 작업을 수행할 수 있게 해주는 라벨입니다.

분류를 위한 중요한 공정성 측정항목

분류 모델에 대해 생각할 때 오류 의 영향(실제 "실측" 레이블과 모델의 레이블 간의 차이)에 대해 생각해 보십시오. 일부 오류가 사용자에게 더 많은 기회를 제공하거나 해를 끼칠 수 있는 경우 사용자 그룹 전체에서 이러한 오류의 비율을 평가해야 합니다. 이러한 오류율은 현재 공정성 지표 베타에서 지원하는 측정항목에 정의되어 있습니다.

내년에는 다양한 사용 사례에 대한 사례 연구와 이와 관련된 측정항목을 공개하여 다양한 측정항목이 가장 적합한 시기를 더 잘 강조할 수 있기를 바랍니다.

현재 공정성 지표에서 사용할 수 있는 측정항목

긍정비율/부정비율

  • 정의: 사실과 관계없이 긍정적 또는 부정적으로 분류된 데이터 포인트의 비율
  • 관련 항목: 인구통계학적 동등성과 결과의 평등(하위 그룹 전체에서 동일할 경우)
  • 이 지표를 사용하는 경우: 그룹의 최종 비율을 동일하게 유지하는 것이 중요한 공정성 사용 사례

참양성률/거짓음성률

  • 정의: 긍정적으로 올바르게 분류된 긍정적인 데이터 포인트(지상 진실에 표시된 대로)의 비율 또는 부정적인 것으로 잘못 분류된 긍정적인 데이터 포인트의 비율
  • 관련 항목: 기회의 평등(긍정적 계층의 경우), 하위 그룹 전체에 걸쳐 동일한 경우
  • 이 지표를 사용하는 경우: 각 그룹에서 동일한 비율의 자격을 갖춘 후보자가 긍정적으로 평가되는 것이 중요한 공정성 사용 사례입니다. 이는 대출 신청, 학교 입학, 콘텐츠가 어린이에게 적합한지 여부 등 긍정적인 결과를 분류하는 경우에 가장 일반적으로 권장됩니다.

참음성률/거짓양성률

  • 정의: 음수로 올바르게 분류된 음수 데이터 포인트(지상 진실에 표시된 대로)의 비율 또는 음수로 잘못 분류된 음수 데이터 포인트의 비율
  • 관련 항목: 기회의 평등(부정적 계층에 대한), 하위 그룹 전체에 걸쳐 동일한 경우
  • 이 측정항목을 사용해야 하는 경우: 오류율(또는 무언가를 긍정적인 것으로 잘못 분류하는 것)이 긍정적인 것을 분류하는 것보다 더 중요한 공정성 사용 사례입니다. 이는 긍정적인 행동이 종종 부정적인 행동으로 이어지는 학대 사례에서 가장 흔합니다. 이는 얼굴 감지 또는 얼굴 속성과 같은 얼굴 분석 기술에도 중요합니다.

정확도 및 AUC

  • 관련 항목: 하위 그룹 전체에서 동일한 경우 예측 패리티
  • 이러한 측정항목을 사용해야 하는 경우: 얼굴 식별 또는 얼굴 클러스터링과 같이 작업의 정밀도가 가장 중요한 경우(주어진 방향일 필요는 없음)

허위 발견률

  • 정의: 긍정적으로 분류된 모든 데이터 포인트 중에서 긍정적으로 잘못 분류된 부정적인 데이터 포인트(지상 진실에 표시된 대로)의 비율입니다. 이는 PPV의 반대이기도 합니다.
  • 관련 항목: 하위 그룹 전체에서 동일한 경우 예측 패리티(보정이라고도 함)
  • 이 측정항목을 사용해야 하는 경우: 올바른 긍정적 예측의 비율이 하위 그룹 전체에서 동일해야 하는 경우

허위 누락률

  • 정의: 부정적으로 분류된 모든 데이터 포인트 중에서 부정적으로 잘못 분류된 긍정적인 데이터 포인트(실측 진실에 표시된 대로)의 비율입니다. 이는 NPV의 반대이기도 합니다.
  • 관련 항목: 하위 그룹 전체에서 동일한 경우 예측 패리티(보정이라고도 함)
  • 이 측정항목을 사용해야 하는 경우: 올바른 부정적 예측의 비율이 하위 그룹 전체에서 동일해야 하는 경우

전체 반전율 / 긍정에서 부정 예측 반전율 / 부정에서 긍정 예측 반전율

  • 정의: 주어진 특징의 ID 속성이 변경된 경우 분류기가 다른 예측을 제공할 확률입니다.
  • 관련 항목: 반사실적 공정성
  • 이 측정항목을 사용하는 경우: 예시에서 참조된 중요한 속성이 제거되거나 교체될 때 모델의 예측이 변경되는지 여부를 결정할 때. 그렇다면 Tensorflow Model Remediation 라이브러리 내에서 Counterfactual Logit pairing 기술을 사용하는 것이 좋습니다.

뒤집기 카운트 / 양수 대 음수 예측 뒤집기 수 / 음수 대 양수 예측 뒤집기 카운트 *

  • 정의: 주어진 예에서 식별 용어가 변경된 경우 분류기가 다른 예측을 제공하는 횟수입니다.
  • 관련 항목: 반사실적 공정성
  • 이 측정항목을 사용하는 경우: 예시에서 참조된 중요한 속성이 제거되거나 교체될 때 모델의 예측이 변경되는지 여부를 결정할 때. 그렇다면 Tensorflow Model Remediation 라이브러리 내에서 Counterfactual Logit pairing 기술을 사용하는 것이 좋습니다.

선택할 측정항목의 예

  • 카메라 앱에서 체계적으로 얼굴을 감지하지 못하면 특정 사용자 그룹에 부정적인 사용자 경험이 발생할 수 있습니다. 이 경우 얼굴 감지 시스템의 잘못된 부정은 제품 고장으로 이어질 수 있는 반면, 잘못된 긍정(얼굴이 없는 경우 얼굴 감지)은 사용자에게 약간의 짜증을 줄 수 있습니다. 따라서 이 사용 사례에서는 거짓음성률을 평가하고 최소화하는 것이 중요합니다.
  • 조정 시스템에서 특정 사람들의 텍스트 댓글을 "스팸" 또는 "악성 수준"으로 부당하게 표시하면 특정 목소리가 침묵하게 됩니다. 한편으로 높은 오탐률은 불공정한 검열로 이어집니다. 다른 한편으로, 높은 위음성 비율은 특정 그룹의 독성 콘텐츠 확산으로 이어질 수 있으며, 이는 사용자에게 해를 끼치고 해당 그룹에 대표적 피해를 줄 수 있습니다. 따라서 정확도나 AUC와 같은 모든 유형의 오류를 고려하는 측정항목 외에도 두 측정항목을 모두 고려하는 것이 중요합니다.

찾고 있는 측정항목이 없나요?

자신만의 맞춤 측정항목을 추가하려면 여기 문서를 따르세요.

최종 메모

두 그룹 간의 측정항목 차이는 모델에 불공정한 편향이 있을 수 있다는 신호일 수 있습니다 . 사용 사례에 따라 결과를 해석해야 합니다. 그러나 특정 사용자 집합을 부당하게 대우하고 있다는 첫 번째 징후는 해당 사용자 집합과 전체 사용자 집합 간의 측정항목이 크게 다른 경우입니다. 이러한 차이를 확인할 때 신뢰 구간을 고려해야 합니다. 특정 조각에 샘플이 너무 적으면 측정항목 간의 차이가 정확하지 않을 수 있습니다.

공정성 지표에서 그룹 간 평등을 달성한다고 해서 모델이 공정하다는 의미는 아닙니다. 시스템은 매우 복잡하며 제공된 측정항목 중 하나(또는 전체)에서 평등을 달성한다고 해서 공정성이 보장될 수는 없습니다.

공정성 평가는 개발 프로세스 전반과 출시 후(출시 전날이 아닌) 실행되어야 합니다. 제품 개선이 지속적인 프로세스이고 사용자 및 시장 피드백에 따라 조정될 수 있는 것처럼 제품을 공정하고 공평하게 만드는 데 지속적인 관심이 필요합니다. 훈련 데이터, 다른 모델의 입력, 설계 자체 등 모델의 다양한 측면이 변경됨에 따라 공정성 측정항목도 변경될 가능성이 높습니다. 시간이 지나도 상호 작용하는 모든 구성 요소가 그대로 유지되도록 하려면 "기준을 지우는 것"만으로는 충분하지 않습니다.

드물고 악의적인 사례에 대해서는 적대적 테스트를 수행해야 합니다. 공정성 평가는 적대적 테스트를 대체하기 위한 것이 아닙니다. 희귀하고 표적화된 사례에 대한 추가 방어는 이러한 사례가 훈련이나 평가 데이터에 나타나지 않을 가능성이 높기 때문에 중요합니다.