ML 커뮤니티 데이는 11월 9일입니다! TensorFlow, JAX에서 업데이트를 우리와 함께, 더 자세히 알아보기

공정성 지표 : 공정성 평가에 대한 생각

공정성 지표 베타 활용에 관심이 있으십니까?

그러기 전에 다음 지침을 읽어 보시기 바랍니다.

공정성 표시기는 공정성을 위해 바이너리다중 클래스 분류기를 평가하는 데 유용한 도구입니다. 결국 우리는 여러분 모두와 협력하여이 도구를 확장하여 더 많은 고려 사항을 평가할 수 있기를 바랍니다.

정량적 평가는 광범위한 사용자 경험을 평가하는 한 부분 일뿐입니다. 사용자가 제품을 경험할 수있는 다양한 상황 에 대해 생각하는 것으로 시작하십시오. 제품이 제공 할 것으로 예상되는 사용자 유형은 누구입니까? 경험의 영향을받는 다른 사람은 누구입니까?

AI가 사람에게 미치는 영향을 고려할 때, 인간 사회는 매우 복잡하다는 것을 항상 기억하는 것이 중요합니다! 사람과 그들의 사회적 정체성, 사회 구조 및 문화 시스템을 이해하는 것은 각각 그 자체로 거대한 개방형 연구 분야입니다. 전 세계의 이문화 차이의 복잡성을 던지고 사회적 영향을 이해하는 발판을 마련하는 것은 어려울 수 있습니다. 가능할 때마다 사회 과학자, 사회 언어 학자, 문화 인류 학자 및 기술이 배포 될 인구 구성원을 포함 할 수있는 적절한 분야 전문가와 상담하는 것이 좋습니다.

예를 들어, colab 예제 에서 활용하는 독성 모델과 같은 단일 모델은 다양한 상황에서 사용할 수 있습니다. 예를 들어, 공격적인 댓글을 필터링하기 위해 웹 사이트에 배포 된 독성 모델은 사용자가 문장을 입력하고 모델이 제공하는 점수를 볼 수있는 예제 웹 UI에 배포되는 모델과는 매우 다른 사용 사례입니다. 사용 사례 및 사용자가 모델 예측을 경험하는 방식에 따라 제품에 다른 위험, 효과 및 기회가 있으며 다른 공정성 문제를 평가할 수 있습니다.

위의 질문은 ML 기반 제품을 설계하고 개발할 때 고려할 수있는 공정성을 포함하여 윤리적 고려 사항의 기초입니다. 이러한 질문은 측정 및 평가 도구를 사용한다 사용자 그룹에있는 동기를 부여.

자세히 알아보기 전에 시작시 권장하는 세 가지 리소스가 있습니다.

  • 인간 중심 AI 디자인을위한 People + AI 가이드 북 : 이 가이드 북은 머신 러닝 기반 제품을 디자인 할 때 염두에 두어야 할 질문과 측면에 대한 훌륭한 리소스입니다. 디자이너를 염두에두고이 가이드 북을 만들었지 만 많은 원칙이 위에서 제시 한 것과 같은 질문에 답하는 데 도움이 될 것입니다.
  • 배운 공정성 교훈 : Google I / O의이 강연에서는 포괄적 인 제품을 구축하고 설계하려는 목표에서 배운 교훈에 대해 설명합니다.
  • ML 단기 집중 과정 : 공정성 : ML 단기 집중 과정에는 공정성 문제를 식별하고 평가하기위한 70 분 섹션이 있습니다.

그렇다면 왜 개별 조각을 볼까요? 강력한 전체 메트릭이 특정 그룹의 성능 저하를 가릴 수 있으므로 개별 조각에 대한 평가가 중요합니다. 마찬가지로 특정 측정 항목 (정확도, AUC)에 대해 잘 수행한다고해서 사용자에 대한 기회와 피해를 평가하는 데 똑같이 중요한 다른 측정 항목 (위양성 비율, 거짓 음성 비율)에 대해 항상 허용 가능한 성능으로 변환되는 것은 아닙니다.

아래 섹션에서는 고려해야 할 몇 가지 측면을 살펴볼 것입니다.

어떤 그룹을 기준으로 슬라이스해야합니까?

일반적으로 성능이 서로 다를 수있는시기를 알 수 없으므로 제품의 영향을받을 수있는만큼 많은 그룹으로 분할하는 것이 좋습니다. 그러나 확실하지 않은 경우 제품에 참여할 수있는 여러 사용자와 이들이 어떤 영향을받을 수 있는지 생각해보십시오. 특히 인종, 민족, 성별, 국적, 소득, 성적 취향 및 장애 상태와 같은 민감한 특성과 관련된 부분을 고려하십시오.

조사하려는 조각에 대해 레이블이 지정된 데이터가 없으면 어떻게합니까?

좋은 질문. 우리는 많은 데이터 세트에 개별 ID 속성에 대한 실측 레이블이 없다는 것을 알고 있습니다.

이 위치에있는 경우 몇 가지 방법을 권장합니다.

  1. 당신이 당신에게 그룹간에 성능에 대한 통찰력을 제공 할 수있는 속성이 있는지 확인합니다. 예를 들어, 지리학 은 민족성 및 인종과 동일하지 않지만 성과에서 이질적인 패턴을 발견하는 데 도움이 될 수 있습니다.
  2. 문제에 잘 매핑 될 수있는 대표적인 공개 데이터 세트가 있는지 확인합니다. Google AI 사이트 에서 Project Respect , Inclusive Images , Open Images Extended 등 다양하고 포괄적 인 데이터 세트를 찾을 수 있습니다.
  3. 관련이있는 경우 규칙 또는 분류자를 활용하여 객관적인 표면 수준 속성으로 데이터에 레이블을 지정합니다. 문장의 신원 용어가 있는지 여부에 관해서는 예를 들어, 텍스트 레이블을 지정할 수 있습니다. 분류기에는 고유 한 문제가 있으며주의하지 않으면 다른 계층의 편향도 도입 될 수 있습니다. 분류 기가 실제로 무엇을 분류하고 있는지 명확히하십시오. 예를 들어, 이미지에 대한 연령 분류기는 실제로 인식 된 연령을 분류합니다. 또한 가능하면 데이터에서 객관적으로 식별 할 수 있는 표면 수준 속성을 활용하십시오. 예를 들어 인종 또는 민족에 대한 이미지 분류기를 만드는 것은 이미지에서 정의 할 수있는 시각적 특성이 아니기 때문에 바람직하지 않습니다. 분류자는 프록시 나 고정 관념을 포착 할 가능성이 높습니다. 대신 피부 톤에 대한 분류기를 만드는 것이 이미지에 레이블을 지정하고 평가하는 더 적절한 방법 일 수 있습니다. 마지막으로, 이러한 속성에 라벨을 지정하는 분류기의 높은 정확성을 보장합니다.
  4. 라벨이 지정된 더 많은 대표 데이터 찾기

항상 여러 개의 다양한 데이터 세트를 평가해야합니다.

평가 데이터가 사용자 기반 또는 발생할 가능성이있는 데이터 유형을 적절하게 대표하지 않는 경우, 믿을 수 없을 정도로 좋은 공정성 메트릭이 될 수 있습니다. 마찬가지로 한 데이터 세트의 높은 모델 성능이 다른 데이터 세트의 높은 성능을 보장하지 않습니다.

하위 그룹이 항상 개인을 분류하는 가장 좋은 방법은 아닙니다.

사람들은 다차원 적이며 단일 차원 내에서도 둘 이상의 그룹에 속합니다. 다인종이거나 여러 인종 그룹에 속하는 사람을 고려하십시오. 또한 특정 인종 그룹에 대한 전반적인 측정 기준이 공평하게 보일 수 있지만 인종 및 성별과 같은 특정 상호 작용은 의도하지 않은 편향을 보일 수 있습니다. 더욱이, 많은 하위 그룹에는 지속적으로 다시 그려지는 퍼지 경계가 있습니다.

충분한 슬라이스를 테스트 한시기와 테스트 할 슬라이스를 어떻게 알 수 있습니까?

테스트와 관련이있을 수있는 그룹이나 조각이 방대한 수를 알고 있으며, 가능하면 다양하고 광범위한 조각을 조각화하고 평가 한 다음 개선의 기회가있는 곳에서 심층 다이빙을하는 것이 좋습니다. 또한 테스트 한 슬라이스에 대한 우려가 보이지 않더라도 제품이 모든 사용자에게 작동한다는 것을 의미하는 것은 아니며 다양한 사용자 피드백과 테스트를받는 것이 지속적으로 새로운 제품을 식별하는 데 중요하다는 사실을 인정하는 것이 중요합니다. 기회.

시작하려면 특정 사용 사례와 사용자가 제품에 참여할 수있는 다양한 방법을 고려하는 것이 좋습니다. 사용자마다 어떻게 다른 경험을 할 수 있습니까? 평가해야하는 슬라이스에 대해 어떤 의미입니까? 다양한 사용자로부터 피드백을 수집하면 우선 순위를 지정할 잠재적 인 부분을 강조 할 수도 있습니다.

어떤 측정 항목을 선택해야합니까?

시스템에 대해 평가할 메트릭을 선택할 때 모델을 경험할 사람, 경험 방법 및 경험의 영향을 고려하십시오.

예를 들어, 모델이 사람들에게 더 많은 존엄성 또는 자율성을 제공하거나 정서적, 신체적 또는 재정적 안녕에 긍정적 인 영향을 미치는 방법은 무엇입니까? 반대로 모델의 예측이 사람들의 존엄성 또는 자율성을 감소 시키거나 정서적, 신체적 또는 재정적 안녕에 부정적인 영향을 미칠 수 있습니까?

일반적으로 기존 성능 메트릭을 모두 분할 하는 것이 좋습니다 . 또한 임계 값이 여러 그룹의 성능에 어떤 영향을 미칠 수 있는지 이해하기 위해 여러 임계 값걸쳐 메트릭을 평가하는 것이 좋습니다 .

또한 일관되게 "양호"또는 "나쁨"인 예측 레이블이있는 경우 해당 레이블이 예측되는 비율을보고하는 것을 고려하십시오 (각 하위 그룹에 대해). 예를 들어 '좋은'라벨은 예측이 사람에게 일부 리소스에 대한 액세스 권한을 부여하거나 일부 작업을 수행 할 수 있도록하는 라벨입니다.

분류를위한 중요한 공정성 메트릭

분류 모델에 대해 생각할 때 오류 의 영향 (실제 "실측"레이블과 모델의 레이블 간의 차이)에 대해 생각하십시오. 일부 오류가 사용자에게 더 많은 기회 나 피해를 줄 수있는 경우 사용자 그룹 전체에서 이러한 오류의 비율을 평가해야합니다. 이러한 오류율은 현재 공정성 지표 베타에서 지원하는 메트릭에 아래에 정의되어 있습니다.

내년에는 다양한 사용 사례 및 이와 관련된 지표에 대한 사례 연구를 발표하여 서로 다른 지표가 가장 적합한시기를 더 잘 강조 할 수 있기를 바랍니다.

오늘날 공정성 지표에서 사용할 수있는 메트릭

참고 : 현재 공정성 지표 베타에서 지원되지 않는 가치있는 공정성 메트릭이 많이 있습니다. 계속해서 더 많은 메트릭을 추가함에 따라 이러한 메트릭에 대한 지침을 여기에 계속 추가 할 것입니다. 아래에서 공정성 지표에 자신의 메트릭을 추가하는 지침에 액세스 할 수 있습니다. 또한보고 싶은 측정 항목이 있으면 tfx@tensorflow.org로 문의하세요. 우리는 당신과 협력하여 이것을 더욱 발전시키기를 희망합니다.

긍정적 인 비율 / 부정적인 비율

  • 정의 : Ground Truth와 무관하게 긍정 또는 부정으로 분류 된 데이터 포인트의 백분율
  • 관련 항목 : 하위 그룹간에 동일한 경우 인구 통계 학적 평가 및 결과의 동등성
  • 이 측정 항목을 사용 하는 경우 : 그룹의 최종 비율이 동일해야하는 공정성 사용 사례

참 양성률 / 거짓 음성률

  • 정의 : 긍정으로 올바르게 분류 된 긍정적 인 데이터 포인트의 비율 ( 정확한 사실에 표시됨) 또는 부정적으로 잘못 분류 된 긍정적 인 데이터 포인트의 비율
  • 관련 항목 : 기회 균등 (긍정 클래스의 경우), 하위 그룹간에 동일 할 때
  • 이 측정 항목을 사용 하는 경우 : 각 그룹에서 동일한 %의 자격을 갖춘 후보자가 긍정적으로 평가되는 것이 중요한 공정성 사용 사례. 이는 대출 신청, 학교 입학 또는 콘텐츠가 어린이 친화적인지 여부와 같은 긍정적 인 결과를 분류하는 경우에 가장 일반적으로 권장됩니다.

참 음성 비율 / 가양 성 비율

  • 정의 : 부정확 한 것으로 올바르게 분류 된 부정적 데이터 포인트의 비율 (실측 사실에 표시됨) 또는 긍정적으로 잘못 분류 된 부정적 데이터 포인트의 비율
  • 관련 항목 : 기회 균등 (네거티브 클래스의 경우), 하위 그룹간에 동일 할 때
  • 이 메트릭을 사용 하는 경우 : 오류율 (또는 긍정적 인 것으로 잘못 분류하는 것)이 긍정적 인 것으로 분류하는 것보다 더 중요한 공정성 사용 사례. 이것은 긍정이 종종 부정적인 행동으로 이어지는 남용 사례에서 가장 흔합니다. 이는 얼굴 감지 또는 얼굴 속성과 같은 얼굴 분석 기술에도 중요합니다.

정확성 및 AUC

  • 관련 항목 : 하위 그룹간에 동일한 경우 예측 패리티
  • 이러한 메트릭을 사용해야하는 경우 : 얼굴 식별 또는 얼굴 클러스터링과 같이 작업의 정밀도가 가장 중요한 경우 (지정된 방향으로 반드시 필요한 것은 아님)

허위 발견 비율

  • 정의 : 긍정적으로 분류 된 모든 데이터 포인트 중 긍정적으로 잘못 분류 된 부정적인 데이터 포인트 (정확한 레이블에 표시된대로)의 백분율입니다. 이것은 또한 PPV의 반대입니다.
  • 관련 항목 : 예측 패리티 (교정이라고도 함), 하위 그룹간에 동일 할 때
  • 이 측정 항목을 사용하는 경우 : 정확한 긍정 예측의 비율이 하위 그룹 전체에서 동일해야하는 경우

허위 누락 률

  • 정의 : 음수로 분류 된 모든 데이터 포인트 중 음수로 잘못 분류 된 긍정적 인 데이터 포인트 (실측에 표시된대로)의 백분율입니다. 이것은 또한 NPV의 역입니다.
  • 관련 항목 : 예측 패리티 (교정이라고도 함), 하위 그룹간에 동일 할 때
  • 이 측정 항목을 사용하는 경우 : 정확한 부정 예측의 비율이 하위 그룹 전체에서 동일해야하는 경우

선택할 메트릭의 예

  • 카메라 앱에서 체계적으로 얼굴을 감지하지 못하면 특정 사용자 그룹에 부정적인 사용자 경험이 발생할 수 있습니다. 이 경우 얼굴 인식 시스템의 위음성은 제품 고장으로 이어질 수 있으며, 위양성 (얼굴이없는 경우 얼굴을 감지)은 사용자에게 약간의 불편 함을 줄 수 있습니다. 따라서이 사용 사례에서는 위음성 비율을 평가하고 최소화하는 것이 중요합니다.
  • 중재 시스템에서 특정 사람들의 텍스트 댓글을 "스팸"또는 "높은 독성"으로 부당하게 표시하면 특정 음성이 음소거됩니다. 한편으로 높은 오 탐률은 불공정 한 검열로 이어집니다. 다른 한편으로, 높은 위음성 비율은 특정 그룹에서 독성 콘텐츠의 확산으로 이어질 수 있으며, 이는 사용자에게 해를 끼칠 수 있고 해당 그룹에 대한 대표적 피해를 구성 할 수 있습니다. 따라서 정확도 또는 AUC와 같은 모든 유형의 오류를 고려하는 메트릭 외에도 두 메트릭을 모두 고려해야합니다.

찾고있는 측정 항목이 보이지 않습니까?

여기 에있는 설명서를 따라 사용자 지정 메트릭을 추가 하십시오 .

최종 노트

두 그룹 간의 메트릭 차이는 모델에 불공평 한 왜곡이있을 수 있다는 신호일 수 있습니다 . 사용 사례에 따라 결과를 해석해야합니다. 그러나 한 사용자 집합을 부당하게 대할 수 있다는 첫 번째 징후는 해당 사용자 집합과 전체 사용자 간의 메트릭이 크게 다를 때입니다. 이러한 차이를 볼 때 신뢰 구간을 고려해야합니다. 특정 조각에 너무 적은 샘플이 있으면 메트릭 간의 차이가 정확하지 않을 수 있습니다.

공정성 지표에서 그룹간에 평등을 달성한다고해서 모델이 공정하다는 의미는 아닙니다. 시스템은 매우 복잡하며 제공된 메트릭 중 하나 (또는 ​​전체)에서 동등성을 달성한다고해서 공정성을 보장 할 수 없습니다.

공정성 평가는 개발 프로세스와 출시 후 (출시 전날이 아닌) 전체에 걸쳐 실행되어야합니다. 제품 개선이 지속적인 프로세스이고 사용자 및 시장 피드백에 따라 조정되는 것처럼 제품을 공정하고 공평하게 만들려면 지속적인 관심이 필요합니다. 학습 데이터, 다른 모델의 입력 또는 설계 자체와 같은 모델의 다양한 측면이 변경되면 공정성 메트릭이 변경 될 가능성이 있습니다. “바를 지우는 것”은 상호 작용하는 모든 구성 요소가 시간이 지나도 그대로 유지되도록하는 데 충분하지 않습니다.

드물고 악의적 인 예에 대해서는 적대적 테스트를 수행해야합니다. 공정성 평가는 적대적 테스트를 대체하기위한 것이 아닙니다. 희귀하고 표적화 된 예제에 대한 추가 방어는 이러한 예제가 훈련 또는 평가 데이터에 나타나지 않을 수 있으므로 매우 중요합니다.