모델 수정을 위한 사실적 로짓 페어링

CLP(Counterfactual Logit Pairing)는 TensorFlow 모델 수정 라이브러리 내의 기술로, 예제에서 참조하는 민감한 속성이 제거되거나 대체될 때 모델의 예측이 변경되지 않도록 합니다. 예를 들어, 독성 분류기에서 "나는 남자입니다"와 "나는 레즈비언입니다"와 같은 예는 독성에 대해 다른 예측을 해서는 안 됩니다.

이 주제에 대한 심도 있는 논의를 위해서는 사실적 공정성 , 적대적 로짓 짝짓기사실적 로짓 짝짓기에 대한 연구를 참조하십시오.

Counterfactual Logit 페어링은 언제 사용해야 합니까?

CLP는 기능에서 참조되는 민감한 속성의 변경이 예측을 변경하는 시나리오를 해결합니다(예측이 변경되지 않아야 하는 경우). 그렇게 함으로써 다음 질문에 답하려고 시도합니다. 이 모델은 ID 속성의 존재만으로 예측을 변경할 수 있습니까? 반사실적 공정성에 대한 자세한 내용은 연구 논문 을 참조하십시오.

이 문제는 개발자와 게시자가 잠재적으로 공격적이거나 유해한 텍스트에 대한 댓글 콘텐츠를 분석하는 데 사용하는 ML 도구인 Perspective API 에서 나타났습니다. Perspective API는 주석 텍스트를 입력으로 사용하고 주석이 유독할 가능성을 나타내는 0에서 1 사이의 점수를 반환합니다. 예를 들어, "당신은 바보입니다"와 같은 댓글은 독성에 대해 0.8의 확률 점수를 받을 수 있으며, 이는 독자가 해당 댓글을 독성으로 인식할 가능성을 나타냅니다.

Perspective API가 처음 출시된 후 외부 사용자는 인종 또는 성적 취향에 대한 정보가 포함된 식별 용어와 예측 독성 점수 사이에 양의 상관 관계가 있음을 발견했습니다. 예를 들어, "나는 레즈비언입니다"라는 문구는 0.51점을 받은 반면, "나는 남자입니다"는 0.2점을 받았습니다. 이 경우 동일성 용어는 경멸적으로 사용되지 않았으므로 점수에 큰 차이가 없어야합니다. Perspective API에 대한 자세한 내용은 의도하지 않은 편견 및 정체성 용어 에 대한 블로그 게시물을 참조하세요.

Counterfactual Logit Pairing의 효과를 어떻게 측정할 수 있습니까?

기계 학습 모델을 평가하고 특정 민감한 속성의 변경으로 인한 예측 변경이 유해하다고 판단했다면 이 문제의 확산을 측정해야 합니다. 이진 또는 다중 클래스 분류기의 경우 플립 은 예제에서 참조하는 민감한 속성이 변경될 때 다른 결정(예: 독성에서 비독성으로 예측 변경)을 제공하는 분류기로 정의됩니다. 플립 의 유행을 평가할 때 플립 카운트플립 비율 을 볼 수 있습니다. 플립으로 인한 잠재적인 사용자 피해와 플립 이 발생하는 빈도를 고려하여 이것이 CLP를 적용하여 해결해야 하는 문제인지 결정할 수 있습니다. 이러한 측정항목에 대한 자세한 내용은 공정성 지표 가이드 를 참조하십시오.

어떤 모델 유형에 Counterfactual Logit Pairing을 적용할 수 있습니까?

이 기술은 텍스트, 이미지 및 비디오와 같은 다양한 데이터 유형의 이진 및 다중 클래스 분류기와 함께 사용할 수 있습니다.

Counterfactual Logit 페어링이 나에게 적합하지 않은 경우는 언제입니까?

CLP가 모든 상황에 적합한 방법은 아닙니다. 예를 들어, 동일성 용어의 존재 여부가 분류기 예측을 합법적으로 변경하는지 여부는 관련이 없습니다. 이것은 분류기가 특징이 특정 ID 그룹을 참조하는지 여부를 결정하는 것을 목표로 하는 경우일 수 있습니다. 이 방법은 분류기 결과와 ID 그룹 간의 의도하지 않은 상관 관계가 사용자에게 부정적인 영향을 미치지 않는 경우에도 덜 영향을 미칩니다.

CLP는 단순히 "흑인", "게이", "무슬림"과 같은 용어가 포함되어 있기 때문에 언어 모델 또는 독성 분류기가 불공정한 방식으로 출력을 변경하는지(예: 텍스트를 독성으로 분류하는지) 테스트하는 데 유용합니다. 텍스트. CLP는 예를 들어 개인의 신원을 조작하여 개인에 대해 예측하기 위한 것이 아닙니다. 자세한 논의는 이 문서 를 참조하십시오.

CLP는 기능에서 참조하는 민감한 속성이 예측을 변경하는 상황을 해결하도록 특별히 설계된 Responsible AI Toolkit 의 한 기술임을 명심하는 것이 중요합니다. 모델 및 사용 사례에 따라 특히 CLP가 그룹 성능에 영향을 미칠 수 있으므로 역사적으로 소외된 그룹에 대한 성능 격차가 있는지 여부를 고려하는 것도 중요할 수 있습니다. 이는 공정성 지표 로 평가할 수 있으며 TensorFlow 모델 수정 라이브러리에도 있는 MinDiff 로 해결할 수 있습니다.

또한 귀하의 제품이 기계 학습에 적합한지 여부도 고려해야 합니다. 그렇다면 머신 러닝 워크플로는 잘 정의된 모델 작업 및 명확한 제품 요구 사항과 같은 알려진 권장 사례에 맞게 설계되어야 합니다.

Counterfactual Logit 페어링은 어떻게 작동합니까?

CLP는 데이터 세트의 원본 및 반사실적 예를 로짓 페어링하여 제공되는 원본 모델에 손실을 추가합니다. 두 값 간의 차이를 계산하여 분류기 예측을 변경하게 하는 민감한 용어의 차이에 불이익을 줍니다. 이 작업은 적대적 로짓 짝짓기반사실적 로짓 짝짓기에 대한 연구를 기반으로 합니다.