ML 커뮤니티 데이는 11월 9일입니다! TensorFlow, JAX에서 업데이트를 우리와 함께, 더 자세히 알아보기

MinDiff 요구 사항

MinDiff는 언제 사용해야합니까?

모델이 일반적으로 잘 작동하지만 민감한 그룹에 속하는 예제에서 더 자주 유해한 오류를 생성하고 성능 차이를 줄이고 자하는 경우에 MinDiff를 적용하는 것이 좋습니다. 민감한 관심 그룹은 사용 사례에 따라 다를 수 있지만 종종 인종, 종교, 성별, 성적 취향 등과 같은 보호되는 클래스를 포함합니다. 이 문서 전체에서 "민감한 그룹"을 사용하여 보호 된 클래스에 속하는 모든 예제 집합을 참조합니다.

성능이 저조한 데이터 조각을 해결하기 위해 MinDiff를 사용하는 두 가지 기본 조건이 있습니다.

  • 이미 모델을 조정하고 평가하여 실적이 저조한 데이터 조각을 보여주는 메트릭을 식별했습니다. 모델 수정을 적용 하기 전에이 작업을 수행해야합니다.
  • 실적이 저조한 그룹에 속하는 관련 라벨이 지정된 예를 충분히 가지고 있거나 얻을 수 있습니다 (자세한 내용은 아래 참조).

MinDiff는 불평등 한 동작을 수정하는 많은 기술 중 하나입니다. 특히 그룹 간의 성과를 직접 균등화하려고 할 때 좋은 선택 일 수 있습니다. MinDiff는 더 나은 결과로 이어질 수있는 데이터 증가 및 기타 접근 방식과 함께 사용할 수 있습니다. 그러나 투자 할 기술의 우선 순위를 정해야하는 경우 제품 요구 사항에 따라 그렇게해야합니다.

MinDiff를 적용 할 때 실적이 저조한 그룹이 개선됨에 따라 실적이 가장 좋은 그룹의 성능이 저하되거나 약간 이동하는 것을 볼 수 있습니다. 이 절충안은 예상되며 제품 요구 사항의 맥락에서 평가되어야합니다. 실제로 우리는 MinDiff가 최고 성능의 슬라이스가 허용 가능한 수준 이하로 떨어지지 않도록하는 경우가 많지만 이는 애플리케이션에 따라 다르며 제품 소유자가 결정해야합니다.

어떤 모델 유형에 MinDiff를 적용 할 수 있습니까?

MinDiff는 바이너리 분류기에 적용될 때 일관되게 효과적인 것으로 나타났습니다 . 다른 응용 프로그램에 대한 방법을 적용 할 수 있지만 완전히 테스트되지 않았습니다. 다중 분류 및 순위 지정 작업 1 에서 성공을 보여주기 위해 일부 작업이 수행되었지만 이러한 모델 또는 다른 유형의 모델에서 MinDiff를 사용하는 것은 실험적인 것으로 간주되어야합니다.

MinDiff를 적용 할 수있는 메트릭은 무엇입니까?

MinDiff는 그룹간에 균등화하려는 메트릭이 FPR (false positive rate) 또는 FNR (false negative rate ) 일 때 좋은 솔루션이 될 수 있지만 다른 메트릭에서도 작동 할 수 있습니다. 일반적으로 MinDiff는 대상 측정 항목이 민감한 그룹에 속하는 예와 민감한 그룹에 속하지 않는 예 간의 점수 분포 차이로 인해 작동 할 수 있습니다.

MinDiff 데이터 셋 빌드

MinDiff로 학습 할 준비를 할 때 세 개의 개별 데이터 세트를 준비해야합니다. 정규 교육과 마찬가지로 MinDiff 데이터 세트는 모델이 제공하는 사용자를 대표해야합니다. MinDiff는이 기능 없이도 작동 할 수 있지만 이러한 경우에는 특별히주의해야합니다.

민감한 클래스에 속하는 예제에 대해 모델의 FPR을 개선하려고한다고 가정하면 다음이 필요합니다.

  1. 원래 학습 세트-기준 모델 학습에 사용 된 원래 데이터 세트
  2. MinDiff 민감 세트-음의 지상 실측 레이블 있는 민감 클래스에 속하는 예제 데이터 세트입니다. 이 예제는 MinDiff 손실을 계산하는 데만 사용됩니다.
  3. MinDiff 비 민감 세트-음의 지상 실측 레이블 있는 민감한 클래스에 속하지 않는 예제 데이터 세트입니다. 이 예제는 MinDiff 손실을 계산하는 데만 사용됩니다.

라이브러리를 사용할 때 이러한 세 가지 데이터 세트를 모두 단일 데이터 세트로 결합하여 새 학습 세트로 사용합니다.

MinDiff에 대한 선택 예

위의 예에서 탐률의 불일치에 주로 관심이있는 경우 부정적으로 레이블이 지정된 예 세트를 만드는 것은 직관에 반하는 것처럼 보였습니다. 그러나 오 탐지 예측은 긍정으로 잘못 분류 된 부정적으로 분류 된 예에서 비롯된 것임을 기억하십시오.

MinDiff에 대한 데이터를 수집 할 때 성능 차이가 분명한 예를 선택해야합니다. 위의 예에서 이것은 FPR을 해결하기 위해 네거티브 라벨이 붙은 예를 선택하는 것을 의미했습니다. FNR을 타깃팅하는 데 관심이 있었다면 긍정적으로 라벨이 지정된 예를 선택해야했을 것입니다.

얼마나 많은 데이터가 필요합니까?

좋은 질문입니다. 사용 사례에 따라 다릅니다! 모델 아키텍처, 데이터 배포 및 MinDiff 구성에 따라 필요한 데이터 양은 크게 다를 수 있습니다. 과거 애플리케이션에서는 MinDiff가 각 MinDiff 학습 세트 (이전 섹션의 세트 2 및 3)에있는 5,000 개의 예제에서 잘 작동하는 것을 확인했습니다. 데이터가 적을수록 성능 저하의 위험이 증가하지만 이는 생산 제약 범위 내에서 최소화되거나 수용 가능할 수 있습니다. MinDiff를 적용한 후에는 허용 가능한 성능을 보장하기 위해 결과를 철저히 평가해야합니다. 신뢰할 수 없거나 성능 기대치를 충족하지 못하는 경우에도 더 많은 데이터 수집을 고려할 수 있습니다.

MinDiff는 언제 나에게 적합 하지 않습니까?

MinDiff는 인상적인 결과를 제공 할 수있는 강력한 기술이지만 이것이 모든 상황에 적합한 방법임을 의미하지는 않습니다. 아무렇게나 적용한다고해서 적절한 솔루션을 얻을 수 있다는 보장은 없습니다.

위에서 설명한 요구 사항 외에도 MinDiff가 기술적으로 가능하지만 적합하지 않은 경우가 있습니다. 항상 알려진 권장 사례에 따라 ML 워크 플로를 설계해야합니다. 예를 들어 모델 작업이 잘못 정의되었거나 제품이 명확하지 않거나 예제 라벨이 지나치게 왜곡 된 경우 이러한 문제를 해결하는 데 우선 순위를 두어야합니다. 마찬가지로 민감한 그룹에 대한 명확한 정의가 없거나 예가 민감한 그룹에 속하는지 여부를 안정적으로 확인할 수없는 경우 MinDiff를 효과적으로 적용 할 수 없습니다.

더 높은 수준에서 제품이 ML에 적합한 용도인지 항상 고려해야합니다. 그렇다면 사용자에게 피해를 줄 수있는 잠재적 벡터를 고려하십시오. 책임있는 ML을 추구하는 것은 광범위한 잠재적 피해를 예측하는 것을 목표로하는 다각적 인 노력입니다. MinDiff는 이들 중 일부를 완화하는 데 도움이 될 수 있지만 모든 결과는 신중하게 고려해야합니다.

1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). 쌍별 비교를 통한 추천 순위의 공정성.