Responsible AI Toolkit

什麼是模型補強？

利用資料片段評估機器學習模型的表現後，您可能會發現模型對於特定資料片段的表現不佳。這種表現不一的情形有時可能會產生對特定弱勢群體不公平且有害的結果。一般來說，可用來解決偏誤問題的技術介入方式主要有三種：

變更輸入資料：收集更多資料、產生合成資料、調整不同片段的權重和取樣率等。¹
調整模型：透過導入或修改模型目標、新增限制等做法變更模型本身。²
對結果進行後續處理：修改模型的輸出結果，或是修改對輸出結果的詮釋，藉此提升模型在各項指標方面的表現。³

from tensorflow_model_remediation import min_diff
import tensorflow as tf

# Start by defining a Keras model.
original_model = ...

# Set the MinDiff weight and choose a loss.
min_diff_loss = min_diff.losses.MMDLoss()
min_diff_weight = 1.0  # Hyperparamater to be tuned.

# Create a MinDiff model.
min_diff_model = min_diff.keras.MinDiffModel(
original_model, min_diff_loss, min_diff_weight)

# Compile the MinDiff model normally.
min_diff_model.compile(...)

# Create a MinDiff Dataset and train the min_diff_model.
min_diff_model.fit(min_diff_dataset, ...)

什麼是 MinDiff？

MinDiff 是一種模型補強技巧，用於平衡兩種分布情形。在實務上，MinDiff 可針對分布情形的差異進行懲罰，讓不同資料片段的錯誤率達成平衡。

一般來說，如果有屬於敏感類別的資料片段和表現較佳的資料片段，想盡可能降低這兩者之間的偽陽率 (FPR) 或偽陰率 (FNR)，就很適合使用 MinDiff。如要深入瞭解公平性指標，請參閱與這個主題相關的文獻。^{4 5 6}

MinDiff 如何運作？

以我們資料集內的兩組示例為例，在訓練模型的過程中，MinDiff 會根據兩組示例之間的分數分布情形差異懲罰模型。兩組示例之間的預測分數差異越小，懲罰就越輕。

給予懲罰時，MinDiff 會在訓練的模型中加入損失成分。這可以想成是在評估模型預測結果分布情形的差異。在訓練過程中，模型會設法讓分布情形較為相似，盡可能降低懲罰程度 (如上圖所示)。

運用 MinDiff 後可能會對原始工作的表現造成影響。在實務上，我們往往發現 MinDiff 非常有效，而且不會讓表現降到無法滿足產品需求，但實際結果仍視應用情況而定，且是否要運用 MinDiff 應由產品擁有者審慎決定。如需相關示例，瞭解如何實作 MinDiff，請參閱我們的筆記本教學課程。

¹Zhang, G.、Bai, B.、Zhang, J.、Bai, K.、Zhu, C.、Zhao, T. (2020 年)，〈Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting〉(人口特徵不應成為惡意行為的理由：透過例項權重減輕文字分類歧視的問題)。
²Prost, F.、Qian H.、Chen, Q.、Chi, E.、Chen, J.、Beutel, A. (2019 年)，〈Toward a better trade-off between performance and fairness with kernel-based distribution matching〉(藉由比對核心式分布情形，在表現與公平性之間取得更好的平衡)。
³Alabdulmohsin, I. (2020 年)，〈Fair Classification via Unconstrained Optimization〉(透過無拘束最佳化公平地進行分類)。
⁴Dwork, C.、Hardt, M.、Pitassi, T.、Reingold, O.、Zemel, R. (2011 年)，〈Fairness Through Awareness〉(透過意識實現公平性)。
⁵Hardt, M.、Price, E.、Srebro, N. (2016 年)，〈Equality of Opportunity in Supervised Learning〉(監督式學習中的機會平等)。
⁶Chouldechova, A. (2016 年)，〈Fair prediction with disparate impact: A study of bias in recidivism prediction instruments〉(造成不同影響的公平預測結果：累犯預測工具偏誤研究)。

什麼是模型補強？

什麼是 MinDiff？

MinDiff 如何運作？

資源

瞭解如何將 MinDiff 應用於文字分類模型

有關 MinDiff 的 TensorFlow 網誌

GitHub 上的模型補強資料庫