عرض على TensorFlow.org | تشغيل في Google Colab | عرض على جيثب | تحميل دفتر |
نظرة عامة على دراسة الحالة
في دراسة الحالة هذه سوف نطبق TensorFlow تحليل نموذج و مؤشرات الإنصاف لتقييم البيانات المخزنة كما الباندا DataFrame، حيث يحتوي كل صف تسميات الحقيقة على الارض، وميزات مختلفة، والتنبؤ نموذج. سنوضح كيف يمكن استخدام سير العمل هذا لتحديد مخاوف العدالة المحتملة ، بغض النظر عن إطار العمل المستخدم لبناء النموذج وتدريبه. كما في دراسة الحالة هذه ، يمكننا تحليل النتائج من أي إطار عمل للتعلم الآلي (مثل TensorFlow و JAX وما إلى ذلك) بمجرد تحويلها إلى Pandas DataFrame.
لهذه العملية، فإننا سوف الاستفادة من نموذج ديب الشبكات العصبية (DNN) التي وضعت في قيود الشكل لأخلاقيات مع Tensorflow شعرية دراسة حالة استخدام القبول كلية الحقوق بيانات من مجلس القبول في كلية الحقوق (LSAC). يحاول هذا المصنف التنبؤ بما إذا كان الطالب سوف يجتاز الشريط أم لا ، بناءً على درجة اختبار القبول في كلية الحقوق (LSAT) والمعدل التراكمي للطلاب الجامعيين. يحاول هذا المصنف التنبؤ بما إذا كان الطالب سوف يجتاز الشريط أم لا ، بناءً على درجة LSAT الخاصة به والمعدل التراكمي للطلاب الجامعيين.
مجموعة بيانات LSAC
مجموعة البيانات المستخدمة في دراسة الحالة هذه، تم جمعها أصلا لدراسة بعنوان " LSAC الوطنية طولية بار مرور الدراسة. تقرير أبحاث LSAC سلسلة "من قبل ليندا ايتمان في عام 1998. واستضافت مجموعة البيانات حاليا هنا .
- dnn_bar_pass_prediction: التنبؤ LSAT من طراز DNN.
- الجنس: الجنس للطالب.
- LSAT: LSAT النتيجة يتلقاها الطالب.
- pass_bar: الأرضي التسمية الحقيقة تشير إلى ما إذا كان الطالب مرت في نهاية المطاف العارضة.
- السباق: سباق للطالب.
- ugpa: A الجامعية GPA الطالب.
!pip install -q -U pip==20.2
!pip install -q -U \
tensorflow-model-analysis==0.30.0 \
tensorflow-data-validation==0.30.0 \
tfx-bsl==0.30.0
استيراد الحزم المطلوبة:
import os
import tempfile
import pandas as pd
import six.moves.urllib as urllib
import pprint
import tensorflow_model_analysis as tfma
from google.protobuf import text_format
import tensorflow as tf
tf.compat.v1.enable_v2_behavior()
قم بتنزيل البيانات واستكشف مجموعة البيانات الأولية.
# Download the LSAT dataset and setup the required filepaths.
_DATA_ROOT = tempfile.mkdtemp(prefix='lsat-data')
_DATA_PATH = 'https://storage.googleapis.com/lawschool_dataset/bar_pass_prediction.csv'
_DATA_FILEPATH = os.path.join(_DATA_ROOT, 'bar_pass_prediction.csv')
data = urllib.request.urlopen(_DATA_PATH)
_LSAT_DF = pd.read_csv(data)
# To simpliy the case study, we will only use the columns that will be used for
# our model.
_COLUMN_NAMES = [
'dnn_bar_pass_prediction',
'gender',
'lsat',
'pass_bar',
'race1',
'ugpa',
]
_LSAT_DF.dropna()
_LSAT_DF['gender'] = _LSAT_DF['gender'].astype(str)
_LSAT_DF['race1'] = _LSAT_DF['race1'].astype(str)
_LSAT_DF = _LSAT_DF[_COLUMN_NAMES]
_LSAT_DF.head()
تكوين مؤشرات الإنصاف.
هناك العديد من المعلمات التي ستحتاج إلى أخذها في الاعتبار عند استخدام مؤشرات الإنصاف مع DataFrame
يجب أن يحتوي DataFrame الذي أدخلته على عمود توقع وعمود تسمية من النموذج الخاص بك. افتراضيا مؤشرات الإنصاف سوف ننظر لعمود التنبؤ دعا
prediction
وعمود تسمية يسمىlabel
ضمن DataFrame الخاص بك.- إذا لم يتم العثور على أي من هذه القيم ، فسيتم رفع خطأ KeyError.
بالإضافة إلى DataFrame، سوف تحتاج أيضا إلى تضمين
eval_config
التي ينبغي أن تشمل المقاييس لحساب، شرائح لحساب المقاييس على، وأسماء الأعمدة على سبيل المثال التسميات والتنبؤات.metrics_specs
وتعيين المقاييس لحساب. وFairnessIndicators
سوف تكون هناك حاجة متري لتقديم مقاييس النزاهة ويمكنك ان ترى قائمة مقاييس إضافية اختيارية هنا .slicing_specs
هو المعلمة تشريح اختياري لتحديد ما تتميز كنت مهتما في التحقيق. ضمن دراسة الحالة هذه ، يتم استخدام السباق 1 ، ومع ذلك يمكنك أيضًا تعيين هذه القيمة إلى ميزة أخرى (على سبيل المثال الجنس في سياق إطار البيانات هذا). إذاslicing_specs
لن يرد أن تدرج جميع الميزات.إذا يتضمن DataFrame بك تسمية أو التنبؤ العمود الذي يختلف من الافتراضي
prediction
أوlabel
، يمكنك تكوينlabel_key
وprediction_key
إلى قيمة جديدة.
إذا
output_path
لن يتم تحديد سيتم إنشاء دليل مؤقت.
# Specify Fairness Indicators in eval_config.
eval_config = text_format.Parse("""
model_specs {
prediction_key: 'dnn_bar_pass_prediction',
label_key: 'pass_bar'
}
metrics_specs {
metrics {class_name: "AUC"}
metrics {
class_name: "FairnessIndicators"
config: '{"thresholds": [0.50, 0.90]}'
}
}
slicing_specs {
feature_keys: 'race1'
}
slicing_specs {}
""", tfma.EvalConfig())
# Run TensorFlow Model Analysis.
eval_result = tfma.analyze_raw_data(
data=_LSAT_DF,
eval_config=eval_config,
output_path=_DATA_ROOT)
WARNING:apache_beam.runners.interactive.interactive_environment:Dependencies required for Interactive Beam PCollection visualization are not available, please use: `pip install apache-beam[interactive]` to install necessary dependencies to enable all data visualization features. WARNING:apache_beam.io.tfrecordio:Couldn't find python-snappy so the implementation of _TFRecordUtil._masked_crc32c is not as fast as it could be. WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow_model_analysis/writers/metrics_plots_and_validations_writer.py:113: tf_record_iterator (from tensorflow.python.lib.io.tf_record) is deprecated and will be removed in a future version. Instructions for updating: Use eager execution and: `tf.data.TFRecordDataset(path)` WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow_model_analysis/writers/metrics_plots_and_validations_writer.py:113: tf_record_iterator (from tensorflow.python.lib.io.tf_record) is deprecated and will be removed in a future version. Instructions for updating: Use eager execution and: `tf.data.TFRecordDataset(path)`
استكشف أداء النموذج باستخدام مؤشرات الإنصاف.
بعد تشغيل مؤشرات الإنصاف ، يمكننا تصور مقاييس مختلفة اخترناها لتحليل أداء نماذجنا. ضمن دراسة الحالة هذه ، قمنا بتضمين مؤشرات الإنصاف واخترنا الجامعة الأمريكية بالقاهرة بشكل تعسفي.
عندما ننظر لأول مرة إلى الجامعة الأمريكية بالقاهرة (AUC) الإجمالية لكل شريحة سباق ، يمكننا أن نرى تباينًا طفيفًا في أداء النموذج ، ولكن لا يوجد شيء ينذر بالخطر.
- آسيا: 0.58
- الأسود: 0.58
- اسباني: 0.58
- الآخر: 0.64
- الأبيض: 0.6
ومع ذلك ، عندما ننظر إلى المعدلات السلبية الخاطئة مقسومة على العرق ، يتنبأ نموذجنا مرة أخرى بشكل غير صحيح باحتمالية تجاوز المستخدم الشريط بمعدلات مختلفة ، وهذه المرة يفعل ذلك كثيرًا.
- آسيا: 0.01
- الأسود: 0.05
- اسباني: 0.02
- الآخر: 0.01
- الأبيض: 0.01
من الملاحظ أن الفرق بين الطلاب البيض والسود هو حوالي 380 ٪ ، مما يعني أن نموذجنا يزيد احتمال توقعه بشكل غير صحيح بمقدار 4 مرات تقريبًا أن الطالب الأسود لن يجتاز الشريط ، مقارنة بالطالب الأبيض. إذا واصلنا هذا الجهد ، يمكن للممارس استخدام هذه النتائج كإشارة إلى أنه يجب عليه قضاء المزيد من الوقت في التأكد من أن نموذجهم يعمل بشكل جيد للأشخاص من جميع الخلفيات.
# Render Fairness Indicators.
tfma.addons.fairness.view.widget_view.render_fairness_indicator(eval_result)
FairnessIndicatorViewer(slicingMetrics=[{'sliceValue': 'Overall', 'slice': 'Overall', 'metrics': {'auc': {'dou…
tfma.EvalResult
و eval_result
الكائن، أصدرت أعلاه في render_fairness_indicator()
، وقد API الخاصة به والتي يمكن استخدامها لقراءة النتائج TFMA في البرامج الخاصة بك.
get_slice_names()
و get_metric_names()
للحصول على الشرائح والمقاييس التي تم تقييمها ، يمكنك استخدام الوظائف المعنية.
pp = pprint.PrettyPrinter()
print("Slices:")
pp.pprint(eval_result.get_slice_names())
print("\nMetrics:")
pp.pprint(eval_result.get_metric_names())
Slices: [(), (('race1', 'white'),), (('race1', 'hisp'),), (('race1', 'asian'),), (('race1', 'black'),), (('race1', 'nan'),), (('race1', 'other'),)] Metrics: ['fairness_indicators_metrics/negative_rate@0.9', 'fairness_indicators_metrics/true_negative_rate@0.5', 'fairness_indicators_metrics/false_positive_rate@0.9', 'fairness_indicators_metrics/false_discovery_rate@0.9', 'fairness_indicators_metrics/false_positive_rate@0.5', 'auc', 'fairness_indicators_metrics/false_discovery_rate@0.5', 'fairness_indicators_metrics/false_omission_rate@0.9', 'fairness_indicators_metrics/false_omission_rate@0.5', 'fairness_indicators_metrics/true_positive_rate@0.5', 'fairness_indicators_metrics/positive_rate@0.9', 'fairness_indicators_metrics/false_negative_rate@0.9', 'fairness_indicators_metrics/negative_rate@0.5', 'fairness_indicators_metrics/true_positive_rate@0.9', 'fairness_indicators_metrics/true_negative_rate@0.9', 'fairness_indicators_metrics/false_negative_rate@0.5', 'fairness_indicators_metrics/positive_rate@0.5']
get_metrics_for_slice()
و get_metrics_for_all_slices()
إذا كنت ترغب في الحصول على مقاييس لشريحة معينة، يمكنك استخدام get_metrics_for_slice()
. تقوم بإرجاع القاموس رسم الخرائط أسماء متري إلى القيم متري .
baseline_slice = ()
black_slice = (('race1', 'black'),)
print("Baseline metric values:")
pp.pprint(eval_result.get_metrics_for_slice(baseline_slice))
print("Black metric values:")
pp.pprint(eval_result.get_metrics_for_slice(black_slice))
Baseline metric values: {'auc': {'doubleValue': 0.6286112666130066}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.052173524948674464}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.0502241746297722}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 4.7085412939071474e-05}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.012524719841793012}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.8159509202453987}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.9486740804106074}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 4.462891060829205e-05}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.014549024858303209}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 0.9999553710893917}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9854509751416968}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.05132591958939264}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 0.9999529145870609}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.987475280158207} } Black metric values: {'auc': {'doubleValue': 0.5779293775558472}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.22189128816083395}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.21048451151707703}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.04880382775119617}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.6071428571428571}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.889261744966443}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.06254653760238273}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9374534623976173}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.11073825503355705}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.9511961722488038} }
إذا كنت ترغب في الحصول على مقاييس لجميع شرائح، get_metrics_for_all_slices()
يعود تعيين القاموس كل شريحة إلى المقابلة get_metrics_for_slices(slice)
.
pp.pprint(eval_result.get_metrics_for_all_slices())
{(): {'auc': {'doubleValue': 0.6286112666130066}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.052173524948674464}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.0502241746297722}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 4.7085412939071474e-05}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.012524719841793012}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.8159509202453987}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.9486740804106074}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 4.462891060829205e-05}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.014549024858303209}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 0.9999553710893917}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9854509751416968}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.05132591958939264}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 0.9999529145870609}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.987475280158207} }, (('race1', 'asian'),): {'auc': {'doubleValue': 0.5817844271659851}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.07803790412486064}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.07674943566591422}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.010882708585247884}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.8181818181818182}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.9714285714285714}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.012263099219620958}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.987736900780379}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.02857142857142857}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.9891172914147521} }, (('race1', 'black'),): {'auc': {'doubleValue': 0.5779293775558472}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.22189128816083395}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.21048451151707703}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.04880382775119617}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.6071428571428571}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.889261744966443}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.06254653760238273}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9374534623976173}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.11073825503355705}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.9511961722488038} }, (('race1', 'hisp'),): {'auc': {'doubleValue': 0.5754180550575256}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.124634858812074}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.12139303482587065}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.017797552836484983}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.7272727272727273}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.953125}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.021421616358325218}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9785783836416748}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.046875}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.982202447163515} }, (('race1', 'nan'),): {'auc': {'doubleValue': 0.7142857313156128}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.125}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.125}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 1.0}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.0}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 1.0} }, (('race1', 'other'),): {'auc': {'doubleValue': 0.6389539241790771}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.10294117647058823}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.09523809523809523}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.01366120218579235}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 'NaN'}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.5555555555555556}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.9047619047619048}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.022058823529411766}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9779411764705882}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.09523809523809523}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.9863387978142076} }, (('race1', 'white'),): {'auc': {'doubleValue': 0.5987964272499084}, 'fairness_indicators_metrics/false_discovery_rate@0.5': {'doubleValue': 0.03360940422121293}, 'fairness_indicators_metrics/false_discovery_rate@0.9': {'doubleValue': 0.03316050982933679}, 'fairness_indicators_metrics/false_negative_rate@0.5': {'doubleValue': 5.52883286338254e-05}, 'fairness_indicators_metrics/false_negative_rate@0.9': {'doubleValue': 0.010228340797257698}, 'fairness_indicators_metrics/false_omission_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_omission_rate@0.9': {'doubleValue': 0.925}, 'fairness_indicators_metrics/false_positive_rate@0.5': {'doubleValue': 1.0}, 'fairness_indicators_metrics/false_positive_rate@0.9': {'doubleValue': 0.9761526232114467}, 'fairness_indicators_metrics/negative_rate@0.5': {'doubleValue': 5.3430220132506944e-05}, 'fairness_indicators_metrics/negative_rate@0.9': {'doubleValue': 0.010686044026501388}, 'fairness_indicators_metrics/positive_rate@0.5': {'doubleValue': 0.9999465697798675}, 'fairness_indicators_metrics/positive_rate@0.9': {'doubleValue': 0.9893139559734986}, 'fairness_indicators_metrics/true_negative_rate@0.5': {'doubleValue': 0.0}, 'fairness_indicators_metrics/true_negative_rate@0.9': {'doubleValue': 0.02384737678855326}, 'fairness_indicators_metrics/true_positive_rate@0.5': {'doubleValue': 0.9999447116713662}, 'fairness_indicators_metrics/true_positive_rate@0.9': {'doubleValue': 0.9897716592027423} } }
استنتاج
في دراسة الحالة هذه ، قمنا باستيراد مجموعة بيانات إلى Pandas DataFrame ثم قمنا بتحليلها باستخدام مؤشرات الإنصاف. يعد فهم نتائج نموذجك والبيانات الأساسية خطوة مهمة في ضمان ألا يعكس نموذجك التحيز الضار. في سياق دراسة الحالة هذه ، قمنا بفحص مجموعة بيانات LSAC وكيف يمكن أن تتأثر التنبؤات من هذه البيانات بسباق الطلاب. تم تقديم مفهوم "ما هو غير عادل وما هو عادل في تخصصات متعددة لأكثر من 50 عامًا ، بما في ذلك التعليم والتوظيف والتعلم الآلي". 1 الإنصاف المؤشر هو أداة للمخاوف الإنصاف مساعدة في تخفيف في جهازك التعلم نموذج.
لمزيد من المعلومات حول استخدام مؤشرات الإنصاف والموارد لمعرفة اهتمامات الإنصاف أكثر وشك ترى هنا .
- هاتشينسون ، ب ، ميتشل ، م. (2018). 50 عامًا من الإنصاف في الاختبار (في الأمم المتحدة): دروس لتعلم الآلة. https://arxiv.org/abs/1811.10104
زائدة
فيما يلي بعض الوظائف للمساعدة في تحويل نماذج ML إلى Pandas DataFrame.
# TensorFlow Estimator to Pandas DataFrame:
# _X_VALUE = # X value of binary estimator.
# _Y_VALUE = # Y value of binary estimator.
# _GROUND_TRUTH_LABEL = # Ground truth value of binary estimator.
def _get_predicted_probabilities(estimator, input_df, get_input_fn):
predictions = estimator.predict(
input_fn=get_input_fn(input_df=input_df, num_epochs=1))
return [prediction['probabilities'][1] for prediction in predictions]
def _get_input_fn_law(input_df, num_epochs, batch_size=None):
return tf.compat.v1.estimator.inputs.pandas_input_fn(
x=input_df[[_X_VALUE, _Y_VALUE]],
y=input_df[_GROUND_TRUTH_LABEL],
num_epochs=num_epochs,
batch_size=batch_size or len(input_df),
shuffle=False)
def estimator_to_dataframe(estimator, input_df, num_keypoints=20):
x = np.linspace(min(input_df[_X_VALUE]), max(input_df[_X_VALUE]), num_keypoints)
y = np.linspace(min(input_df[_Y_VALUE]), max(input_df[_Y_VALUE]), num_keypoints)
x_grid, y_grid = np.meshgrid(x, y)
positions = np.vstack([x_grid.ravel(), y_grid.ravel()])
plot_df = pd.DataFrame(positions.T, columns=[_X_VALUE, _Y_VALUE])
plot_df[_GROUND_TRUTH_LABEL] = np.ones(len(plot_df))
predictions = _get_predicted_probabilities(
estimator=estimator, input_df=plot_df, get_input_fn=_get_input_fn_law)
return pd.DataFrame(
data=np.array(np.reshape(predictions, x_grid.shape)).flatten())