مؤشرات الإنصاف: التفكير في تقييم الإنصاف

تعد مؤشرات الإنصاف أداة مفيدة لتقييم المصنفات الثنائية ومتعددة الفئات لتحقيق العدالة. وفي النهاية، نأمل في توسيع نطاق هذه الأداة، بالشراكة معكم جميعًا، لتقييم المزيد من الاعتبارات.

ضع في اعتبارك أن التقييم الكمي ليس سوى جزء واحد من تقييم تجربة المستخدم الأوسع. ابدأ بالتفكير في السياقات المختلفة التي قد يختبر المستخدم من خلالها منتجك. ما هي أنواع المستخدمين المختلفة التي من المتوقع أن يخدمها منتجك؟ من غيرك قد يتأثر بالتجربة؟

عند النظر في تأثير الذكاء الاصطناعي على الناس، من المهم أن نتذكر دائمًا أن المجتمعات البشرية معقدة للغاية! إن فهم الناس وهوياتهم الاجتماعية وهياكلهم الاجتماعية وأنظمتهم الثقافية هي مجالات ضخمة للبحث المفتوح في حد ذاتها. أضف إلى ذلك تعقيدات الاختلافات بين الثقافات حول العالم، وقد يكون الحصول على موطئ قدم في فهم التأثير المجتمعي أمرًا صعبًا. كلما أمكن، يوصى باستشارة خبراء المجال المناسبين، والذين قد يشملون علماء الاجتماع وعلماء اللغة الاجتماعية وعلماء الأنثروبولوجيا الثقافية، وكذلك مع أفراد السكان الذين سيتم نشر التكنولوجيا عليهم.

يمكن استخدام نموذج واحد، على سبيل المثال، نموذج السمية الذي نستخدمه في مثال colab ، في العديد من السياقات المختلفة. نموذج السمية الذي يتم نشره على موقع ويب لتصفية التعليقات المسيئة، على سبيل المثال، هو حالة استخدام مختلفة تمامًا عن النموذج الذي يتم نشره في مثال لواجهة مستخدم الويب حيث يمكن للمستخدمين كتابة جملة ومعرفة النتيجة التي يعطيها النموذج. اعتمادًا على حالة الاستخدام وكيفية تجربة المستخدمين للتنبؤ بالنموذج، سيكون لمنتجك مخاطر وتأثيرات وفرص مختلفة وقد ترغب في تقييم مخاوف مختلفة بشأن العدالة.

الأسئلة المذكورة أعلاه هي أساس الاعتبارات الأخلاقية، بما في ذلك العدالة، التي قد ترغب في أخذها في الاعتبار عند تصميم وتطوير منتجك القائم على التعلم الآلي. تحفز هذه الأسئلة أيضًا المقاييس ومجموعات المستخدمين التي يجب عليك استخدام الأداة لتقييمها.

قبل التعمق أكثر، إليك ثلاثة موارد موصى بها للبدء:

  • دليل People + AI لتصميم الذكاء الاصطناعي الذي يركز على الإنسان: يعد هذا الدليل مصدرًا رائعًا للأسئلة والجوانب التي يجب أخذها في الاعتبار عند تصميم منتج قائم على التعلم الآلي. على الرغم من أننا أنشأنا هذا الدليل مع وضع المصممين في الاعتبار، فإن العديد من المبادئ ستساعد في الإجابة على أسئلة مثل تلك المطروحة أعلاه.
  • الدروس المستفادة من الإنصاف : يناقش هذا الحديث في Google I/O الدروس التي تعلمناها في هدفنا المتمثل في بناء وتصميم منتجات شاملة.
  • الدورة التدريبية المكثفة لتعلم الآلة: العدالة : تحتوي الدورة التدريبية المكثفة لتعلم الآلة على قسم مدته 70 دقيقة مخصص لتحديد وتقييم المخاوف المتعلقة بالعدالة

فلماذا ننظر إلى الشرائح الفردية؟ يعد التقييم على الشرائح الفردية مهمًا لأن المقاييس العامة القوية يمكن أن تحجب الأداء الضعيف لمجموعات معينة. وبالمثل، فإن الأداء الجيد لمقياس معين (الدقة، AUC) لا يُترجم دائمًا إلى أداء مقبول لمقاييس أخرى (معدل إيجابي كاذب، معدل سلبي كاذب) التي لها نفس القدر من الأهمية في تقييم الفرص والضرر للمستخدمين.

ستتناول الأقسام التالية بعض الجوانب التي يجب مراعاتها.

ما هي المجموعات التي يجب أن أقسمها؟

بشكل عام، من الممارسات الجيدة التقسيم إلى أكبر عدد من المجموعات التي قد تتأثر بمنتجك، لأنك لا تعرف أبدًا متى قد يختلف الأداء بالنسبة لأحد المجموعات الأخرى. ومع ذلك، إذا لم تكن متأكدًا، فكر في المستخدمين المختلفين الذين قد يتفاعلون مع منتجك، وكيف يمكن أن يتأثروا. خذ بعين الاعتبار، على وجه الخصوص، الشرائح المتعلقة بالخصائص الحساسة مثل العرق والانتماء العرقي والجنس والجنسية والدخل والتوجه الجنسي وحالة الإعاقة.

ماذا لو لم يكن لدي بيانات مصنفة للشرائح التي أريد فحصها؟

سؤال جيد. نحن نعلم أن العديد من مجموعات البيانات لا تحتوي على علامات الحقيقة الأساسية لسمات الهوية الفردية.

إذا وجدت نفسك في هذا الموقف، فإننا نوصي ببعض الأساليب:

  1. حدد ما إذا كانت لديك سمات قد تمنحك فكرة عن الأداء عبر المجموعات. على سبيل المثال، رغم أن الجغرافيا لا تعادل العرق والعرق، إلا أنها قد تساعدك في الكشف عن أي أنماط متباينة في الأداء
  2. حدد ما إذا كانت هناك مجموعات بيانات عامة تمثيلية قد تتوافق بشكل جيد مع مشكلتك. يمكنك العثور على مجموعة من مجموعات البيانات المتنوعة والشاملة على موقع Google AI ، والتي تتضمن Project Response و Inclusive Images و Open Images Extended وغيرها.
  3. استفد من القواعد أو المصنفات، عندما يكون ذلك مناسبًا، لتصنيف بياناتك باستخدام سمات موضوعية على مستوى السطح. على سبيل المثال، يمكنك تصنيف النص لمعرفة ما إذا كان هناك مصطلح هوية في الجملة أم لا. ضع في اعتبارك أن أدوات التصنيف لديها تحدياتها الخاصة، وإذا لم تكن حذرًا، فقد تقدم طبقة أخرى من التحيز أيضًا. كن واضحًا بشأن ما يصنفه مصنفك بالفعل . على سبيل المثال، مصنف العمر على الصور هو في الواقع تصنيف العمر المتصور . بالإضافة إلى ذلك، عندما يكون ذلك ممكنًا، الاستفادة من سمات مستوى السطح التي يمكن تحديدها بشكل موضوعي في البيانات. على سبيل المثال، ليس من المستحسن إنشاء مصنف صور للعرق أو الإثنية، لأن هذه ليست سمات بصرية يمكن تعريفها في الصورة. من المحتمل أن يلتقط المصنف الوكلاء أو الصور النمطية. وبدلاً من ذلك، قد يكون إنشاء مصنف للون البشرة طريقة أكثر ملاءمة لتسمية الصورة وتقييمها. وأخيرًا، تأكد من الدقة العالية للمصنفات التي تحدد هذه السمات.
  4. ابحث عن المزيد من البيانات التمثيلية التي تم تصنيفها

تأكد دائمًا من التقييم على مجموعات بيانات متعددة ومتنوعة.

إذا كانت بيانات التقييم الخاصة بك لا تمثل بشكل كافٍ قاعدة المستخدمين لديك، أو أنواع البيانات التي من المحتمل أن تتم مواجهتها، فقد ينتهي بك الأمر إلى الحصول على مقاييس عدالة جيدة ومخادعة. وبالمثل، فإن الأداء العالي للنموذج في مجموعة بيانات واحدة لا يضمن الأداء العالي في المجموعات الأخرى.

ضع في اعتبارك أن المجموعات الفرعية ليست دائمًا أفضل طريقة لتصنيف الأفراد.

فالناس متعددو الأبعاد وينتمون إلى أكثر من مجموعة واحدة، حتى ضمن بُعد واحد - فكر في شخص متعدد الأعراق، أو ينتمي إلى مجموعات عرقية متعددة. أيضًا، في حين أن المقاييس العامة لمجموعة عرقية معينة قد تبدو عادلة، فإن تفاعلات معينة، مثل العرق والجنس معًا قد تظهر تحيزًا غير مقصود. علاوة على ذلك، فإن العديد من المجموعات الفرعية لها حدود غامضة يتم إعادة رسمها باستمرار.

متى قمت باختبار ما يكفي من الشرائح، وكيف أعرف أي الشرائح يجب اختبارها؟

نحن ندرك أن هناك عددًا كبيرًا من المجموعات أو الشرائح التي قد تكون ذات صلة بالاختبار، وعندما يكون ذلك ممكنًا، نوصي بتقطيع وتقييم مجموعة متنوعة وواسعة من الشرائح ثم التعمق في تحديد فرص التحسين. من المهم أيضًا الاعتراف بأنه على الرغم من أنك قد لا ترى مخاوف بشأن الشرائح التي قمت باختبارها، فإن هذا لا يعني أن منتجك يعمل لصالح جميع المستخدمين، كما أن الحصول على تعليقات واختبارات متنوعة من المستخدمين أمر مهم لضمان التعرف باستمرار على المنتجات الجديدة. فرص.

للبدء، نوصي بالتفكير في حالة الاستخدام الخاصة بك والطرق المختلفة التي قد يتفاعل بها المستخدمون مع منتجك. كيف يمكن أن يكون لدى المستخدمين المختلفين تجارب مختلفة؟ ماذا يعني ذلك بالنسبة للشرائح التي يجب عليك تقييمها؟ قد يؤدي جمع التعليقات من مختلف المستخدمين أيضًا إلى تسليط الضوء على الشرائح المحتملة لتحديد أولوياتها.

ما هي المقاييس التي يجب أن أختارها؟

عند تحديد المقاييس التي سيتم تقييمها لنظامك، ضع في اعتبارك من سيختبر نموذجك، وكيف سيتم تجربته، وتأثيرات تلك التجربة.

على سبيل المثال، كيف يمنح نموذجك الناس مزيدًا من الكرامة والاستقلالية، أو يؤثر بشكل إيجابي على رفاهيتهم العاطفية أو الجسدية أو المالية؟ في المقابل، كيف يمكن لتنبؤات النموذج الخاص بك أن تقلل من كرامة الناس أو استقلالهم، أو تؤثر سلبًا على رفاهيتهم العاطفية أو الجسدية أو المالية؟

بشكل عام، نوصي بتقسيم جميع مقاييس الأداء الحالية لديك كممارسة جيدة. ونوصي أيضًا بتقييم مقاييسك عبر حدود متعددة لفهم كيفية تأثير هذا الحد على أداء المجموعات المختلفة.

بالإضافة إلى ذلك، إذا كانت هناك تسمية متوقعة تكون "جيدة" أو "سيئة" بشكل موحد، ففكر في الإبلاغ (لكل مجموعة فرعية) عن المعدل الذي تم به التنبؤ بهذه التسمية. على سبيل المثال، ستكون التسمية "جيدة" عبارة عن تسمية يمنح توقعها الشخص إمكانية الوصول إلى بعض الموارد، أو تمكنه من تنفيذ بعض الإجراءات.

مقاييس العدالة الحرجة للتصنيف

عند التفكير في نموذج التصنيف، فكر في تأثيرات الأخطاء (الاختلافات بين تسمية "الحقيقة الأساسية" الفعلية والتسمية من النموذج). إذا كانت بعض الأخطاء قد تشكل فرصة أو ضررًا أكبر للمستخدمين، فتأكد من تقييم معدلات هذه الأخطاء عبر مجموعات المستخدمين. يتم تحديد معدلات الخطأ هذه أدناه، في المقاييس التي يدعمها الإصدار التجريبي لمؤشرات العدالة حاليًا.

على مدار العام المقبل، نأمل في إصدار دراسات حالة لحالات الاستخدام المختلفة والمقاييس المرتبطة بها حتى نتمكن من تسليط الضوء بشكل أفضل على الحالات التي قد تكون فيها المقاييس المختلفة أكثر ملاءمة.

المقاييس المتاحة اليوم في مؤشرات العدالة

معدل إيجابي / معدل سلبي

  • التعريف: النسبة المئوية لنقاط البيانات التي يتم تصنيفها على أنها إيجابية أو سلبية، بغض النظر عن الحقيقة الأرضية
  • يتعلق بـ: التكافؤ الديموغرافي والمساواة في النتائج، عند تساويهما بين المجموعات الفرعية
  • متى يتم استخدام هذا المقياس: حالات الاستخدام العادل حيث يكون وجود نسب نهائية متساوية للمجموعات أمرًا مهمًا

المعدل الإيجابي الحقيقي / المعدل السلبي الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها إيجابية، أو النسبة المئوية لنقاط البيانات الإيجابية التي تم تصنيفها بشكل غير صحيح على أنها سلبية
  • يتعلق بـ: تكافؤ الفرص (للفئة الإيجابية)، عند التساوي بين المجموعات الفرعية
  • متى يتم استخدام هذا المقياس: حالات الاستخدام العادل حيث يكون من المهم أن يتم تصنيف نفس النسبة المئوية من المرشحين المؤهلين بشكل إيجابي في كل مجموعة. يوصى بهذا بشكل شائع في حالات تصنيف النتائج الإيجابية، مثل طلبات القروض، أو القبول في المدارس، أو ما إذا كان المحتوى مناسبًا للأطفال

المعدل السلبي الحقيقي / المعدل الإيجابي الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها سلبية، أو النسبة المئوية لنقاط البيانات السلبية التي تم تصنيفها بشكل غير صحيح على أنها إيجابية
  • يتعلق بـ: تكافؤ الفرص (للفئة السلبية)، عند التساوي بين المجموعات الفرعية
  • متى يتم استخدام هذا المقياس: حالات الاستخدام العادل حيث تكون معدلات الخطأ (أو التصنيف الخاطئ لشيء ما على أنه إيجابي) أكثر إثارة للقلق من تصنيف الإيجابيات. وهذا أكثر شيوعًا في حالات إساءة الاستخدام، حيث غالبًا ما تؤدي الإيجابيات إلى أفعال سلبية. وهذه أيضًا مهمة لتقنيات تحليل الوجه مثل اكتشاف الوجه أو سمات الوجه

الدقة والجامعة الأمريكية بالقاهرة

  • يتعلق بـ: التكافؤ التنبؤي، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى يتم استخدام هذه المقاييس: الحالات التي تكون فيها دقة المهمة أكثر أهمية (ليس بالضرورة في اتجاه معين)، مثل تحديد الوجه أو تجميع الوجوه

معدل الاكتشاف الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأرضية) التي تم تصنيفها بشكل غير صحيح على أنها إيجابية من بين جميع نقاط البيانات المصنفة على أنها إيجابية. وهذا أيضًا عكس PPV
  • يتعلق بـ: التكافؤ التنبؤي (المعروف أيضًا باسم المعايرة)، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى يتم استخدام هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات الإيجابية الصحيحة متساويًا عبر المجموعات الفرعية

معدل الإغفال الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأرضية) التي تم تصنيفها بشكل غير صحيح على أنها سلبية من بين جميع نقاط البيانات المصنفة على أنها سلبية. وهذا أيضًا هو عكس NPV
  • يتعلق بـ: التكافؤ التنبؤي (المعروف أيضًا باسم المعايرة)، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى يتم استخدام هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات السلبية الصحيحة متساويًا عبر المجموعات الفرعية

معدل التقلب الإجمالي / معدل التقلب للتنبؤ الإيجابي إلى السلبي / معدل التقلب للتنبؤ السلبي إلى الإيجابي

  • التعريف: احتمال أن يعطي المصنف تنبؤًا مختلفًا إذا تم تغيير سمة الهوية في ميزة معينة.
  • يتعلق بـ: العدالة المغايرة
  • متى يتم استخدام هذا المقياس: عند تحديد ما إذا كان تنبؤ النموذج سيتغير عند إزالة السمات الحساسة المشار إليها في المثال أو استبدالها. إذا كان الأمر كذلك، فكر في استخدام تقنية Counterfactual Logit Pairing داخل مكتبة Tensorflow Model Remediation.

عدد الانعكاسات / التوقع الإيجابي إلى السلبي عدد الانعكاسات / التوقع السلبي إلى الإيجابي عدد التقلبات *

  • التعريف: عدد المرات التي يقدم فيها المصنف تنبؤًا مختلفًا إذا تم تغيير مصطلح الهوية في مثال معين.
  • يتعلق بـ: العدالة المغايرة
  • متى يتم استخدام هذا المقياس: عند تحديد ما إذا كان تنبؤ النموذج سيتغير عند إزالة السمات الحساسة المشار إليها في المثال أو استبدالها. إذا كان الأمر كذلك، فكر في استخدام تقنية Counterfactual Logit Pairing داخل مكتبة Tensorflow Model Remediation.

أمثلة على المقاييس التي يجب تحديدها

  • يمكن أن يؤدي الفشل المنهجي في اكتشاف الوجوه في تطبيق الكاميرا إلى تجربة مستخدم سلبية لمجموعات معينة من المستخدمين. في هذه الحالة، قد تؤدي النتائج السلبية الكاذبة في نظام اكتشاف الوجه إلى فشل المنتج، في حين أن النتيجة الإيجابية الكاذبة (اكتشاف وجه في حالة عدم وجوده) قد تشكل إزعاجًا طفيفًا للمستخدم. وبالتالي، يعد تقييم المعدل السلبي الكاذب وتقليله أمرًا مهمًا لحالة الاستخدام هذه.
  • يؤدي وضع علامة غير عادلة على التعليقات النصية من بعض الأشخاص على أنها "بريد عشوائي" أو "عالية السمية" في نظام الإشراف إلى إسكات أصوات معينة. فمن ناحية، يؤدي المعدل الإيجابي الكاذب المرتفع إلى رقابة غير عادلة. ومن ناحية أخرى، يمكن أن يؤدي المعدل السلبي الكاذب المرتفع إلى انتشار محتوى سام من مجموعات معينة، مما قد يضر المستخدم ويشكل ضررًا تمثيليًا لتلك المجموعات. وبالتالي، من المهم أخذ كلا المقياسين في الاعتبار، بالإضافة إلى المقاييس التي تأخذ في الاعتبار جميع أنواع الأخطاء مثل الدقة أو المساحة تحت المنحنى (AUC).

ألا ترى المقاييس التي تبحث عنها؟

اتبع الوثائق هنا لإضافة المقياس المخصص الخاص بك.

الملاحظات النهائية

يمكن أن تكون الفجوة في المقياس بين مجموعتين علامة على أن النموذج الخاص بك قد يحتوي على انحرافات غير عادلة . يجب عليك تفسير نتائجك وفقًا لحالة الاستخدام الخاصة بك. ومع ذلك، فإن العلامة الأولى التي تشير إلى أنك قد تعامل مجموعة واحدة من المستخدمين بشكل غير عادل هي عندما تكون المقاييس بين تلك المجموعة من المستخدمين وبينك بشكل عام مختلفة بشكل كبير. تأكد من مراعاة فترات الثقة عند النظر في هذه الاختلافات. عندما يكون لديك عدد قليل جدًا من العينات في شريحة معينة، فقد لا يكون الفرق بين المقاييس دقيقًا.

إن تحقيق المساواة بين المجموعات على مؤشرات العدالة لا يعني أن النموذج عادل. الأنظمة معقدة للغاية، وتحقيق المساواة في واحد (أو حتى كل) من المقاييس المتوفرة لا يمكن أن يضمن العدالة.

يجب إجراء تقييمات العدالة طوال عملية التطوير وبعد الإطلاق (وليس في اليوم السابق للإطلاق). تمامًا كما أن تحسين منتجك هو عملية مستمرة وتخضع للتعديل بناءً على تعليقات المستخدم والسوق، فإن جعل منتجك عادلاً ومنصفًا يتطلب اهتمامًا مستمرًا. ومع تغير جوانب مختلفة من النموذج، مثل بيانات التدريب، أو المدخلات من النماذج الأخرى، أو التصميم نفسه، فمن المرجح أن تتغير مقاييس العدالة. "مسح الشريط" مرة واحدة لا يكفي لضمان بقاء جميع المكونات المتفاعلة سليمة مع مرور الوقت.

يجب إجراء اختبار الخصومة للأمثلة الخبيثة النادرة. ليس المقصود من تقييمات العدالة أن تحل محل اختبار الخصومة. يعد الدفاع الإضافي ضد الأمثلة النادرة والمستهدفة أمرًا بالغ الأهمية لأن هذه الأمثلة ربما لن تظهر في بيانات التدريب أو التقييم.