نشكرك على متابعة Google I / O. عرض جميع الجلسات عند الطلب مشاهدة عند الطلب

مؤشرات الإنصاف: التفكير في تقييم الإنصاف

مؤشرات الإنصاف هي أداة مفيدة لتقييم المصنفات الثنائية ومتعددة الفئات من أجل الإنصاف. في النهاية ، نأمل في توسيع هذه الأداة بالشراكة معكم جميعًا لتقييم المزيد من الاعتبارات.

ضع في اعتبارك أن التقييم الكمي ليس سوى جزء واحد من تقييم تجربة مستخدم أوسع. ابدأ بالتفكير في السياقات المختلفة التي يمكن للمستخدم من خلالها تجربة منتجك. من هم أنواع المستخدمين المختلفة التي يُتوقع أن يخدمها منتجك؟ من غيره قد يتأثر بالتجربة؟

عند التفكير في تأثير الذكاء الاصطناعي على الناس ، من المهم أن نتذكر دائمًا أن المجتمعات البشرية معقدة للغاية! إن فهم الأشخاص وهوياتهم الاجتماعية والبنى الاجتماعية والأنظمة الثقافية هي مجالات ضخمة للبحث المفتوح في حد ذاتها. قد يكون من الصعب التغلب على تعقيدات الاختلافات بين الثقافات في جميع أنحاء العالم ، والحصول على موطئ قدم في فهم التأثير المجتمعي. كلما كان ذلك ممكنًا ، يوصى بالتشاور مع خبراء المجال المناسبين ، والذين قد يشملون علماء الاجتماع وعلماء اللغة الاجتماعية والأنثروبولوجيا الثقافية ، وكذلك مع أفراد السكان الذين سيتم نشر التكنولوجيا عليهم.

يمكن استخدام نموذج واحد ، على سبيل المثال ، نموذج السمية الذي نستخدمه في مثال كولاب ، في العديد من السياقات المختلفة. نموذج السمية الذي يتم نشره على موقع ويب لتصفية التعليقات المسيئة ، على سبيل المثال ، هو حالة استخدام مختلفة تمامًا عن النموذج الذي يتم نشره في نموذج واجهة مستخدم ويب حيث يمكن للمستخدمين كتابة جملة ومعرفة الدرجة التي يعطيها النموذج. اعتمادًا على حالة الاستخدام ، وكيفية تجربة المستخدمين للتنبؤ بالنموذج ، سيكون لمنتجك مخاطر وتأثيرات وفرص مختلفة وقد ترغب في تقييم مخاوف الإنصاف المختلفة.

الأسئلة أعلاه هي أساس الاعتبارات الأخلاقية ، بما في ذلك الإنصاف ، التي قد ترغب في وضعها في الاعتبار عند تصميم وتطوير منتجك المستند إلى ML. تحفز هذه الأسئلة أيضًا المقاييس وأي مجموعات المستخدمين يجب أن تستخدم الأداة لتقييمها.

قبل التعمق في مزيد من التفاصيل ، إليك ثلاثة موارد موصى بها للبدء:

  • دليل People + AI لتصميم الذكاء الاصطناعي المرتكز على الإنسان: هذا الدليل هو مصدر رائع للأسئلة والجوانب التي يجب وضعها في الاعتبار عند تصميم منتج قائم على التعلم الآلي. بينما أنشأنا هذا الدليل مع وضع المصممين في الاعتبار ، ستساعد العديد من المبادئ في الإجابة على أسئلة مثل السؤال أعلاه.
  • دروس الإنصاف المستفادة : تناقش هذه المحادثة في Google I / O الدروس التي تعلمناها في هدفنا لبناء وتصميم منتجات شاملة.
  • دورة ML Crash Course: الإنصاف : تحتوي دورة ML Crash Course على 70 دقيقة مخصصة لتحديد وتقييم مخاوف الإنصاف

إذن ، لماذا ننظر إلى الشرائح الفردية؟ التقييم على الشرائح الفردية مهم لأن المقاييس العامة القوية يمكن أن تحجب الأداء الضعيف لمجموعات معينة. وبالمثل ، فإن الأداء الجيد لمقياس معين (الدقة ، AUC) لا يُترجم دائمًا إلى أداء مقبول لمقاييس أخرى (معدل إيجابي خاطئ ، معدل سلبي كاذب) التي لها نفس الأهمية في تقييم الفرصة والأذى للمستخدمين.

ستتناول الأقسام التالية بعض الجوانب التي يجب مراعاتها.

ما هي المجموعات التي يجب أن أقوم بتقسيمها؟

بشكل عام ، من الممارسات الجيدة التقسيم حسب أكبر عدد ممكن من المجموعات التي قد تتأثر بمنتجك ، نظرًا لأنك لا تعرف أبدًا متى قد يختلف الأداء بالنسبة لإحدى المجموعات الأخرى. ومع ذلك ، إذا لم تكن متأكدًا ، ففكر في المستخدمين المختلفين الذين قد يتفاعلون مع منتجك ، وكيف يمكن أن يتأثروا. ضع في اعتبارك ، على وجه الخصوص ، الشرائح المتعلقة بالخصائص الحساسة مثل العرق ، والعرق ، والجنس ، والجنسية ، والدخل ، والتوجه الجنسي ، وحالة الإعاقة.

ماذا لو لم يكن لدي بيانات مصنفة للشرائح التي أرغب في التحقق منها؟

سؤال جيد. نحن نعلم أن العديد من مجموعات البيانات لا تحتوي على تسميات حقيقة أساسية لسمات الهوية الفردية.

إذا وجدت نفسك في هذا الموقف ، فإننا نوصي ببعض الأساليب:

  1. حدد ما إذا كانت لديك سمات قد تمنحك نظرة ثاقبة على الأداء عبر المجموعات. على سبيل المثال ، في حين أن الجغرافيا لا تعادل العرق والعرق ، فقد تساعدك في الكشف عن أي أنماط متباينة في الأداء
  2. حدد ما إذا كانت هناك مجموعات بيانات عامة تمثيلية قد تتناسب جيدًا مع مشكلتك. يمكنك العثور على مجموعة من مجموعات البيانات المتنوعة والشاملة على موقع Google AI ، والتي تشمل Project Respect و Inclusive Images و Open Images Extended وغيرها.
  3. استفد من القواعد أو المصنفات ، عند الاقتضاء ، لتسمية بياناتك بسمات موضوعية على مستوى السطح. على سبيل المثال ، يمكنك تسمية النص فيما إذا كان هناك مصطلح هوية في الجملة أم لا. ضع في اعتبارك أن المصنفات لها تحدياتها الخاصة ، وإذا لم تكن حريصًا ، فقد تقدم طبقة أخرى من التحيز أيضًا. كن واضحًا بشأن ما يصنفه المصنف بالفعل . على سبيل المثال ، المصنف العمري للصور هو في الواقع يصنف العمر المدرك . بالإضافة إلى ذلك ، عندما يكون ذلك ممكنًا ، يمكنك الاستفادة من سمات مستوى السطح التي يمكن تحديدها بشكل موضوعي في البيانات. على سبيل المثال ، لا يُنصح ببناء مصنف للصور للعرق أو الإثنية ، لأن هذه ليست سمات بصرية يمكن تعريفها في صورة ما. من المحتمل أن يلتقط المصنف الوكلاء أو الصور النمطية. بدلاً من ذلك ، قد يكون بناء مصنف للون البشرة طريقة أكثر ملاءمة لتسمية الصورة وتقييمها. أخيرًا ، تأكد من الدقة العالية للمصنفات التي تصف هذه السمات.
  4. ابحث عن المزيد من البيانات التمثيلية المصنفة

تأكد دائمًا من التقييم على مجموعات بيانات متعددة ومتنوعة.

إذا لم تكن بيانات التقييم الخاصة بك ممثلة بشكل كافٍ لقاعدة المستخدمين الخاصة بك ، أو أنواع البيانات التي يُحتمل مواجهتها ، فقد ينتهي بك الأمر بمقاييس عدالة جيدة مضللة. وبالمثل ، لا يضمن الأداء العالي للنموذج في مجموعة بيانات واحدة أداءً عاليًا على مجموعات أخرى.

ضع في اعتبارك أن المجموعات الفرعية ليست دائمًا أفضل طريقة لتصنيف الأفراد.

الأشخاص متعددو الأبعاد وينتمون إلى أكثر من مجموعة واحدة ، حتى ضمن بُعد واحد - ضع في اعتبارك شخصًا متعدد الأعراق أو ينتمي إلى مجموعات عرقية متعددة. أيضًا ، بينما قد تبدو المقاييس الإجمالية لمجموعة عرقية معينة عادلة ، قد تظهر تفاعلات معينة ، مثل العرق والجنس معًا ، تحيزًا غير مقصود. علاوة على ذلك ، فإن العديد من المجموعات الفرعية لها حدود غير واضحة يتم إعادة رسمها باستمرار.

متى قمت باختبار عدد كافٍ من الشرائح ، وكيف أعرف الشرائح التي يجب اختبارها؟

نحن ندرك أن هناك عددًا كبيرًا من المجموعات أو الشرائح التي قد تكون ذات صلة للاختبار ، وعندما يكون ذلك ممكنًا ، نوصي بتقطيع وتقييم مجموعة متنوعة وواسعة من الشرائح ثم الغوص العميق حيث تكتشف فرصًا للتحسين. من المهم أيضًا الإقرار بأنه على الرغم من أنك قد لا ترى مخاوف بشأن الشرائح التي اختبرتها ، فإن هذا لا يعني أن منتجك يعمل مع جميع المستخدمين ، كما أن الحصول على تعليقات واختبارات متنوعة من المستخدمين أمر مهم للتأكد من أنك تقوم باستمرار بتحديد هوية جديدة فرص.

للبدء ، نوصي بالتفكير في حالة الاستخدام الخاصة بك والطرق المختلفة التي قد يتفاعل بها المستخدمون مع منتجك. كيف يمكن أن يكون للمستخدمين المختلفين تجارب مختلفة؟ ماذا يعني ذلك بالنسبة للشرائح التي يجب عليك تقييمها؟ قد يؤدي جمع التعليقات من المستخدمين المتنوعين أيضًا إلى إبراز الشرائح المحتملة لتحديد الأولويات.

ما هي المقاييس التي يجب أن أختارها؟

عند تحديد المقاييس المراد تقييمها لنظامك ، ضع في اعتبارك من سيختبر النموذج الخاص بك ، وكيف سيتم تجربته ، وتأثيرات تلك التجربة.

على سبيل المثال ، كيف يمنح نموذجك الناس مزيدًا من الكرامة أو الاستقلالية ، أو يؤثر بشكل إيجابي على رفاههم العاطفي أو الجسدي أو المالي؟ في المقابل ، كيف يمكن أن تقلل تنبؤات نموذجك من كرامة الناس أو استقلاليتهم ، أو تؤثر سلبًا على رفاههم العاطفي أو الجسدي أو المالي؟

بشكل عام ، نوصي بتقسيم جميع مقاييس الأداء الحالية إلى شرائح كممارسة جيدة. نوصي أيضًا بتقييم مقاييسك عبر عتبات متعددة لفهم كيف يمكن أن تؤثر العتبة على أداء المجموعات المختلفة.

بالإضافة إلى ذلك ، إذا كانت هناك تسمية متوقعة تكون "جيدة" أو "سيئة" بشكل موحد ، فضع في اعتبارك الإبلاغ (لكل مجموعة فرعية) عن المعدل الذي يتم توقع به تلك التسمية. على سبيل المثال ، قد تكون التسمية "جيدة" هي التسمية التي يمنح توقعها الشخص حق الوصول إلى بعض الموارد ، أو يمكنها من تنفيذ بعض الإجراءات.

مقاييس الإنصاف الحاسمة للتصنيف

عند التفكير في نموذج التصنيف ، فكر في تأثيرات الأخطاء (الاختلافات بين تسمية "الحقيقة الأساسية" والتسمية من النموذج). إذا كانت بعض الأخطاء تشكل المزيد من الفرص أو الضرر للمستخدمين ، فتأكد من تقييم معدلات هذه الأخطاء عبر مجموعات من المستخدمين. يتم تحديد معدلات الخطأ هذه أدناه ، في المقاييس التي يدعمها حاليًا الإصدار التجريبي من مؤشرات الإنصاف.

على مدار العام المقبل ، نأمل أن نصدر دراسات حالة لحالات استخدام مختلفة والمقاييس المرتبطة بها حتى نتمكن من إبراز متى تكون المقاييس المختلفة مناسبة بشكل أفضل.

المقاييس المتاحة اليوم في مؤشرات الإنصاف

معدل إيجابي / سعر سلبي

  • التعريف: النسبة المئوية لنقاط البيانات المصنفة على أنها إيجابية أو سلبية ، بغض النظر عن الحقيقة الأساسية
  • يتعلق بـ: التكافؤ الديمغرافي والمساواة في النتائج ، عند تساويها عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث يكون وجود نسب نهائية متساوية من المجموعات أمرًا مهمًا

معدل إيجابي حقيقي / معدل سلبي كاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها إيجابية ، أو النسبة المئوية لنقاط البيانات الإيجابية التي تم تصنيفها بشكل غير صحيح على أنها سلبية
  • يتعلق بـ: تكافؤ الفرص (للفئة الإيجابية) ، عندما تكون متساوية عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث يكون من المهم أن يتم تصنيف نفس النسبة المئوية من المرشحين المؤهلين إيجابيين في كل مجموعة. يوصى بهذا بشكل شائع في حالات تصنيف النتائج الإيجابية ، مثل طلبات القروض أو القبول في المدرسة أو ما إذا كان المحتوى مناسبًا للأطفال

معدل سلبي حقيقي / معدل إيجابي كاذب

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها سلبية ، أو النسبة المئوية لنقاط البيانات السلبية التي تم تصنيفها بشكل غير صحيح على أنها إيجابية
  • يتعلق بـ: تكافؤ الفرص (للفئة السلبية) ، عندما تكون متساوية عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث تكون معدلات الخطأ (أو سوء تصنيف شيء ما على أنها إيجابية) أكثر أهمية من تصنيف الإيجابيات. هذا أكثر شيوعًا في حالات إساءة الاستخدام ، حيث تؤدي الإيجابيات غالبًا إلى إجراءات سلبية. هذه أيضًا مهمة لتقنيات تحليل الوجه مثل اكتشاف الوجه أو سمات الوجه

الدقة والجامعة الأمريكية بالقاهرة

  • يتعلق بـ: التكافؤ التنبئي ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذه المقاييس: الحالات التي تكون فيها دقة المهمة بالغة الأهمية (ليس بالضرورة في اتجاه معين) ، مثل تحديد الوجه أو تجميع الوجوه

معدل الاكتشاف الخاطئ

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل غير صحيح على أنها موجبة من جميع نقاط البيانات المصنفة على أنها إيجابية. هذا أيضًا هو معكوس PPV
  • يتعلق بـ: التكافؤ التنبئي (المعروف أيضًا باسم المعايرة) ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات الإيجابية الصحيحة متساويًا عبر المجموعات الفرعية

معدل الإغفال الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل غير صحيح على أنها سلبية من جميع نقاط البيانات المصنفة على أنها سلبية. هذا أيضًا هو معكوس NPV
  • يتعلق بـ: التكافؤ التنبئي (المعروف أيضًا باسم المعايرة) ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات السلبية الصحيحة متساويًا عبر المجموعات الفرعية

معدل الانقلاب الكلي / معدل انعكاس التنبؤ الإيجابي إلى السلبي / معدل انعكاس التنبؤ السلبي إلى الإيجابي

  • التعريف: احتمال أن يعطي المصنف تنبؤًا مختلفًا إذا تم تغيير سمة الهوية في ميزة معينة.
  • يتعلق بما يلي: الإنصاف في الواقع المقابل
  • وقت استخدام هذا المقياس: عند تحديد ما إذا كان تنبؤ النموذج يتغير عند إزالة السمات الحساسة المشار إليها في المثال أو استبدالها. إذا كان الأمر كذلك ، ففكر في استخدام تقنية إقران السجل المضاد داخل مكتبة Tensorflow Model Remediation.

عدد انعكاسات التوقع / عدد التوقع السلبي إلى التوقع السلبي / عدد انعكاس التوقع السلبي إلى الإيجابي *

  • التعريف: عدد المرات التي يعطي فيها المصنف تنبؤًا مختلفًا إذا تم تغيير مصطلح الهوية في مثال معين.
  • يتعلق بما يلي: الإنصاف في الواقع المقابل
  • وقت استخدام هذا المقياس: عند تحديد ما إذا كان تنبؤ النموذج يتغير عند إزالة السمات الحساسة المشار إليها في المثال أو استبدالها. إذا كان الأمر كذلك ، ففكر في استخدام تقنية إقران السجل المضاد داخل مكتبة Tensorflow Model Remediation.

أمثلة على المقاييس التي يجب تحديدها

  • يمكن أن يؤدي الفشل المنهجي في اكتشاف الوجوه في تطبيق الكاميرا إلى تجربة مستخدم سلبية لمجموعات معينة من المستخدمين. في هذه الحالة ، قد تؤدي السلبيات الخاطئة في نظام اكتشاف الوجه إلى فشل المنتج ، بينما قد تؤدي النتائج الإيجابية الخاطئة (اكتشاف وجه في حالة عدم وجود وجه) إلى إزعاج بسيط للمستخدم. وبالتالي ، فإن تقييم المعدل السلبي الخاطئ وتقليله أمر مهم لحالة الاستخدام هذه.
  • يؤدي وضع علامة غير عادلة على التعليقات النصية من بعض الأشخاص على أنها "بريد عشوائي" أو "سمية عالية" في نظام الاعتدال إلى إسكات أصوات معينة. من ناحية أخرى ، يؤدي المعدل المرتفع للإيجابية الخاطئة إلى رقابة غير عادلة. من ناحية أخرى ، يمكن أن يؤدي المعدل السلبي الخاطئ المرتفع إلى انتشار المحتوى السام من مجموعات معينة ، مما قد يضر بالمستخدم ويشكل ضررًا تمثيليًا لتلك المجموعات. وبالتالي ، فإن كلا المقياسين مهمان في الاعتبار ، بالإضافة إلى المقاييس التي تأخذ في الاعتبار جميع أنواع الأخطاء مثل الدقة أو AUC.

ألا ترى المقاييس التي تبحث عنها؟

اتبع الوثائق هنا لإضافة مقياس مخصص لك.

ملاحظات نهائية

يمكن أن تكون الفجوة في القياس بين مجموعتين علامة على أن نموذجك قد يحتوي على انحرافات غير عادلة . يجب عليك تفسير نتائجك وفقًا لحالة الاستخدام الخاصة بك. ومع ذلك ، فإن أول علامة تدل على أنك تعامل مجموعة واحدة من المستخدمين بشكل غير عادل هي عندما تكون المقاييس بين هذه المجموعة من المستخدمين ومقاييسك بشكل عام مختلفة بشكل كبير. تأكد من حساب فترات الثقة عند النظر في هذه الاختلافات. عندما يكون لديك عدد قليل جدًا من العينات في شريحة معينة ، فقد لا يكون الفرق بين المقاييس دقيقًا.

لا يعني تحقيق المساواة بين المجموعات على مؤشرات الإنصاف أن النموذج عادل. الأنظمة شديدة التعقيد ، وتحقيق المساواة في واحد (أو حتى كل) من المقاييس المقدمة لا يمكن أن يضمن الإنصاف.

يجب إجراء تقييمات الإنصاف خلال عملية التطوير وما بعد الإطلاق (وليس اليوم السابق للإطلاق). تمامًا مثلما يعد تحسين منتجك عملية مستمرة وخاضعة للتعديل بناءً على تعليقات المستخدم والسوق ، فإن جعل منتجك عادلاً ومنصفًا يتطلب اهتمامًا مستمرًا. نظرًا لأن جوانب مختلفة من النموذج تتغير ، مثل بيانات التدريب ، أو المدخلات من النماذج الأخرى ، أو التصميم نفسه ، فمن المرجح أن تتغير مقاييس الإنصاف. لا يكفي "مسح الشريط" مرة واحدة لضمان بقاء جميع المكونات المتفاعلة سليمة بمرور الوقت.

يجب إجراء اختبار الخصومة للأمثلة النادرة والخبيثة. لا يُقصد من تقييمات الإنصاف أن تحل محل اختبار العداء. يعد دفاعًا إضافيًا ضد الأمثلة النادرة والمستهدفة أمرًا بالغ الأهمية لأن هذه الأمثلة ربما لن تظهر في بيانات التدريب أو التقييم.