يوم مجتمع ML هو 9 نوفمبر! الانضمام إلينا للحصول على التحديثات من TensorFlow، JAX، وأكثر معرفة المزيد

مؤشرات الإنصاف: التفكير في تقييم الإنصاف

هل أنت مهتم بالاستفادة من الإصدار التجريبي لمؤشرات الإنصاف؟

قبل أن تفعل ذلك ، نطلب منك قراءة الإرشادات التالية.

مؤشرات الإنصاف هي أداة مفيدة لتقييم المصنفات الثنائية ومتعددة الفئات من أجل الإنصاف. في النهاية ، نأمل في توسيع هذه الأداة بالشراكة معكم جميعًا لتقييم المزيد من الاعتبارات.

ضع في اعتبارك أن التقييم الكمي ليس سوى جزء واحد من تقييم تجربة مستخدم أوسع. ابدأ بالتفكير في السياقات المختلفة التي يمكن للمستخدم من خلالها تجربة منتجك. من هم أنواع المستخدمين المختلفة التي يُتوقع أن يخدمها منتجك؟ من غيره قد يتأثر بالتجربة؟

عند التفكير في تأثير الذكاء الاصطناعي على الناس ، من المهم أن نتذكر دائمًا أن المجتمعات البشرية معقدة للغاية! إن فهم الناس وهوياتهم الاجتماعية وهياكلهم الاجتماعية وأنظمتهم الثقافية هي مجالات ضخمة للبحث المفتوح في حد ذاتها. قد يكون من الصعب التغلب على تعقيدات الاختلافات بين الثقافات في جميع أنحاء العالم ، والحصول على موطئ قدم في فهم التأثير المجتمعي. كلما كان ذلك ممكنًا ، نوصي بالتشاور مع خبراء المجال المناسبين ، والذين قد يشملون علماء الاجتماع وعلماء اللغة الاجتماعية والأنثروبولوجيا الثقافية ، وكذلك مع أفراد السكان الذين سيتم نشر التكنولوجيا عليهم.

يمكن استخدام نموذج واحد ، على سبيل المثال ، نموذج السمية الذي نستخدمه في مثالنا كولاب ، في العديد من السياقات المختلفة. نموذج السمية الذي يتم نشره على موقع ويب لتصفية التعليقات المسيئة ، على سبيل المثال ، هو حالة استخدام مختلفة تمامًا عن النموذج الذي يتم نشره في مثال لواجهة مستخدم الويب حيث يمكن للمستخدمين كتابة جملة ومعرفة الدرجة التي يعطيها النموذج. اعتمادًا على حالة الاستخدام ، وكيفية تجربة المستخدمين للتنبؤ بالنموذج ، سيكون لمنتجك مخاطر وتأثيرات وفرص مختلفة وقد ترغب في تقييم مخاوف الإنصاف المختلفة.

الأسئلة أعلاه هي أساس الاعتبارات الأخلاقية ، بما في ذلك الإنصاف ، التي قد ترغب في أخذها في الاعتبار عند تصميم وتطوير منتجك المستند إلى ML. أيضا تحفيز هذه الأسئلة التي المقاييس والتي مجموعات من المستخدمين يجب عليك استخدام أداة لتقييم.

قبل التعمق في مزيد من التفاصيل ، إليك ثلاثة موارد نوصي بها عند البدء:

  • دليل People + AI لتصميم الذكاء الاصطناعي المرتكز على الإنسان: هذا الدليل هو مصدر رائع للأسئلة والجوانب التي يجب وضعها في الاعتبار عند تصميم منتج قائم على التعلم الآلي. بينما أنشأنا هذا الدليل مع وضع المصممين في الاعتبار ، ستساعد العديد من المبادئ في الإجابة على أسئلة مثل السؤال الذي طرحناه أعلاه.
  • دروس الإنصاف المستفادة : تناقش هذه المحادثة في Google I / O الدروس التي تعلمناها في هدفنا لبناء وتصميم منتجات شاملة.
  • دورة ML Crash Course: الإنصاف : تحتوي دورة ML Crash Course على 70 دقيقة مخصصة لتحديد وتقييم مخاوف الإنصاف

إذن ، لماذا ننظر إلى الشرائح الفردية؟ التقييم على الشرائح الفردية مهم لأن المقاييس العامة القوية يمكن أن تحجب الأداء الضعيف لمجموعات معينة. وبالمثل ، فإن الأداء الجيد لمقياس معين (الدقة ، AUC) لا يُترجم دائمًا إلى أداء مقبول لمقاييس أخرى (معدل إيجابي خاطئ ، معدل سلبي كاذب) التي لها نفس الأهمية في تقييم الفرصة والأذى للمستخدمين.

ستتناول الأقسام التالية بعض الجوانب التي يجب مراعاتها.

ما هي المجموعات التي يجب أن أقوم بتقسيمها؟

بشكل عام ، من الممارسات الجيدة التقسيم حسب أكبر عدد ممكن من المجموعات التي قد تتأثر بمنتجك ، نظرًا لأنك لا تعرف أبدًا متى قد يختلف الأداء بالنسبة لإحدى المجموعات الأخرى. ومع ذلك ، إذا لم تكن متأكدًا ، ففكر في المستخدمين المختلفين الذين قد يتفاعلون مع منتجك ، وكيف يمكن أن يتأثروا. ضع في اعتبارك ، على وجه الخصوص ، الشرائح المتعلقة بالخصائص الحساسة مثل العرق ، والعرق ، والجنس ، والجنسية ، والدخل ، والتوجه الجنسي ، وحالة الإعاقة.

ماذا لو لم يكن لدي بيانات مصنفة للشرائح التي أريد التحقق منها؟

سؤال جيد. نحن نعلم أن العديد من مجموعات البيانات لا تحتوي على تسميات حقيقة أساسية لسمات الهوية الفردية.

إذا وجدت نفسك في هذا الموقف ، فإننا نوصي ببعض الأساليب:

  1. تحديد ما إذا كانت هناك السمات التي لديك والتي قد تعطيك بعض التبصر في الأداء عبر المجموعات. على سبيل المثال ، في حين أن الجغرافيا ليست مكافئة للعرق والعرق ، فقد تساعدك في الكشف عن أي أنماط متباينة في الأداء
  2. حدد ما إذا كانت هناك مجموعات بيانات عامة تمثيلية قد تتناسب جيدًا مع مشكلتك. يمكنك العثور على مجموعة من مجموعات البيانات المتنوعة والشاملة على موقع Google AI ، والتي تشمل Project Respect و Inclusive Images و Open Images Extended وغيرها.
  3. استفد من القواعد أو المصنفات ، عند الاقتضاء ، لتسمية بياناتك بسمات موضوعية على مستوى السطح. على سبيل المثال ، يمكنك تسمية النص فيما إذا كان هناك مصطلح هوية في الجملة أم لا. ضع في اعتبارك أن المصنفات لها تحدياتها الخاصة ، وإذا لم تكن حريصًا ، فقد تقدم طبقة أخرى من التحيز أيضًا. كن واضحًا بشأن ما يصنفه المصنف بالفعل . على سبيل المثال ، المصنف العمري للصور هو في الواقع يصنف العمر المدرك . بالإضافة إلى ذلك ، عندما يكون ذلك ممكنًا ، يمكنك الاستفادة من سمات مستوى السطح التي يمكن تحديدها بشكل موضوعي في البيانات. على سبيل المثال ، لا يُنصح ببناء مصنف للصور للعرق أو الإثنية ، لأن هذه ليست سمات بصرية يمكن تعريفها في صورة ما. من المحتمل أن يلتقط المصنف الوكلاء أو الصور النمطية. بدلاً من ذلك ، قد يكون بناء مصنف للون البشرة طريقة أكثر ملاءمة لتسمية الصورة وتقييمها. أخيرًا ، تأكد من الدقة العالية للمصنفات التي تضع علامات على هذه السمات.
  4. ابحث عن المزيد من البيانات التمثيلية المصنفة

تأكد دائمًا من التقييم على مجموعات بيانات متعددة ومتنوعة.

إذا لم تكن بيانات التقييم الخاصة بك ممثلة بشكل كافٍ لقاعدة المستخدمين الخاصة بك ، أو أنواع البيانات التي يُحتمل مواجهتها ، فقد ينتهي بك الأمر بمقاييس عدالة جيدة مضللة. وبالمثل ، لا يضمن الأداء العالي للنموذج في مجموعة بيانات واحدة أداءً عاليًا على مجموعات أخرى.

ضع في اعتبارك أن المجموعات الفرعية ليست دائمًا أفضل طريقة لتصنيف الأفراد.

الأشخاص متعددو الأبعاد وينتمون إلى أكثر من مجموعة واحدة ، حتى ضمن بُعد واحد - ضع في اعتبارك شخصًا متعدد الأعراق أو ينتمي إلى مجموعات عرقية متعددة. أيضًا ، في حين أن المقاييس الإجمالية لمجموعة عرقية معينة قد تبدو عادلة ، قد تظهر تفاعلات معينة ، مثل العرق والجنس معًا ، تحيزًا غير مقصود. علاوة على ذلك ، فإن العديد من المجموعات الفرعية لها حدود غامضة يتم إعادة رسمها باستمرار.

متى قمت باختبار عدد كافٍ من الشرائح ، وكيف أعرف الشرائح التي يجب اختبارها؟

نحن ندرك أن هناك عددًا كبيرًا من المجموعات أو الشرائح التي قد تكون ذات صلة للاختبار ، وعندما يكون ذلك ممكنًا ، نوصي بتقطيع وتقييم مجموعة متنوعة وواسعة من الشرائح ثم الغوص العميق حيث تكتشف فرصًا للتحسين. من المهم أيضًا أن تقر أنه على الرغم من أنك قد لا ترى مخاوف بشأن الشرائح التي اختبرتها ، فإن هذا لا يعني أن منتجك يعمل مع جميع المستخدمين ، وأن الحصول على تعليقات واختبارات متنوعة من المستخدمين أمر مهم للتأكد من أنك تحدد باستمرار الجديد فرص.

للبدء ، نوصي بالتفكير في حالة الاستخدام الخاصة بك والطرق المختلفة التي قد يتفاعل بها المستخدمون مع منتجك. كيف يمكن أن يكون لدى المستخدمين المختلفين تجارب مختلفة؟ ماذا يعني ذلك بالنسبة للشرائح التي يجب عليك تقييمها؟ قد يسلط جمع التعليقات من المستخدمين المتنوعين الضوء أيضًا على الشرائح المحتملة لتحديد الأولويات.

ما هي المقاييس التي يجب أن أختارها؟

عند تحديد المقاييس المراد تقييمها لنظامك ، ضع في اعتبارك من سيختبر النموذج الخاص بك ، وكيف سيتم تجربته ، وتأثيرات تلك التجربة.

على سبيل المثال ، كيف يمنح نموذجك الناس مزيدًا من الكرامة أو الاستقلالية ، أو يؤثر بشكل إيجابي على رفاههم العاطفي أو الجسدي أو المالي؟ في المقابل ، كيف يمكن أن تقلل توقعات نموذجك من كرامة الناس أو استقلاليتهم ، أو تؤثر سلبًا على رفاههم العاطفي أو الجسدي أو المالي؟

بشكل عام ، نوصي بتقسيم جميع مقاييس الأداء الحالية إلى شرائح كممارسة جيدة. نوصي أيضًا بتقييم مقاييسك عبر عتبات متعددة لفهم كيف يمكن أن تؤثر العتبة على أداء المجموعات المختلفة.

بالإضافة إلى ذلك ، إذا كانت هناك تسمية متوقعة تكون "جيدة" أو "سيئة" بشكل موحد ، ففكر إذن في الإبلاغ (لكل مجموعة فرعية) عن المعدل الذي يتم توقع به تلك التسمية. على سبيل المثال ، قد تكون التسمية "جيدة" هي التسمية التي يمنح توقعها الشخص حق الوصول إلى بعض الموارد ، أو يمكنها من تنفيذ بعض الإجراءات.

مقاييس الإنصاف الحاسمة للتصنيف

عند التفكير في نموذج التصنيف ، فكر في تأثيرات الأخطاء (الاختلافات بين تسمية "الحقيقة الأساسية" والتسمية من النموذج). إذا كانت بعض الأخطاء تشكل المزيد من الفرص أو الضرر للمستخدمين ، فتأكد من تقييم معدلات هذه الأخطاء عبر مجموعات المستخدمين. يتم تحديد معدلات الخطأ هذه أدناه ، في المقاييس التي يدعمها حاليًا الإصدار التجريبي من مؤشرات الإنصاف.

على مدار العام المقبل ، نأمل أن نصدر دراسات حالة لحالات استخدام مختلفة والمقاييس المرتبطة بها حتى نتمكن من إبراز متى تكون المقاييس المختلفة أكثر ملاءمة.

المقاييس المتاحة اليوم في مؤشرات الإنصاف

ملاحظة: هناك العديد من مقاييس الإنصاف القيمة التي لا يتم دعمها حاليًا في الإصدار التجريبي من مؤشرات الإنصاف. مع استمرارنا في إضافة المزيد من المقاييس ، سنستمر في إضافة إرشادات لهذه المقاييس هنا. أدناه ، يمكنك الوصول إلى التعليمات لإضافة المقاييس الخاصة بك إلى مؤشرات الإنصاف. بالإضافة إلى ذلك ، يرجى التواصل مع tfx@tensorflow.org إذا كانت هناك مقاييس ترغب في رؤيتها. نأمل أن نتشارك معك لبناء المزيد من هذا.

معدل إيجابي / سعر سلبي

  • التعريف: النسبة المئوية لنقاط البيانات المصنفة على أنها إيجابية أو سلبية ، بغض النظر عن الحقيقة الأساسية
  • يتعلق بـ: التكافؤ الديمغرافي والمساواة في النتائج ، عند تساويها عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث يكون وجود نسب نهائية متساوية من المجموعات أمرًا مهمًا

معدل إيجابي حقيقي / معدل سلبي كاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها إيجابية ، أو النسبة المئوية لنقاط البيانات الإيجابية التي تم تصنيفها بشكل غير صحيح على أنها سلبية
  • يتعلق بـ: تكافؤ الفرص (للفئة الإيجابية) ، عندما تكون متساوية عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث يكون من المهم أن يتم تصنيف نفس النسبة المئوية من المرشحين المؤهلين إيجابيين في كل مجموعة. يوصى بهذا بشكل شائع في حالات تصنيف النتائج الإيجابية ، مثل طلبات القروض أو القبول في المدرسة أو ما إذا كان المحتوى مناسبًا للأطفال

معدل سلبي حقيقي / معدل إيجابي كاذب

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل صحيح على أنها سلبية ، أو النسبة المئوية لنقاط البيانات السلبية التي تم تصنيفها بشكل غير صحيح على أنها إيجابية
  • يتعلق بـ: تكافؤ الفرص (للفئة السلبية) ، عندما تكون متساوية عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: حالات الاستخدام العادل حيث تكون معدلات الخطأ (أو سوء تصنيف شيء ما على أنها إيجابية) أكثر أهمية من تصنيف الإيجابيات. هذا أكثر شيوعًا في حالات إساءة الاستخدام ، حيث تؤدي الإيجابيات غالبًا إلى إجراءات سلبية. هذه أيضًا مهمة لتقنيات تحليل الوجه مثل اكتشاف الوجه أو سمات الوجه

الدقة والجامعة الأمريكية بالقاهرة

  • يتعلق بـ: التكافؤ التنبئي ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذه المقاييس: الحالات التي تكون فيها دقة المهمة بالغة الأهمية (ليس بالضرورة في اتجاه معين) ، مثل تحديد الوجه أو تجميع الوجوه

معدل الاكتشاف الخاطئ

  • التعريف: النسبة المئوية لنقاط البيانات السلبية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل غير صحيح على أنها موجبة من جميع نقاط البيانات المصنفة على أنها إيجابية. هذا أيضًا هو معكوس PPV
  • يتعلق بـ: التكافؤ التنبئي (المعروف أيضًا باسم المعايرة) ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات الإيجابية الصحيحة متساويًا عبر المجموعات الفرعية

معدل الإغفال الكاذب

  • التعريف: النسبة المئوية لنقاط البيانات الإيجابية (كما هو موضح في الحقيقة الأساسية) التي تم تصنيفها بشكل غير صحيح على أنها سلبية من جميع نقاط البيانات المصنفة على أنها سلبية. هذا أيضًا هو معكوس NPV
  • يتعلق بـ: التكافؤ التنبئي (المعروف أيضًا باسم المعايرة) ، عندما يكون متساويًا عبر المجموعات الفرعية
  • متى تستخدم هذا المقياس: الحالات التي يجب أن يكون فيها جزء التوقعات السلبية الصحيحة متساويًا عبر المجموعات الفرعية

أمثلة على المقاييس التي يجب تحديدها

  • يمكن أن يؤدي الفشل المنهجي في اكتشاف الوجوه في تطبيق الكاميرا إلى تجربة مستخدم سلبية لمجموعات معينة من المستخدمين. في هذه الحالة ، قد تؤدي النتائج السلبية الخاطئة في نظام اكتشاف الوجه إلى فشل المنتج ، بينما قد تؤدي النتائج الإيجابية الخاطئة (اكتشاف وجه في حالة عدم وجود وجه) إلى إزعاج بسيط للمستخدم. وبالتالي ، فإن تقييم المعدل السلبي الخاطئ وتقليله أمر مهم لحالة الاستخدام هذه.
  • يؤدي وضع علامة غير عادلة على التعليقات النصية من بعض الأشخاص على أنها "بريد عشوائي" أو "سمية عالية" في نظام الاعتدال إلى إسكات أصوات معينة. من ناحية أخرى ، يؤدي المعدل الإيجابي الخاطئ المرتفع إلى رقابة غير عادلة. من ناحية أخرى ، يمكن أن يؤدي المعدل السلبي الخاطئ المرتفع إلى انتشار المحتوى السام من مجموعات معينة ، مما قد يضر بالمستخدم ويشكل ضررًا تمثيليًا لتلك المجموعات. وبالتالي ، فإن كلا المقياسين مهمان في الاعتبار ، بالإضافة إلى المقاييس التي تأخذ في الاعتبار جميع أنواع الأخطاء مثل الدقة أو AUC.

ألا ترى المقاييس التي تبحث عنها؟

اتبع الوثائق هنا لإضافة مقياس مخصص لك.

ملاحظات نهائية

يمكن أن تكون الفجوة في القياس بين مجموعتين علامة على أن نموذجك قد يحتوي على انحرافات غير عادلة . يجب عليك تفسير نتائجك وفقًا لحالة الاستخدام الخاصة بك. ومع ذلك ، فإن أول علامة تدل على أنك تعامل مجموعة واحدة من المستخدمين بشكل غير عادل هي عندما تكون المقاييس بين تلك المجموعة من المستخدمين ومقاييسك بشكل عام مختلفة بشكل كبير. تأكد من حساب فترات الثقة عند النظر في هذه الاختلافات. عندما يكون لديك عدد قليل جدًا من العينات في شريحة معينة ، فقد لا يكون الفرق بين المقاييس دقيقًا.

لا يعني تحقيق المساواة بين المجموعات على مؤشرات الإنصاف أن النموذج عادل. الأنظمة شديدة التعقيد ، وتحقيق المساواة في واحد (أو حتى كل) من المقاييس المقدمة لا يمكن أن يضمن الإنصاف.

يجب إجراء تقييمات الإنصاف طوال عملية التطوير وما بعد الإطلاق (وليس اليوم السابق للإطلاق). تمامًا مثلما يعد تحسين منتجك عملية مستمرة وخاضعة للتعديل بناءً على تعليقات المستخدمين والسوق ، فإن جعل منتجك عادلاً ومنصفًا يتطلب اهتمامًا مستمرًا. نظرًا لأن جوانب مختلفة من النموذج تتغير ، مثل بيانات التدريب ، أو المدخلات من النماذج الأخرى ، أو التصميم نفسه ، فمن المرجح أن تتغير مقاييس الإنصاف. لا يكفي "مسح الشريط" مرة واحدة لضمان بقاء جميع المكونات المتفاعلة سليمة بمرور الوقت.

يجب إجراء اختبار الخصومة للأمثلة النادرة والخبيثة. لا يُقصد من تقييمات الإنصاف أن تحل محل اختبار العداء. يعد دفاعًا إضافيًا ضد الأمثلة النادرة والمستهدفة أمرًا بالغ الأهمية لأن هذه الأمثلة ربما لن تظهر في بيانات التدريب أو التقييم.