متطلبات MinDiff

متى يجب علي استخدام MinDiff؟

قم بتطبيق MinDiff في الحالات التي يكون فيها أداء نموذجك جيدًا بشكل عام، ولكنه ينتج عنه أخطاء ضارة بشكل متكرر أكثر في الأمثلة التي تنتمي إلى مجموعة حساسة، وترغب في سد فجوة الأداء. قد تختلف مجموعات الاهتمام الحساسة وفقًا لحالة الاستخدام الخاصة بك، ولكنها غالبًا ما تتضمن فئات محمية، مثل العرق والدين والجنس والتوجه الجنسي والمزيد. في جميع أنحاء هذه الوثيقة، سوف نستخدم عبارة "المجموعة الحساسة" للإشارة إلى أي مجموعة من الأمثلة التي تنتمي إلى فئة محمية.

هناك شرطان أساسيان لاستخدام MinDiff لمعالجة شرائح البيانات ذات الأداء الضعيف:

  • لقد قمت بالفعل بضبط النموذج الخاص بك وتقييمه، وتحديد المقاييس التي تظهر شرائح البيانات ذات الأداء الضعيف. يجب أن يتم ذلك قبل تطبيق علاج النموذج.
  • لديك، أو يمكنك الحصول، على عدد كافٍ من الأمثلة ذات الصلة التي تنتمي إلى المجموعة ذات الأداء الضعيف (مزيد من التفاصيل أدناه).

يعد MinDiff أحد الأساليب العديدة لمعالجة السلوك غير المتكافئ. على وجه الخصوص، قد يكون هذا اختيارًا جيدًا عندما تحاول موازنة الأداء بين المجموعات بشكل مباشر. يمكن استخدام MinDiff جنبًا إلى جنب مع أساليب أخرى، مثل زيادة البيانات وغيرها، مما قد يؤدي إلى نتائج أفضل. ومع ذلك، إذا كنت بحاجة إلى تحديد أولويات التقنية التي تريد الاستثمار فيها، فيجب عليك القيام بذلك وفقًا لاحتياجات منتجك.

عند تطبيق MinDiff، قد ترى انخفاضًا في الأداء أو تحولًا طفيفًا بالنسبة للمجموعات ذات الأداء الأفضل، مع تحسن المجموعات ذات الأداء الضعيف. هذه المقايضة متوقعة، ويجب تقييمها في سياق متطلبات منتجك. من الناحية العملية، رأينا في كثير من الأحيان أن MinDiff لا يتسبب في انخفاض الشرائح ذات الأداء العالي إلى ما دون المستويات المقبولة، ولكن هذا أمر خاص بالتطبيق وقرار يجب أن يتخذه مالك المنتج.

ما هي أنواع النماذج التي يمكنني تطبيق MinDiff عليها؟

لقد ثبت أن MinDiff فعال باستمرار عند تطبيقه على المصنفات الثنائية. من الممكن تكييف الطريقة مع التطبيقات الأخرى، ولكن لم يتم اختبارها بشكل كامل. تم إنجاز بعض الأعمال لإظهار النجاح في مهام التصنيف والتصنيف المتعددة 1 ولكن أي استخدام لـ MinDiff على هذه النماذج أو غيرها من النماذج يجب اعتباره تجريبيًا.

ما هي المقاييس التي يمكنني تطبيق MinDiff؟

قد يكون MinDiff حلاً جيدًا عندما يكون المقياس الذي تحاول معادلته عبر المجموعات هو المعدل الإيجابي الخاطئ (FPR) أو المعدل السلبي الخاطئ (FNR) ، ولكنه قد يعمل مع مقاييس أخرى. كقاعدة عامة، قد يعمل MinDiff عندما يكون المقياس الذي تستهدفه نتيجة للاختلافات في توزيعات الدرجات بين الأمثلة التي تنتمي إلى مجموعة حساسة والأمثلة التي لا تنتمي إلى مجموعة حساسة.

بناء مجموعة بيانات MinDiff الخاصة بك

عند الاستعداد للتدريب باستخدام MinDiff، ستحتاج إلى إعداد ثلاث مجموعات بيانات منفصلة. كما هو الحال مع التدريب المنتظم، يجب أن تكون مجموعات بيانات MinDiff ممثلة للمستخدمين الذين يخدمهم نموذجك. قد يعمل MinDiff بدون هذا ولكن يجب عليك توخي المزيد من الحذر في مثل هذه الحالات.

بافتراض أنك تحاول تحسين FPR الخاص بنموذجك للحصول على أمثلة تنتمي إلى فئة حساسة، فستحتاج إلى:

  1. مجموعة التدريب الأصلية - مجموعة البيانات الأصلية التي تم استخدامها لتدريب النموذج الأساسي الخاص بك
  2. مجموعة MinDiff الحساسة - مجموعة بيانات من الأمثلة التي تنتمي إلى الفئة الحساسة مع تسميات الحقيقة الأساسية السلبية فقط . سيتم استخدام هذه الأمثلة فقط لحساب خسارة MinDiff.
  3. مجموعة MinDiff غير الحساسة - مجموعة بيانات من الأمثلة التي لا تنتمي إلى الفئة الحساسة مع تسميات الحقيقة الأرضية السلبية فقط . سيتم استخدام هذه الأمثلة فقط لحساب خسارة MinDiff.

عند استخدام المكتبة، ستدمج مجموعات البيانات الثلاث هذه في مجموعة بيانات واحدة، والتي ستكون بمثابة مجموعة التدريب الجديدة الخاصة بك.

اختيار الأمثلة لـ MinDiff

قد يبدو من غير البديهي في المثال أعلاه اقتطاع مجموعات من الأمثلة ذات التصنيف السلبي إذا كنت مهتمًا في المقام الأول بالتفاوتات في المعدل الإيجابي الكاذب . ومع ذلك، تذكر أن التنبؤ الإيجابي الخاطئ يأتي من مثال يحمل علامة سلبية تم تصنيفه بشكل غير صحيح على أنه إيجابي.

عند جمع بياناتك لـ MinDiff، يجب عليك اختيار أمثلة يكون فيها التباين في الأداء واضحًا. في مثالنا أعلاه، كان هذا يعني اختيار الأمثلة ذات التصنيف السلبي لمعالجة FPR. لو كنا مهتمين باستهداف FNR، لكنا بحاجة إلى اختيار أمثلة ذات تصنيف إيجابي.

ما مقدار البيانات التي أحتاجها؟

سؤال جيد - يعتمد ذلك على حالة الاستخدام الخاصة بك! استنادًا إلى بنية النموذج وتوزيع البيانات وتكوين MinDiff، يمكن أن تختلف كمية البيانات المطلوبة بشكل كبير. في التطبيقات السابقة، رأينا MinDiff يعمل بشكل جيد مع 5000 مثال في كل مجموعة تدريب MinDiff (المجموعتان 2 و3 في القسم السابق). مع وجود بيانات أقل، هناك خطر متزايد لانخفاض الأداء، ولكن هذا قد يكون ضئيلاً أو مقبولاً ضمن حدود قيود الإنتاج الخاصة بك. بعد تطبيق MinDiff، ستحتاج إلى تقييم نتائجك بدقة لضمان الأداء المقبول. إذا كانت غير موثوقة، أو لا تلبي توقعات الأداء، فقد لا تزال ترغب في التفكير في جمع المزيد من البيانات.

متى يكون MinDiff غير مناسب لي؟

MinDiff هي تقنية قوية يمكنها تقديم نتائج مبهرة، لكن هذا لا يعني أنها الطريقة الصحيحة لجميع المواقف. إن تطبيقه بشكل عشوائي لا يضمن أنك ستحقق الحل المناسب.

بالإضافة إلى المتطلبات التي تمت مناقشتها أعلاه، هناك حالات قد يكون فيها MinDiff ممكنًا من الناحية الفنية، ولكنه غير مناسب. يجب عليك دائمًا تصميم سير عمل ML الخاص بك وفقًا للممارسات الموصى بها المعروفة. على سبيل المثال، إذا كانت مهمة النموذج الخاصة بك غير محددة بشكل جيد، أو كان المنتج يحتاج إلى عدم الوضوح، أو كانت تسميات الأمثلة الخاصة بك منحرفة بشكل مفرط، فيجب عليك إعطاء الأولوية لمعالجة هذه المشكلات. وبالمثل، إذا لم يكن لديك تعريف واضح للمجموعة الحساسة، أو لم تتمكن من تحديد ما إذا كانت الأمثلة تنتمي إلى المجموعة الحساسة بشكل موثوق، فلن تتمكن من تطبيق MinDiff بشكل فعال.

على مستوى أعلى، يجب عليك دائمًا التفكير فيما إذا كان منتجك مناسبًا للاستخدام في تعلم الآلة على الإطلاق. إذا كان الأمر كذلك، ففكر في النواقل المحتملة لضرر المستخدم الذي يسببه. إن السعي وراء التعلم الآلي المسؤول هو جهد متعدد الأوجه يهدف إلى توقع مجموعة واسعة من الأضرار المحتملة؛ ومن الممكن أن يساعد نظام MinDiff في التخفيف من بعض هذه التأثيرات، ولكن كل النتائج تستحق دراسة متأنية.

1 بيوتل أ.، تشين، جي.، دوشي، تي.، تشيان، إتش.، وي، إل.، وو، واي.، هيلدت، إل.، تشاو، زي.، هونغ، إل.، تشي، إي.، جودرو، سي. (2019). العدالة في تصنيف التوصيات من خلال المقارنات الزوجية.