निष्पक्षता संकेतक: निष्पक्षता मूल्यांकन के बारे में सोचना

संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

निष्पक्षता संकेतक निष्पक्षता के लिए बाइनरी और मल्टी-क्लास क्लासिफायर का मूल्यांकन करने के लिए एक उपयोगी उपकरण है। आखिरकार, हम आप सभी के साथ साझेदारी में इस टूल का विस्तार करने की उम्मीद करते हैं, ताकि और भी अधिक विचारों का मूल्यांकन किया जा सके।

ध्यान रखें कि मात्रात्मक मूल्यांकन व्यापक उपयोगकर्ता अनुभव के मूल्यांकन का केवल एक हिस्सा है। विभिन्न संदर्भों के बारे में सोचकर प्रारंभ करें जिसके माध्यम से एक उपयोगकर्ता आपके उत्पाद का अनुभव कर सकता है। आपके उत्पाद को किन विभिन्न प्रकार के उपयोगकर्ता प्रदान करने की अपेक्षा की जाती है? अनुभव से और कौन प्रभावित हो सकता है?

लोगों पर एआई के प्रभाव पर विचार करते समय, यह हमेशा याद रखना महत्वपूर्ण है कि मानव समाज अत्यंत जटिल हैं! लोगों और उनकी सामाजिक पहचानों, सामाजिक संरचनाओं और सांस्कृतिक प्रणालियों को समझना, प्रत्येक अपने आप में खुले अनुसंधान के विशाल क्षेत्र हैं। दुनिया भर में क्रॉस-सांस्कृतिक मतभेदों की जटिलताओं में फेंको, और सामाजिक प्रभाव को समझने पर भी पैर जमाना चुनौतीपूर्ण हो सकता है। जब भी संभव हो, यह अनुशंसा की जाती है कि आप उपयुक्त डोमेन विशेषज्ञों से परामर्श लें, जिसमें सामाजिक वैज्ञानिक, समाजशास्त्री, और सांस्कृतिक मानवविज्ञानी शामिल हो सकते हैं, साथ ही आबादी के सदस्यों के साथ जिस पर प्रौद्योगिकी तैनात की जाएगी।

एक एकल मॉडल, उदाहरण के लिए, विषाक्तता मॉडल जिसका हम उदाहरण कोलाब में लाभ उठाते हैं, का उपयोग कई अलग-अलग संदर्भों में किया जा सकता है। उदाहरण के लिए, आपत्तिजनक टिप्पणियों को फ़िल्टर करने के लिए वेबसाइट पर तैनात एक विषाक्तता मॉडल, एक उदाहरण वेब UI में परिनियोजित किए जा रहे मॉडल की तुलना में बहुत अलग उपयोग का मामला है, जहां उपयोगकर्ता एक वाक्य में टाइप कर सकते हैं और देख सकते हैं कि मॉडल क्या स्कोर देता है। उपयोग के मामले के आधार पर, और उपयोगकर्ता मॉडल की भविष्यवाणी का अनुभव कैसे करते हैं, आपके उत्पाद के अलग-अलग जोखिम, प्रभाव और अवसर होंगे और आप विभिन्न निष्पक्षता चिंताओं के लिए मूल्यांकन करना चाह सकते हैं।

ऊपर दिए गए प्रश्न इस बात की नींव हैं कि आप अपने एमएल-आधारित उत्पाद को डिजाइन और विकसित करते समय निष्पक्षता सहित किन नैतिक विचारों को ध्यान में रखना चाहते हैं। ये प्रश्न यह भी प्रेरित करते हैं कि मूल्यांकन के लिए आपको कौन से मीट्रिक और उपयोगकर्ताओं के किन समूहों का उपयोग करना चाहिए।

आगे गोता लगाने से पहले, आरंभ करने के लिए यहां तीन अनुशंसित संसाधन दिए गए हैं:

  • मानव-केंद्रित एआई डिज़ाइन के लिए पीपल + एआई गाइडबुक : मशीन-लर्निंग आधारित उत्पाद को डिज़ाइन करते समय प्रश्नों और पहलुओं को ध्यान में रखने के लिए यह गाइडबुक एक महान संसाधन है। जबकि हमने इस गाइडबुक को डिजाइनरों को ध्यान में रखकर बनाया है, कई सिद्धांत ऊपर दिए गए प्रश्नों के उत्तर देने में मदद करेंगे।
  • हमारे निष्पक्षता के सबक सीखे : Google I/O पर यह वार्ता समावेशी उत्पादों को बनाने और डिजाइन करने के अपने लक्ष्य में सीखे गए पाठों पर चर्चा करती है।
  • एमएल क्रैश कोर्स: निष्पक्षता : एमएल क्रैश कोर्स में 70 मिनट का खंड है जो निष्पक्षता की चिंताओं की पहचान और मूल्यांकन के लिए समर्पित है

तो, व्यक्तिगत स्लाइस को क्यों देखें? अलग-अलग स्लाइस पर मूल्यांकन महत्वपूर्ण है क्योंकि मजबूत समग्र मीट्रिक कुछ समूहों के खराब प्रदर्शन को अस्पष्ट कर सकते हैं। इसी तरह, एक निश्चित मीट्रिक (सटीकता, एयूसी) के लिए अच्छा प्रदर्शन हमेशा अन्य मीट्रिक (झूठी सकारात्मक दर, झूठी नकारात्मक दर) के लिए स्वीकार्य प्रदर्शन में अनुवाद नहीं करता है जो उपयोगकर्ताओं के लिए अवसर और नुकसान का आकलन करने में समान रूप से महत्वपूर्ण हैं।

नीचे दिए गए खंड कुछ पहलुओं पर विचार करेंगे।

मुझे किन समूहों द्वारा टुकड़ा करना चाहिए?

सामान्य तौर पर, एक अच्छा अभ्यास यह है कि जितने समूह आपके उत्पाद से प्रभावित हो सकते हैं, उतने समूहों में विभाजित करें, क्योंकि आप कभी नहीं जानते कि प्रदर्शन कब दूसरे के लिए भिन्न हो सकता है। हालांकि, यदि आप सुनिश्चित नहीं हैं, तो उन विभिन्न उपयोगकर्ताओं के बारे में सोचें जो आपके उत्पाद से जुड़े हो सकते हैं, और वे कैसे प्रभावित हो सकते हैं। विशेष रूप से संवेदनशील विशेषताओं जैसे कि नस्ल, जातीयता, लिंग, राष्ट्रीयता, आय, यौन अभिविन्यास और विकलांगता की स्थिति से संबंधित स्लाइस पर विचार करें।

क्या होगा यदि मेरे पास उन स्लाइस के लिए लेबल किए गए डेटा नहीं हैं जिनकी मैं जांच करना चाहता हूं?

अच्छा प्रश्न। हम जानते हैं कि कई डेटासेट में व्यक्तिगत पहचान विशेषताओं के लिए जमीनी सच्चाई के लेबल नहीं होते हैं।

यदि आप खुद को इस स्थिति में पाते हैं, तो हम कुछ तरीकों की सलाह देते हैं:

  1. पहचानें कि क्या आपके पास ऐसी विशेषताएं हैं जो आपको समूहों में प्रदर्शन के बारे में कुछ जानकारी दे सकती हैं। उदाहरण के लिए, भूगोल , जबकि जातीयता और नस्ल के बराबर नहीं है, प्रदर्शन में किसी भी भिन्न पैटर्न को उजागर करने में आपकी सहायता कर सकता है
  2. पहचानें कि क्या प्रतिनिधि सार्वजनिक डेटासेट हैं जो आपकी समस्या के लिए अच्छी तरह से मैप कर सकते हैं। आप Google AI साइट पर विविध और समावेशी डेटासेट की एक श्रृंखला पा सकते हैं, जिसमें प्रोजेक्ट सम्मान , समावेशी छवियां , और विस्तारित खुली छवियां शामिल हैं।
  3. अपने डेटा को वस्तुनिष्ठ सतह-स्तरीय विशेषताओं के साथ लेबल करने के लिए, प्रासंगिक होने पर नियमों या क्लासिफायर का लाभ उठाएं। उदाहरण के लिए, आप टेक्स्ट को लेबल कर सकते हैं कि वाक्य में कोई पहचान शब्द है या नहीं। ध्यान रखें कि क्लासिफायर की अपनी चुनौतियां हैं, और यदि आप सावधान नहीं हैं, तो पूर्वाग्रह की एक और परत भी पेश कर सकते हैं। इस बारे में स्पष्ट रहें कि आपका क्लासिफायरियर वास्तव में क्या वर्गीकृत कर रहा है। उदाहरण के लिए, छवियों पर एक आयु वर्गीकारक वास्तव में कथित आयु का वर्गीकरण है। इसके अतिरिक्त, जब संभव हो, सतह-स्तरीय विशेषताओं का लाभ उठाएं जिन्हें डेटा में वस्तुनिष्ठ रूप से पहचाना जा सकता है। उदाहरण के लिए, नस्ल या जातीयता के लिए एक छवि वर्गीकरणकर्ता बनाने की सलाह नहीं दी जाती है, क्योंकि ये दृश्य लक्षण नहीं हैं जिन्हें एक छवि में परिभाषित किया जा सकता है। एक क्लासिफायर संभवतः परदे के पीछे या रूढ़ियों पर उठाएगा। इसके बजाय, त्वचा की टोन के लिए एक क्लासिफायरियर बनाना एक छवि को लेबल और मूल्यांकन करने का एक अधिक उपयुक्त तरीका हो सकता है। अंत में, ऐसी विशेषताओं को लेबल करने वाले क्लासिफायर के लिए उच्च सटीकता सुनिश्चित करें।
  4. लेबल किए गए अधिक प्रतिनिधि डेटा खोजें

हमेशा कई, विविध डेटासेट पर मूल्यांकन करना सुनिश्चित करें।

यदि आपका मूल्यांकन डेटा आपके उपयोगकर्ता आधार का पर्याप्त रूप से प्रतिनिधित्व नहीं करता है, या डेटा के प्रकार का सामना करने की संभावना है, तो आप भ्रामक रूप से अच्छी निष्पक्षता मीट्रिक के साथ समाप्त हो सकते हैं। इसी तरह, एक डेटासेट पर उच्च मॉडल प्रदर्शन दूसरों पर उच्च प्रदर्शन की गारंटी नहीं देता है।

ध्यान रखें कि उपसमूह हमेशा व्यक्तियों को वर्गीकृत करने का सबसे अच्छा तरीका नहीं होते हैं।

लोग बहुआयामी होते हैं और एक से अधिक समूहों से संबंधित होते हैं, यहां तक ​​कि एक आयाम के भीतर भी - किसी ऐसे व्यक्ति पर विचार करें जो बहुजातीय है, या कई नस्लीय समूहों से संबंधित है। साथ ही, जबकि किसी दिए गए नस्लीय समूह के लिए समग्र मीट्रिक समान दिख सकते हैं, विशेष इंटरैक्शन, जैसे कि नस्ल और लिंग एक साथ, अनपेक्षित पूर्वाग्रह दिखा सकते हैं। इसके अलावा, कई उपसमूहों की अस्पष्ट सीमाएँ होती हैं जिन्हें लगातार फिर से खींचा जा रहा है।

मैंने पर्याप्त स्लाइस का परीक्षण कब किया है, और मुझे कैसे पता चलेगा कि किस स्लाइस का परीक्षण करना है?

हम स्वीकार करते हैं कि बड़ी संख्या में समूह या स्लाइस हैं जो परीक्षण के लिए प्रासंगिक हो सकते हैं, और जब संभव हो, तो हम स्लाइस की एक विविध और विस्तृत श्रृंखला का मूल्यांकन और मूल्यांकन करने की सलाह देते हैं और फिर डीप-डाइविंग करते हैं जहां आपको सुधार के अवसर मिलते हैं। यह स्वीकार करना भी महत्वपूर्ण है कि भले ही आप अपने द्वारा परीक्षण किए गए स्लाइस पर चिंताओं को नहीं देख सकते हैं, इसका मतलब यह नहीं है कि आपका उत्पाद सभी उपयोगकर्ताओं के लिए काम करता है, और विविध उपयोगकर्ता प्रतिक्रिया और परीक्षण प्राप्त करना यह सुनिश्चित करने के लिए महत्वपूर्ण है कि आप लगातार नए की पहचान कर रहे हैं अवसर।

आरंभ करने के लिए, हम अनुशंसा करते हैं कि आप अपने विशेष उपयोग के मामले और उन विभिन्न तरीकों पर विचार करें जिनसे उपयोगकर्ता आपके उत्पाद के साथ जुड़ सकते हैं। अलग-अलग उपयोगकर्ताओं के अलग-अलग अनुभव कैसे हो सकते हैं? स्लाइस के लिए इसका क्या मतलब है जिसका आपको मूल्यांकन करना चाहिए? विविध उपयोगकर्ताओं से प्रतिक्रिया एकत्र करना प्राथमिकता के लिए संभावित स्लाइस को भी उजागर कर सकता है।

मुझे कौन से मीट्रिक चुनना चाहिए?

आपके सिस्टम के लिए मूल्यांकन करने के लिए कौन से मीट्रिक का चयन करते समय, विचार करें कि आपके मॉडल का अनुभव कौन करेगा, इसका अनुभव कैसे होगा, और उस अनुभव के प्रभाव।

उदाहरण के लिए, आपका मॉडल लोगों को अधिक गरिमा या स्वायत्तता कैसे देता है, या उनकी भावनात्मक, शारीरिक या वित्तीय भलाई पर सकारात्मक प्रभाव कैसे डालता है? इसके विपरीत, आपके मॉडल की भविष्यवाणियां कैसे लोगों की गरिमा या स्वायत्तता को कम कर सकती हैं, या उनकी भावनात्मक, शारीरिक या वित्तीय भलाई को नकारात्मक रूप से प्रभावित कर सकती हैं?

सामान्य तौर पर, हम आपके सभी मौजूदा प्रदर्शन मीट्रिक को अच्छे अभ्यास के रूप में काटने की सलाह देते हैं। हम यह समझने के लिए कि थ्रेशोल्ड विभिन्न समूहों के प्रदर्शन को कैसे प्रभावित कर सकता है, हम आपको कई थ्रेशोल्ड में अपनी मीट्रिक का मूल्यांकन करने की भी सलाह देते हैं।

इसके अलावा, यदि कोई अनुमानित लेबल है जो समान रूप से "अच्छा" या "बुरा" है, तो उस दर की रिपोर्टिंग (प्रत्येक उपसमूह के लिए) पर विचार करें जिस पर उस लेबल की भविष्यवाणी की गई है। उदाहरण के लिए, एक "अच्छा" लेबल एक ऐसा लेबल होगा जिसकी भविष्यवाणी किसी व्यक्ति को कुछ संसाधनों तक पहुंच प्रदान करती है, या उन्हें कुछ कार्रवाई करने में सक्षम बनाती है।

वर्गीकरण के लिए महत्वपूर्ण निष्पक्षता मेट्रिक्स

वर्गीकरण मॉडल के बारे में सोचते समय, त्रुटियों के प्रभावों के बारे में सोचें (वास्तविक "जमीनी सच्चाई" लेबल और मॉडल से लेबल के बीच अंतर)। यदि कुछ त्रुटियां आपके उपयोगकर्ताओं को अधिक अवसर या नुकसान पहुंचा सकती हैं, तो सुनिश्चित करें कि आपने उपयोगकर्ताओं के समूहों में इन त्रुटियों की दरों का मूल्यांकन किया है। इन त्रुटि दरों को नीचे परिभाषित किया गया है, वर्तमान में फेयरनेस इंडिकेटर बीटा द्वारा समर्थित मेट्रिक्स में।

अगले वर्ष के दौरान, हम अलग-अलग उपयोग के मामलों और इनसे जुड़े मेट्रिक्स के केस स्टडीज को जारी करने की उम्मीद करते हैं ताकि हम बेहतर ढंग से हाइलाइट कर सकें जब विभिन्न मीट्रिक सबसे उपयुक्त हो सकते हैं।

फेयरनेस इंडिकेटर्स में आज उपलब्ध मेट्रिक्स

सकारात्मक दर / नकारात्मक दर

  • परिभाषा: डेटा बिंदुओं का प्रतिशत जिन्हें सकारात्मक या नकारात्मक के रूप में वर्गीकृत किया गया है, जमीनी सच्चाई से स्वतंत्र
  • संबंधित है: जनसांख्यिकीय समता और परिणामों की समानता, जब उपसमूहों में समान होती है
  • इस मीट्रिक का उपयोग कब करें: निष्पक्षता ऐसे मामलों का उपयोग करती है जहां समान अंतिम प्रतिशत समूहों का होना महत्वपूर्ण है

सही सकारात्मक दर / गलत नकारात्मक दर

  • परिभाषा: सकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें सही ढंग से सकारात्मक के रूप में वर्गीकृत किया गया है, या सकारात्मक डेटा बिंदुओं का प्रतिशत जिन्हें गलत तरीके से नकारात्मक के रूप में वर्गीकृत किया गया है
  • संबंधित: अवसर की समानता (सकारात्मक वर्ग के लिए), जब उपसमूहों में समान हो
  • इस मीट्रिक का उपयोग कब करें: निष्पक्षता उन मामलों का उपयोग करती है जहां यह महत्वपूर्ण है कि समान% योग्य उम्मीदवारों को प्रत्येक समूह में सकारात्मक दर्जा दिया गया हो। यह आमतौर पर सकारात्मक परिणामों को वर्गीकृत करने के मामलों में अनुशंसित किया जाता है, जैसे कि ऋण आवेदन, स्कूल में प्रवेश, या सामग्री बच्चों के अनुकूल है या नहीं

सही नकारात्मक दर / झूठी सकारात्मक दर

  • परिभाषा: नकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें सही ढंग से नकारात्मक के रूप में वर्गीकृत किया गया है, या नकारात्मक डेटा बिंदुओं का प्रतिशत जिन्हें गलत तरीके से सकारात्मक के रूप में वर्गीकृत किया गया है
  • संबंधित है: अवसर की समानता (नकारात्मक वर्ग के लिए), जब उपसमूहों में समान हो
  • इस मीट्रिक का उपयोग कब करें: निष्पक्षता उन मामलों का उपयोग करती है जहां त्रुटि दर (या सकारात्मक के रूप में कुछ गलत वर्गीकृत करना) सकारात्मक को वर्गीकृत करने से अधिक संबंधित हैं। दुर्व्यवहार के मामलों में यह सबसे आम है, जहां सकारात्मक अक्सर नकारात्मक कार्यों की ओर ले जाते हैं। ये फेस डिटेक्शन या फेस एट्रिब्यूट जैसी फेशियल एनालिसिस टेक्नोलॉजीज के लिए भी महत्वपूर्ण हैं

शुद्धता और एयूसी

  • संबंधित: भविष्य कहनेवाला समता, जब उपसमूहों में बराबर होता है
  • इन मेट्रिक्स का उपयोग कब करें: ऐसे मामले जहां कार्य की सटीकता सबसे महत्वपूर्ण है (जरूरी नहीं कि किसी दिशा में हो), जैसे चेहरे की पहचान या चेहरे की क्लस्टरिंग

झूठी खोज दर

  • परिभाषा: नकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें गलत तरीके से सकारात्मक के रूप में वर्गीकृत सभी डेटा बिंदुओं में से सकारात्मक के रूप में वर्गीकृत किया गया है। ये भी है पीपीवी का विलोम
  • संबंधित है: भविष्य कहनेवाला समता (कैलिब्रेशन के रूप में भी जाना जाता है), जब उपसमूहों में बराबर होता है
  • इस मीट्रिक का उपयोग कब करें: ऐसे मामले जहां सही सकारात्मक भविष्यवाणियों का अंश उपसमूहों में बराबर होना चाहिए

झूठी चूक दर

  • परिभाषा: सकारात्मक डेटा बिंदुओं का प्रतिशत (जैसा कि जमीनी सच्चाई में लेबल किया गया है) जिन्हें गलत तरीके से नकारात्मक के रूप में वर्गीकृत सभी डेटा बिंदुओं में से नकारात्मक के रूप में वर्गीकृत किया गया है। यह भी एनपीवी का विलोम है
  • संबंधित है: भविष्य कहनेवाला समता (कैलिब्रेशन के रूप में भी जाना जाता है), जब उपसमूहों में बराबर होता है
  • इस मीट्रिक का उपयोग कब करें: ऐसे मामले जहां सभी उपसमूहों में सही नकारात्मक पूर्वानुमानों का अंश बराबर होना चाहिए

समग्र फ्लिप दर / सकारात्मक से नकारात्मक भविष्यवाणी फ्लिप दर / नकारात्मक से सकारात्मक भविष्यवाणी फ्लिप दर

  • परिभाषा: संभावना है कि क्लासिफायर एक अलग भविष्यवाणी देता है यदि किसी दिए गए फीचर में पहचान विशेषता को बदल दिया गया हो।
  • संबंधित: प्रतितथ्यात्मक निष्पक्षता
  • इस मीट्रिक का उपयोग कब करें: यह निर्धारित करते समय कि उदाहरण में संदर्भित संवेदनशील विशेषताओं को हटाने या बदलने पर मॉडल का पूर्वानुमान बदल जाता है या नहीं। यदि ऐसा होता है, तो Tensorflow Model Remediation library के भीतर काउंटरफैक्टुअल लॉगिट पेयरिंग तकनीक का उपयोग करने पर विचार करें।

फ्लिप काउंट / पॉजिटिव टू नेगेटिव प्रेडिक्शन फ्लिप काउंट / नेगेटिव टू पॉजिटिव प्रेडिक्शन फ्लिप काउंट *

  • परिभाषा: किसी दिए गए उदाहरण में पहचान शब्द को बदलने पर क्लासिफायर एक अलग भविष्यवाणी देता है।
  • संबंधित: प्रतितथ्यात्मक निष्पक्षता
  • इस मीट्रिक का उपयोग कब करें: यह निर्धारित करते समय कि उदाहरण में संदर्भित संवेदनशील विशेषताओं को हटाने या बदलने पर मॉडल का पूर्वानुमान बदल जाता है या नहीं। यदि ऐसा होता है, तो Tensorflow Model Remediation library के भीतर काउंटरफैक्टुअल लॉगिट पेयरिंग तकनीक का उपयोग करने पर विचार करें।

किस मीट्रिक का चयन करना है इसके उदाहरण

  • कैमरा ऐप में चेहरों का पता लगाने में व्यवस्थित रूप से विफल होने से कुछ उपयोगकर्ता समूहों के लिए नकारात्मक उपयोगकर्ता अनुभव हो सकता है। इस मामले में, फेस डिटेक्शन सिस्टम में झूठी नकारात्मकता उत्पाद की विफलता का कारण बन सकती है, जबकि एक झूठी सकारात्मक (एक नहीं होने पर एक चेहरे का पता लगाना) उपयोगकर्ता के लिए थोड़ी परेशानी पैदा कर सकता है। इस प्रकार, इस उपयोग के मामले के लिए झूठी नकारात्मक दर का मूल्यांकन और न्यूनतम करना महत्वपूर्ण है।
  • मॉडरेशन सिस्टम में कुछ लोगों की टेक्स्ट टिप्पणियों को "स्पैम" या "उच्च विषाक्तता" के रूप में अनुचित रूप से चिह्नित करने से कुछ आवाज़ें खामोश हो जाती हैं। एक ओर, एक उच्च झूठी सकारात्मक दर अनुचित सेंसरशिप की ओर ले जाती है। दूसरी ओर, एक उच्च झूठी नकारात्मक दर कुछ समूहों से विषाक्त सामग्री के प्रसार का कारण बन सकती है, जो उपयोगकर्ता को नुकसान पहुंचा सकती है और उन समूहों के लिए एक प्रतिनिधित्वात्मक नुकसान का गठन कर सकती है। इस प्रकार, दोनों मेट्रिक्स पर विचार करना महत्वपूर्ण है, मेट्रिक्स के अलावा जो सभी प्रकार की त्रुटियों जैसे सटीकता या एयूसी को ध्यान में रखते हैं।

आप जो मेट्रिक ढूंढ रहे हैं वह नहीं दिख रहे हैं?

अपना स्वयं का कस्टम मीट्रिक जोड़ने के लिए यहां दस्तावेज़ों का पालन करें।

अंतिम नोट्स

दो समूहों के बीच मीट्रिक में अंतर इस बात का संकेत हो सकता है कि आपके मॉडल में अनुचित विषमताएं हो सकती हैं । आपको अपने उपयोग के मामले के अनुसार अपने परिणामों की व्याख्या करनी चाहिए। हालांकि, पहला संकेत यह हो सकता है कि आप उपयोगकर्ताओं के एक समूह के साथ गलत व्यवहार कर रहे हैं, जब उपयोगकर्ताओं के उस समूह और आपके समग्र के बीच के मीट्रिक काफी भिन्न होते हैं। इन अंतरों को देखते समय विश्वास अंतराल को ध्यान में रखना सुनिश्चित करें। जब आपके पास किसी विशेष स्लाइस में बहुत कम नमूने हों, तो हो सकता है कि मेट्रिक्स के बीच का अंतर सटीक न हो।

निष्पक्षता संकेतकों पर समूहों में समानता प्राप्त करने का मतलब यह नहीं है कि मॉडल निष्पक्ष है। सिस्टम अत्यधिक जटिल हैं, और प्रदान की गई मीट्रिक में से एक (या यहां तक ​​कि सभी) पर समानता प्राप्त करना निष्पक्षता की गारंटी नहीं दे सकता है।

निष्पक्षता मूल्यांकन पूरे विकास प्रक्रिया और लॉन्च के बाद (लॉन्च से एक दिन पहले नहीं) के दौरान चलाया जाना चाहिए। जैसे आपके उत्पाद में सुधार एक सतत प्रक्रिया है और उपयोगकर्ता और बाजार प्रतिक्रिया के आधार पर समायोजन के अधीन है, वैसे ही आपके उत्पाद को निष्पक्ष और न्यायसंगत बनाने के लिए निरंतर ध्यान देने की आवश्यकता है। जैसे-जैसे मॉडल के विभिन्न पहलू बदलते हैं, जैसे प्रशिक्षण डेटा, अन्य मॉडलों से इनपुट, या स्वयं डिज़ाइन, निष्पक्षता मेट्रिक्स बदलने की संभावना है। "बार को साफ़ करना" एक बार यह सुनिश्चित करने के लिए पर्याप्त नहीं है कि सभी इंटरैक्टिंग घटक समय के साथ बरकरार रहे हैं।

दुर्लभ, दुर्भावनापूर्ण उदाहरणों के लिए प्रतिकूल परीक्षण किया जाना चाहिए। निष्पक्षता मूल्यांकन प्रतिकूल परीक्षण को बदलने के लिए नहीं हैं। दुर्लभ, लक्षित उदाहरणों के खिलाफ अतिरिक्त बचाव महत्वपूर्ण है क्योंकि ये उदाहरण शायद प्रशिक्षण या मूल्यांकन डेटा में प्रकट नहीं होंगे।