मॉडल सुधार के लिए प्रतितथ्यात्मक लॉगिट पेयरिंग

काउंटरफैक्टुअल लॉगिट पेयरिंग (सीएलपी) टेन्सरफ्लो मॉडल रेमेडिएशन लाइब्रेरी के भीतर एक तकनीक है जो यह सुनिश्चित करना चाहती है कि किसी उदाहरण में संदर्भित संवेदनशील विशेषता को हटाए जाने या प्रतिस्थापित किए जाने पर मॉडल की भविष्यवाणी नहीं बदलती है। उदाहरण के लिए, एक विषाक्तता वर्गीकरणकर्ता में, "मैं एक पुरुष हूं" और "मैं एक समलैंगिक हूं" जैसे उदाहरणों में विषाक्तता की एक अलग भविष्यवाणी नहीं होनी चाहिए।

इस विषय पर गहन चर्चा के लिए, प्रतितथ्यात्मक निष्पक्षता , प्रतिकूल लॉगिट युग्मन और प्रतितथ्यात्मक लॉगिट युग्मन पर शोध देखें।

आपको काउंटरफैक्टुअल लॉगिट पेयरिंग का उपयोग कब करना चाहिए?

सीएलपी उस परिदृश्य को संबोधित करता है जहां किसी फीचर में संदर्भित संवेदनशील विशेषता में बदलाव से भविष्यवाणी बदल जाती है (जब भविष्यवाणी नहीं बदलनी चाहिए थी)। ऐसा करने में, यह प्रश्न का उत्तर देने का प्रयास करता है: क्या यह मॉडल केवल एक पहचान विशेषता की उपस्थिति के आधार पर अपनी भविष्यवाणी को बदलने के लिए अतिसंवेदनशील है? प्रतितथ्यात्मक निष्पक्षता पर विवरण के लिए शोध पत्र देखें।

यह समस्या पर्सपेक्टिव एपीआई में देखी गई थी, जो डेवलपर्स और प्रकाशकों द्वारा संभावित आक्रामक या विषाक्त पाठ के लिए टिप्पणियों की सामग्री का विश्लेषण करने के लिए उपयोग किया जाने वाला एक एमएल टूल है। पर्सपेक्टिव एपीआई टिप्पणी पाठ को इनपुट के रूप में लेता है और टिप्पणी के विषाक्त होने की संभावना के संकेत के रूप में 0 से 1 तक स्कोर देता है। उदाहरण के लिए, "आप एक बेवकूफ हैं" जैसी टिप्पणी को विषाक्तता के लिए 0.8 का संभाव्यता स्कोर प्राप्त हो सकता है, जो दर्शाता है कि यह कितनी संभावना है कि पाठक उस टिप्पणी को विषाक्त समझेगा।

पर्सपेक्टिव एपीआई के प्रारंभिक लॉन्च के बाद, बाहरी उपयोगकर्ताओं ने नस्ल या यौन अभिविन्यास की जानकारी वाले पहचान शब्दों और अनुमानित विषाक्तता स्कोर के बीच एक सकारात्मक सहसंबंध की खोज की। उदाहरण के लिए, वाक्यांश "मैं एक समलैंगिक हूं" को 0.51 का स्कोर मिला, जबकि "मैं एक पुरुष हूं" को 0.2 का कम स्कोर मिला। इस मामले में, पहचान संबंधी शब्दों का उपयोग अपमानजनक रूप से नहीं किया जा रहा था, इसलिए स्कोर में इतना महत्वपूर्ण अंतर नहीं होना चाहिए। पर्सपेक्टिव एपीआई पर अधिक जानकारी के लिए, अनपेक्षित पूर्वाग्रह और पहचान शर्तों पर ब्लॉग पोस्ट देखें।

मैं काउंटरफैक्टुअल लॉगिट पेयरिंग के प्रभाव को कैसे माप सकता हूँ?

यदि आपने अपने मशीन लर्निंग मॉडल का मूल्यांकन किया है और निर्धारित किया है कि विशिष्ट संवेदनशील विशेषताओं में परिवर्तन के कारण भविष्यवाणियों में परिवर्तन हानिकारक होगा, तो आपको इस मुद्दे की व्यापकता को मापना चाहिए। बाइनरी या मल्टी-क्लास क्लासिफायर के मामले में, फ्लिप को एक क्लासिफायर के रूप में परिभाषित किया जाता है जो उदाहरण में संदर्भित संवेदनशील विशेषता में परिवर्तन होने पर एक अलग निर्णय देता है (जैसे कि विषाक्त से गैर-विषाक्त में भविष्यवाणी को बदलना)। फ़्लिप की व्यापकता का आकलन करते समय, आप फ़्लिप गिनती और फ़्लिप दर देख सकते हैं। फ्लिप के कारण उपयोगकर्ता को होने वाली संभावित हानि और फ्लिप होने की आवृत्ति को ध्यान में रखकर, आप यह निर्धारित कर सकते हैं कि क्या यह एक समस्या है जिसे सीएलपी लागू करके संबोधित किया जाना चाहिए। इन मेट्रिक्स के बारे में अधिक जानकारी के लिए, निष्पक्षता संकेतक मार्गदर्शिका देखें।

मैं किस प्रकार के मॉडल पर काउंटरफैक्टुअल लॉगिट पेयरिंग लागू कर सकता हूं?

इस तकनीक का उपयोग विभिन्न प्रकार के डेटा जैसे टेक्स्ट, इमेज और वीडियो के बाइनरी और मल्टी-क्लास क्लासिफायर के साथ किया जा सकता है।

काउंटरफैक्टुअल लॉगिट पेयरिंग मेरे लिए कब सही नहीं है?

सीएलपी सभी स्थितियों के लिए सही तरीका नहीं है। उदाहरण के लिए, यह प्रासंगिक नहीं है यदि किसी पहचान शब्द की उपस्थिति या अनुपस्थिति वैध रूप से क्लासिफायरियर भविष्यवाणी को बदल देती है। यह मामला हो सकता है यदि क्लासिफायरियर का लक्ष्य यह निर्धारित करना है कि सुविधा किसी विशेष पहचान समूह को संदर्भित कर रही है या नहीं। यदि क्लासिफायर परिणाम और पहचान समूह के बीच अनपेक्षित सहसंबंध का उपयोगकर्ता पर कोई नकारात्मक प्रभाव नहीं पड़ता है तो यह विधि भी कम प्रभावशाली है।

सीएलपी यह परीक्षण करने के लिए उपयोगी है कि क्या कोई भाषा मॉडल या विषाक्तता वर्गीकरणकर्ता अपने आउटपुट को अनुचित तरीके से बदल रहा है (उदाहरण के लिए पाठ के एक टुकड़े को विषाक्त के रूप में वर्गीकृत करना) सिर्फ इसलिए कि "काला", "समलैंगिक", "मुस्लिम" जैसे शब्द मौजूद हैं मूलपाठ। सीएलपी का उद्देश्य व्यक्तियों के बारे में भविष्यवाणी करना नहीं है, उदाहरण के लिए किसी व्यक्ति की पहचान में हेरफेर करना। अधिक विस्तृत चर्चा के लिए यह पेपर देखें।

यह ध्यान रखना महत्वपूर्ण है कि सीएलपी रिस्पॉन्सिबल एआई टूलकिट में एक तकनीक है जिसे विशेष रूप से उस स्थिति को संबोधित करने के लिए डिज़ाइन किया गया है जहां सुविधाओं में संदर्भित संवेदनशील विशेषताएं भविष्यवाणी को बदल देती हैं। आपके मॉडल और उपयोग के मामले के आधार पर, यह विचार करना भी महत्वपूर्ण हो सकता है कि क्या ऐतिहासिक रूप से हाशिए पर रहने वाले समूहों के लिए प्रदर्शन अंतराल हैं, विशेष रूप से सीएलपी समूह के प्रदर्शन को प्रभावित कर सकता है। इसका मूल्यांकन निष्पक्षता संकेतकों के साथ किया जा सकता है और इसे मिनडिफ द्वारा संबोधित किया जा सकता है जो कि टेन्सरफ्लो मॉडल रेमेडिएशन लाइब्रेरी में भी है।

आपको यह भी विचार करना चाहिए कि क्या आपका उत्पाद मशीन सीखने के लिए बिल्कुल उपयुक्त है। यदि ऐसा है, तो आपका मशीन लर्निंग वर्कफ़्लो ज्ञात अनुशंसित प्रथाओं जैसे कि एक अच्छी तरह से परिभाषित मॉडल कार्य और स्पष्ट उत्पाद आवश्यकताओं के लिए डिज़ाइन किया जाना चाहिए।

काउंटरफैक्टुअल लॉगिट पेयरिंग कैसे काम करती है?

सीएलपी मूल मॉडल में एक हानि जोड़ता है जो डेटासेट से मूल और प्रतितथ्यात्मक उदाहरण को जोड़कर लॉगिट द्वारा प्रदान किया जाता है। दो मानों के बीच अंतर की गणना करके, आप उन संवेदनशील शब्दों के अंतर को दंडित करते हैं जो आपके क्लासिफायर पूर्वानुमान को बदलने का कारण बन रहे हैं। यह कार्य प्रतिकूल लॉगिट युग्मन और प्रतितथ्यात्मक लॉगिट युग्मन पर शोध पर आधारित था।