काउंटरफैक्टुअल लॉगिट पेयरिंग का उपयोग करना

एक बार जब आप यह निर्धारित कर लें कि काउंटरफैक्टुअल लॉगिट पेयरिंग (सीएलपी) आपके उपयोग के मामले में उपयुक्त तकनीक है, तो आप निम्नलिखित कदम उठाकर इसे लागू कर सकते हैं:

  1. मूल और प्रतितथ्यात्मक डेटा के साथ CounterfactualPackedInputs का एक उदाहरण बनाएं
  2. हस्तक्षेप की आवश्यकता है या नहीं यह निर्धारित करने के लिए फ्लिप दर और फ्लिप गिनती को मापें
  3. यदि हस्तक्षेप की आवश्यकता है, तो मूल इनपुट डेटा, प्रतितथ्यात्मक डेटा, मूल मॉडल, और प्रतितथ्यात्मक हानि को प्रतितथ्यात्मक मॉडल में पास करें
  4. फ्लिप दर और फ्लिप गिनती को मापकर सीएलपी के प्रभाव का आकलन करें।

केरस मॉडल पर सीएलपी लागू करने का एक उदाहरण देखने के लिए, केरस ट्यूटोरियल के साथ काउंटरफैक्टुअल लॉगिट पेयरिंग का उपयोग करें देखें।

CounterfactualPackedInputs का एक उदाहरण बनाएं

प्रतितथ्यात्मक डेटासेट बनाने के लिए, उन नियमों और विशेषताओं का निर्धारण करके शुरुआत करें जिनका आप मूल्यांकन करना चाहते हैं, जिन्हें हटाए जाने या प्रतिस्थापित किए जाने पर, आपके मॉडल की भविष्यवाणी बदल सकती है।

एक बार जब आप आकलन करने के लिए नियमों और सुविधाओं को समझ लेते हैं, तो आपको CounterfactualPackedInputs का एक उदाहरण बनाना होगा, जिसमें मूल इनपुट और काउंटरफैक्टुअल डेटा शामिल है। मूल इनपुट वह डेटासेट होना चाहिए जिसका उपयोग आपने अपने केरस मॉडल को प्रशिक्षित करने के लिए किया था। प्रतितथ्यात्मक डेटा में एक original_x मान, एक counterfactual_x मान और एक counterfactual_sample_weight । प्रतितथ्यात्मक मान मूल मान के लगभग समान होना चाहिए, अंतर यह है कि एक या अधिक संवेदनशील विशेषताओं को हटा दिया गया है या प्रतिस्थापित कर दिया गया है। प्रतितथ्यात्मक डेटासेट की गुणवत्ता महत्वपूर्ण है क्योंकि इसका उपयोग मूल मान और प्रतितथ्यात्मक मान के बीच हानि फ़ंक्शन को जोड़ने के लिए किया जाता है ताकि यह सुनिश्चित किया जा सके कि संवेदनशील विशेषता भिन्न होने पर मॉडल की भविष्यवाणी नहीं बदलती है।

इस प्रतितथ्यात्मक डेटासेट को कैसे विकसित किया जाए, इसके विवरण के लिए, एक कस्टम प्रतितथ्यात्मक डेटासेट बनाने पर नोटबुक देखें।

फ्लिप गिनती और फ्लिप दर को मापें

फ्लिप को एक क्लासिफायरियर के रूप में परिभाषित किया गया है जो उदाहरण में संदर्भित संवेदनशील विशेषता में परिवर्तन होने पर एक अलग निर्णय देता है। यह उस स्थिति को पकड़ता है जहां एक क्लासिफायरियर किसी पहचान विशेषता की उपस्थिति, अनुपस्थिति या परिवर्तन में अपनी भविष्यवाणी बदलता है। किसी क्लासिफायरियर के वास्तविक मूल्य (स्कोर) का आकलन करते समय अधिक सतत मीट्रिक का उपयोग किया जाना चाहिए।

फ्लिप गिनती

फ्लिप काउंट मापता है कि किसी दिए गए उदाहरण में पहचान शब्द बदले जाने पर क्लासिफायरियर कितनी बार एक अलग निर्णय देता है।

  • समग्र फ़्लिप गणना : किसी भविष्यवाणी का सकारात्मक से नकारात्मक और इसके विपरीत कुल फ़्लिप।
  • सकारात्मक से नकारात्मक पूर्वानुमान फ़्लिप गणना : फ़्लिप की संख्या जहां पूर्वानुमान लेबल सकारात्मक से नकारात्मक में बदल गया।
  • नकारात्मक से सकारात्मक भविष्यवाणी फ़्लिप गणना : फ़्लिप की संख्या जहां पूर्वानुमान लेबल नकारात्मक से सकारात्मक में बदल गया।

फ्लिप दर

फ्लिप दर इस संभावना को मापती है कि यदि किसी दिए गए उदाहरण में पहचान शब्द बदल दिया गया तो क्लासिफायरियर एक अलग निर्णय देता है।

  • समग्र फ़्लिप दर : उदाहरणों की कुल संख्या पर कुल फ़्लिप गणना
  • सकारात्मक से नकारात्मक भविष्यवाणी फ्लिप दर : प्रतितथ्यात्मक डेटासेट में सकारात्मक उदाहरणों पर सकारात्मक से नकारात्मक फ्लिप गिनती
  • नकारात्मक से सकारात्मक भविष्यवाणी फ्लिप दर : प्रतितथ्यात्मक डेटासेट में नकारात्मक उदाहरणों पर नकारात्मक से सकारात्मक फ्लिप गिनती

निष्पक्षता संकेतक के साथ फ्लिप दर और फ्लिप गिनती की गणना करने के बाद, आप यह निर्धारित कर सकते हैं कि क्लासिफायरियर डेटा के भीतर एक संवेदनशील विशेषता के आधार पर एक अलग भविष्यवाणी कर रहा है या नहीं। आप यह निर्धारित करने के लिए उदाहरण गणना और आत्मविश्वास अंतराल का उपयोग कर सकते हैं कि क्या आपके पास सीएलपी लागू करने और फ्लिप दर से निष्कर्ष निकालने के लिए पर्याप्त डेटा है। उच्च फ्लिप दर और फ्लिप गिनती इस व्यवहार के घटित होने का संकेत है और इसका उपयोग यह तय करने के लिए किया जा सकता है कि सीएलपी आपके उपयोग के मामले में उपयुक्त है या नहीं। यह निर्णय आपके मॉडल के लिए विशिष्ट है और अंतिम उपयोगकर्ताओं और उस उत्पाद को होने वाले नुकसान जैसे कारकों पर निर्भर करता है जिसमें मॉडल का उपयोग किया जाता है।

अपने केरस मॉडल पर काउंटरफैक्टुअल लॉगिट पेयरिंग लागू करें

सीएलपी का उपयोग करने के लिए, आपको मूल केरस मॉडल की आवश्यकता है जिसे आप सुधारना चाहते हैं, मूल प्रशिक्षण डेटासेट और प्रतितथ्यात्मक डेटासेट। निर्धारित करें कि लॉगिट पेयरिंग के लिए कौन सा counterfactual loss लागू किया जाना चाहिए। इसके साथ, आप अपने मूल मॉडल से वांछित प्रतितथ्यात्मक हानि फ़ंक्शन और हानि फ़ंक्शन के साथ प्रतितथ्यात्मक मॉडल का निर्माण कर सकते हैं।

सीएलपी लागू करने के बाद, आपको इस तकनीक को लागू करने के परिणामस्वरूप होने वाले सुधार को मापने के लिए फ्लिप दर और फ्लिप गिनती, और समग्र सटीकता जैसे अन्य मैट्रिक्स में किसी भी बदलाव की गणना करनी चाहिए।