การจับคู่ Logit ที่ขัดแย้งกันสำหรับการแก้ไขแบบจำลอง

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

Counterfactual Logit Pairing (CLP) เป็นเทคนิคภายใน TensorFlow Model Remediation Library ที่พยายามทำให้แน่ใจว่าการคาดการณ์ของโมเดลจะไม่เปลี่ยนแปลงเมื่อแอตทริบิวต์ที่ละเอียดอ่อนที่อ้างอิงในตัวอย่างถูกลบหรือแทนที่ ตัวอย่างเช่น ในตัวจำแนกความเป็นพิษ ตัวอย่างเช่น "ฉันเป็นผู้ชาย" และ "ฉันเป็นเลสเบี้ยน" ไม่ควรมีการทำนายความเป็นพิษที่แตกต่างกัน

สำหรับการอภิปรายเชิงลึกในหัวข้อนี้ โปรดดูงานวิจัยเกี่ยวกับ ความเป็นธรรมในการโต้แย้ง การ จับคู่บันทึกที่เป็น ปฏิปักษ์ และ การจับคู่บันทึกเชิงโต้แย้ง

คุณควรใช้ Counterfactual Logit Pairing เมื่อใด

CLP กล่าวถึงสถานการณ์ที่การเปลี่ยนแปลงในแอตทริบิวต์ที่ละเอียดอ่อนที่อ้างอิงในคุณลักษณะหนึ่งเปลี่ยนการคาดคะเน (เมื่อไม่ควรเปลี่ยนการคาดคะเน) ในการทำเช่นนั้น มันพยายามที่จะตอบคำถาม: โมเดลนี้มีความอ่อนไหวต่อการเปลี่ยนแปลงการทำนายโดยอิงจากการมีอยู่ของแอตทริบิวต์เอกลักษณ์หรือไม่? ดูเอกสาร การวิจัย สำหรับรายละเอียดเกี่ยวกับความเป็นธรรมในการต่อต้าน

ปัญหานี้พบได้ใน Perspective API ซึ่งเป็นเครื่องมือ ML ที่นักพัฒนาและผู้เผยแพร่ใช้เพื่อวิเคราะห์เนื้อหาของความคิดเห็นเพื่อหาข้อความที่อาจไม่เหมาะสมหรือ เป็นพิษ Perspective API ใช้ข้อความแสดงความคิดเห็นเป็นข้อมูลป้อนเข้า และส่งกลับคะแนนจาก 0 ถึง 1 เพื่อบ่งชี้ความน่าจะเป็นที่ความคิดเห็นนั้นเป็นพิษ ตัวอย่างเช่น ความคิดเห็นเช่น "คุณเป็นคนงี่เง่า" อาจได้รับคะแนนความน่าจะเป็น 0.8 สำหรับความเป็นพิษ ซึ่งบ่งชี้ว่าผู้อ่านจะรับรู้ว่าความคิดเห็นนั้นเป็นพิษมากน้อยเพียงใด

หลังจากการเปิดตัว Perspective API ครั้งแรก ผู้ใช้ภายนอกได้ค้นพบความสัมพันธ์เชิงบวกระหว่างคำระบุตัวตนที่มีข้อมูลเกี่ยวกับเชื้อชาติหรือรสนิยมทางเพศและคะแนนความเป็นพิษที่คาดการณ์ไว้ ตัวอย่างเช่น วลี "ฉันเป็นเลสเบี้ยน" ได้คะแนน 0.51 ในขณะที่ "ฉันเป็นผู้ชาย" ได้คะแนนต่ำกว่า 0.2 ในกรณีนี้ คำว่าเอกลักษณ์ไม่ได้ถูกใช้อย่างดูถูก ดังนั้นจึงไม่ควรมีความแตกต่างอย่างมีนัยสำคัญในคะแนน สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Perspective API โปรดดูบล็อกโพสต์เกี่ยวกับ อคติและข้อกำหนดเกี่ยวกับข้อมูลประจำตัวที่ไม่ได้ตั้งใจ

ฉันจะวัดผลของ Counterfactual Logit Pairing ได้อย่างไร

หากคุณได้ประเมินโมเดลแมชชีนเลิร์นนิงและพิจารณาว่าการเปลี่ยนแปลงในการคาดการณ์เนื่องจากการเปลี่ยนแปลงในแอตทริบิวต์ที่ละเอียดอ่อนบางรายการอาจเป็นอันตราย คุณควรวัดความชุกของปัญหานี้ ในกรณีของตัวแยกประเภทไบนารีหรือหลายคลาส ฟลิ ถูกกำหนดให้เป็นตัวแยกประเภทที่ให้การตัดสินใจที่แตกต่างกัน (เช่น การเปลี่ยนการทำนายจากพิษเป็นไม่เป็นพิษ) เมื่อแอตทริบิวต์ที่ละเอียดอ่อนที่อ้างอิงในตัวอย่างเปลี่ยนแปลง เมื่อประเมินความชุกของการ พลิก คุณสามารถดู จำนวน พลิกและอัตราการพลิก เมื่อพิจารณาถึงอันตรายที่อาจเกิดขึ้นต่อผู้ใช้ที่เกิดจากการ พลิกกลับ และความถี่ที่เกิดการพลิกกลับ คุณสามารถระบุได้ว่านี่เป็นปัญหาที่ควรแก้ไขโดยใช้ CLP หรือไม่ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวชี้วัดเหล่านี้ โปรดดูที่ คู่มือตัวบ่งชี้ความเป็นธรรม

ฉันสามารถใช้ Counterfactual Logit Pairing กับรุ่นประเภทใดได้บ้าง

เทคนิคนี้สามารถใช้ได้กับตัวแยกประเภทข้อมูลแบบไบนารีและหลายคลาสของข้อมูลประเภทต่างๆ เช่น ข้อความ รูปภาพ และวิดีโอ

เมื่อใดที่ Counterfactual Logit Pairing ไม่เหมาะกับฉัน

CLP ไม่ใช่วิธีการที่เหมาะสมสำหรับทุกสถานการณ์ ตัวอย่างเช่น ไม่เกี่ยวข้องหากมีหรือไม่มีคำระบุตัวตนเปลี่ยนการคาดคะเนตัวแยกประเภทโดยชอบด้วยกฎหมาย อาจเป็นกรณีนี้หากตัวแยกประเภทมีจุดมุ่งหมายเพื่อพิจารณาว่าคุณลักษณะนั้นอ้างอิงถึงกลุ่มเอกลักษณ์เฉพาะหรือไม่ เมธอดนี้ยังส่งผลกระทบน้อยกว่าหากความสัมพันธ์โดยไม่ได้ตั้งใจระหว่างผลลัพธ์ของตัวแยกประเภทและกลุ่มเอกลักษณ์ไม่มีผลกระทบเชิงลบต่อผู้ใช้

CLP มีประโยชน์สำหรับการทดสอบว่าแบบจำลองภาษาหรือตัวแยกประเภทความเป็นพิษกำลังเปลี่ยนผลลัพธ์ในลักษณะที่ไม่เป็นธรรม (เช่น การจัดประเภทข้อความว่าเป็นพิษ) เพียงเพราะคำเช่น “คนผิวดำ” “เกย์” “มุสลิม” มีอยู่ใน ข้อความ. CLP ไม่ได้มีไว้สำหรับการคาดการณ์เกี่ยวกับตัวบุคคล ตัวอย่างเช่น โดยการจัดการเอกลักษณ์ของบุคคล ดู เอกสาร นี้สำหรับการอภิปรายรายละเอียดเพิ่มเติม

สิ่งสำคัญคือต้องจำไว้ว่า CLP เป็นเทคนิคหนึ่งใน Responsible AI Toolkit ที่ออกแบบมาโดยเฉพาะเพื่อจัดการกับสถานการณ์ที่แอตทริบิวต์ที่ละเอียดอ่อนที่อ้างถึงในคุณสมบัติเปลี่ยนแปลงการคาดคะเน ทั้งนี้ขึ้นอยู่กับรุ่นและกรณีการใช้งานของคุณ การพิจารณาว่ายังมีช่องว่างด้านประสิทธิภาพสำหรับกลุ่มชายขอบในอดีตหรือไม่ โดยเฉพาะอย่างยิ่งเนื่องจาก CLP อาจส่งผลต่อประสิทธิภาพของกลุ่ม ทั้งนี้ขึ้นอยู่กับรุ่นและกรณีการใช้งานของคุณ สิ่งนี้สามารถประเมินได้ด้วย ตัวบ่งชี้ความเป็นธรรม และจัดการโดย MinDiff ซึ่งอยู่ในไลบรารีการแก้ไขแบบจำลอง TensorFlow ด้วย

คุณควรพิจารณาด้วยว่าผลิตภัณฑ์ของคุณเหมาะสำหรับการเรียนรู้ของเครื่องหรือไม่ หากเป็นเช่นนั้น เวิร์กโฟลว์แมชชีนเลิร์นนิงของคุณควรได้รับการออกแบบตามแนวทางปฏิบัติที่แนะนำที่เป็นที่รู้จัก เช่น มีงานโมเดลที่กำหนดไว้อย่างดีและความต้องการผลิตภัณฑ์ที่ชัดเจน

Counterfactual Logit Pairing ทำงานอย่างไร

CLP เพิ่มความสูญเสียให้กับโมเดลดั้งเดิมที่มีให้โดย logit จับคู่ตัวอย่างที่เป็นต้นฉบับกับตัวอย่างที่เป็นเท็จจากชุดข้อมูล การคำนวณความแตกต่างระหว่างค่าทั้งสอง คุณจะลงโทษความแตกต่างของคำที่มีความละเอียดอ่อนซึ่งทำให้การคาดการณ์ตัวแยกประเภทของคุณเปลี่ยนแปลงไป งานนี้มีพื้นฐานมาจากการวิจัยเกี่ยวกับการจับคู่ Logit ที่เป็น ปฏิปักษ์และการจับคู่ Logit ที่ ขัดแย้งกัน