การจับคู่ Logit ที่ต่อต้านข้อเท็จจริงสำหรับการแก้ไขโมเดล

การจับคู่ Logit ที่ต่อต้านข้อเท็จจริง (CLP) เป็นเทคนิคภายในไลบรารีการแก้ไขโมเดล TensorFlow ที่พยายามให้แน่ใจว่าการคาดการณ์ของแบบจำลองจะไม่เปลี่ยนแปลงเมื่อมีการลบหรือแทนที่แอตทริบิวต์ละเอียดอ่อนที่อ้างอิงในตัวอย่าง ตัวอย่างเช่น ในเครื่องแยกประเภทความเป็นพิษ ตัวอย่าง เช่น "ฉันเป็นผู้ชาย" และ "ฉันเป็นเลสเบี้ยน" ไม่ควรมีการทำนายความเป็นพิษที่แตกต่างกัน

สำหรับการสนทนาเชิงลึกในหัวข้อนี้ โปรดดูงานวิจัยเกี่ยวกับ ความเป็นธรรมต่อข้อเท็จจริง การจับคู่บันทึกที่ขัดแย้ง และ การจับคู่บันทึกที่ขัดแย้งกับข้อเท็จจริง

เมื่อใดที่คุณควรใช้การจับคู่ Logit ที่ต่อต้านข้อเท็จจริง

CLP จัดการกับสถานการณ์ที่การเปลี่ยนแปลงในคุณลักษณะที่ละเอียดอ่อนที่อ้างอิงในคุณสมบัติเปลี่ยนการทำนาย (เมื่อไม่ควรเปลี่ยนการคาดคะเน) ในการทำเช่นนั้น โมเดลนี้พยายามที่จะตอบคำถาม: โมเดลนี้มีความอ่อนไหวต่อการเปลี่ยนแปลงการทำนายโดยขึ้นอยู่กับการมีอยู่ของคุณลักษณะประจำตัวหรือไม่ ดู รายงานการวิจัย เพื่อดูรายละเอียดเกี่ยวกับความเป็นธรรมที่ขัดต่อข้อเท็จจริง

ปัญหานี้พบได้ใน Perspective API ซึ่งเป็นเครื่องมือ ML ที่นักพัฒนาและผู้เผยแพร่ใช้เพื่อวิเคราะห์เนื้อหาของความคิดเห็นเพื่อหาข้อความที่อาจไม่เหมาะสมหรือ น่ารังเกียจ Perspective API รับข้อความความคิดเห็นเป็นอินพุตและส่งกลับคะแนนตั้งแต่ 0 ถึง 1 เพื่อบ่งชี้ความน่าจะเป็นที่ความคิดเห็นนั้นเป็นพิษ ตัวอย่างเช่น ความคิดเห็นเช่น "คุณเป็นคนงี่เง่า" อาจได้รับคะแนนความน่าจะเป็น 0.8 สำหรับความเป็นพิษ ซึ่งบ่งชี้ว่าผู้อ่านจะรับรู้ว่าความคิดเห็นนั้นเป็นพิษมากเพียงใด

หลังจากการเปิดตัว Perspective API ครั้งแรก ผู้ใช้ภายนอกได้ค้นพบความสัมพันธ์เชิงบวกระหว่างคำระบุตัวตนที่มีข้อมูลเกี่ยวกับเชื้อชาติหรือรสนิยมทางเพศ และคะแนนความเป็นพิษที่คาดการณ์ไว้ ตัวอย่างเช่น วลี "ฉันเป็นเลสเบี้ยน" ได้รับคะแนน 0.51 ในขณะที่ "ฉันเป็นผู้ชาย" ได้รับคะแนนต่ำกว่า 0.2 ในกรณีนี้ ไม่ได้ใช้คำระบุตัวตนในเชิงดูหมิ่น ดังนั้นคะแนนจึงไม่ควรมีความแตกต่างที่มีนัยสำคัญเช่นนี้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ Perspective API โปรดดูบล็อกโพสต์เกี่ยวกับ อคติและเงื่อนไขการระบุตัวตนโดยไม่ได้ตั้งใจ

ฉันจะวัดผลกระทบของการจับคู่ Logit ที่ต่อต้านข้อเท็จจริงได้อย่างไร

หากคุณได้ประเมินโมเดลแมชชีนเลิร์นนิงของคุณและพิจารณาว่าการเปลี่ยนแปลงการคาดการณ์เนื่องจากการเปลี่ยนแปลงในแอตทริบิวต์ที่ละเอียดอ่อนที่เฉพาะเจาะจงอาจเป็นอันตราย คุณควรวัดความแพร่หลายของปัญหานี้ ในกรณีของตัวแยกประเภทไบนารีหรือหลายคลาส การพลิก ถูกกำหนดให้เป็นตัวแยกประเภทที่ให้การตัดสินใจที่แตกต่างกัน (เช่น การเปลี่ยนการทำนายจากพิษไปเป็นไม่เป็นพิษ) เมื่อแอตทริบิวต์ละเอียดอ่อนที่อ้างอิงในตัวอย่างเปลี่ยนไป เมื่อประเมินความชุกของ การพลิก คุณสามารถดู จำนวนการพลิก และ อัตราการพลิกได้ เมื่อพิจารณาถึงอันตรายที่อาจเกิดขึ้นกับผู้ใช้ที่เกิดจาก การพลิกกลับ และความถี่ที่เกิดการพลิก คุณสามารถระบุได้ว่านี่เป็นปัญหาที่ควรแก้ไขหรือไม่โดยใช้ CLP หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับเมตริกเหล่านี้ โปรดดู คู่มือตัวบ่งชี้ความเป็นธรรม

ฉันสามารถใช้การจับคู่ Logit ที่ต่อต้านข้อเท็จจริงกับโมเดลประเภทใดได้บ้าง

เทคนิคนี้สามารถใช้ได้กับตัวแยกประเภทไบนารีและหลายคลาสของข้อมูลประเภทต่างๆ เช่น ข้อความ รูปภาพ และวิดีโอ

เมื่อใดที่การจับคู่ Logit ที่ต่อต้านข้อเท็จจริงไม่เหมาะกับฉัน

CLP ไม่ใช่วิธีการที่เหมาะสมสำหรับทุกสถานการณ์ ตัวอย่างเช่น จะไม่เกี่ยวข้องหากการมีอยู่หรือไม่มีคำระบุตัวตนจะทำให้การทำนายตัวแยกประเภทเปลี่ยนแปลงไปอย่างถูกต้องตามกฎหมาย กรณีนี้อาจเกิดขึ้นได้หากตัวแยกประเภทมีจุดมุ่งหมายเพื่อตรวจสอบว่าคุณลักษณะดังกล่าวอ้างอิงถึงกลุ่มข้อมูลเฉพาะเจาะจงหรือไม่ วิธีนี้ยังส่งผลกระทบน้อยลงเช่นกัน หากความสัมพันธ์โดยไม่ได้ตั้งใจระหว่างผลลัพธ์ของตัวแยกประเภทและกลุ่มข้อมูลประจำตัวไม่มีผลกระทบเชิงลบต่อผู้ใช้

CLP มีประโยชน์สำหรับการทดสอบว่าโมเดลภาษาหรือตัวแยกประเภทความเป็นพิษกำลังเปลี่ยนแปลงผลลัพธ์ในลักษณะที่ไม่ยุติธรรมหรือไม่ (เช่น การจัดประเภทข้อความว่าเป็นพิษ) เพียงเพราะมีคำเช่น “คนผิวดำ” “เกย์” “มุสลิม” อยู่ใน ข้อความ. CLP ไม่ได้มีไว้เพื่อการคาดเดาเกี่ยวกับบุคคล เช่น โดยการบิดเบือนตัวตนของบุคคล ดู บทความ นี้สำหรับการอภิปรายโดยละเอียดเพิ่มเติม

สิ่งสำคัญคือต้องจำไว้ว่า CLP เป็นเทคนิคหนึ่งใน ชุดเครื่องมือ AI ที่มีความรับผิดชอบ ซึ่งได้รับการออกแบบมาโดยเฉพาะเพื่อจัดการกับสถานการณ์ที่คุณลักษณะละเอียดอ่อนที่อ้างถึงในฟีเจอร์เปลี่ยนแปลงการคาดการณ์ ขึ้นอยู่กับรุ่นและกรณีการใช้งานของคุณ การพิจารณาว่ามีช่องว่างด้านประสิทธิภาพสำหรับกลุ่มชายขอบในอดีตหรือไม่ โดยเฉพาะอย่างยิ่งเนื่องจาก CLP อาจส่งผลกระทบต่อประสิทธิภาพของกลุ่ม ซึ่งสามารถประเมินได้ด้วย ตัวบ่งชี้ความเป็นธรรม และแก้ไขโดย MinDiff ซึ่งอยู่ใน TensorFlow Model Remediation Library เช่นกัน

คุณควรพิจารณาด้วยว่าผลิตภัณฑ์ของคุณมีการใช้งานแมชชีนเลิร์นนิงอย่างเหมาะสมหรือไม่ หากเป็นเช่นนั้น เวิร์กโฟลว์แมชชีนเลิร์นนิงของคุณควรได้รับการออกแบบตามแนวทางปฏิบัติที่แนะนำ เช่น การมีงานโมเดลที่กำหนดไว้อย่างชัดเจนและความต้องการผลิตภัณฑ์ที่ชัดเจน

การจับคู่ Logit ที่ต่อต้านข้อเท็จจริงทำงานอย่างไร

CLP เพิ่มการสูญเสียให้กับโมเดลดั้งเดิมที่ได้มาจากการจับคู่ logit กับตัวอย่างดั้งเดิมและตัวอย่างที่ขัดแย้งกับชุดข้อมูล ด้วยการคำนวณความแตกต่างระหว่างค่าทั้งสอง คุณจะลงโทษความแตกต่างของคำที่ละเอียดอ่อนซึ่งทำให้การคาดคะเนตัวแยกประเภทของคุณเปลี่ยนแปลง งานวิจัยนี้มีพื้นฐานมาจากการวิจัยเกี่ยวกับ การจับคู่บันทึกที่ขัดแย้ง กับ การจับคู่บันทึกที่ขัดแย้งกับข้อเท็จจริง