เข้าร่วม Women in ML Symposium ในวันที่ 7 ธันวาคม ลงทะเบียนตอนนี้

ตัวชี้วัดความเป็นธรรม: การพิจารณาการประเมินความเป็นธรรม

จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

ตัวบ่งชี้ความเป็นธรรมเป็นเครื่องมือที่มีประโยชน์สำหรับการประเมินตัวแยกประเภท ไบนารี และ หลายคลาส เพื่อความเป็นธรรม ในที่สุด เราหวังว่าจะขยายเครื่องมือนี้โดยร่วมมือกับพวกคุณทุกคน เพื่อประเมินข้อควรพิจารณาเพิ่มเติม

โปรดทราบว่าการประเมินเชิงปริมาณเป็นเพียงส่วนหนึ่งของการประเมินประสบการณ์ผู้ใช้ที่กว้างขึ้น เริ่มต้นด้วยการคิดถึง บริบทต่างๆ ที่ผู้ใช้อาจประสบกับผลิตภัณฑ์ของคุณ ผู้ใช้ประเภทใดบ้างที่ผลิตภัณฑ์ของคุณได้รับการคาดหวังให้แสดง ใครบ้างที่อาจได้รับผลกระทบจากประสบการณ์นี้?

เมื่อพิจารณาผลกระทบของ AI ต่อผู้คน สิ่งสำคัญที่ต้องจำไว้เสมอว่าสังคมมนุษย์นั้นซับซ้อนมาก! การทำความเข้าใจผู้คน อัตลักษณ์ทางสังคม โครงสร้างทางสังคม และระบบวัฒนธรรมเป็นงานวิจัยแบบเปิดกว้างแต่ละสาขาในสิทธิของตนเอง โยนความซับซ้อนของความแตกต่างข้ามวัฒนธรรมไปทั่วโลก และการทำความเข้าใจผลกระทบทางสังคมก็อาจเป็นเรื่องที่ท้าทาย เมื่อใดก็ตามที่เป็นไปได้ ขอแนะนำให้คุณปรึกษากับผู้เชี่ยวชาญด้านโดเมนที่เหมาะสม ซึ่งอาจรวมถึงนักสังคมศาสตร์ นักภาษาศาสตร์และนักมานุษยวิทยาวัฒนธรรม ตลอดจนสมาชิกของประชากรที่จะใช้เทคโนโลยี

โมเดลเดียว ตัวอย่างเช่น แบบจำลองความเป็นพิษที่เราใช้ประโยชน์ใน ตัวอย่าง colab สามารถใช้ได้ในบริบทต่างๆ มากมาย แบบจำลองความเป็นพิษที่ปรับใช้บนเว็บไซต์เพื่อกรองความคิดเห็นที่ไม่เหมาะสม เป็นกรณีการใช้งานที่แตกต่างจากแบบจำลองที่ใช้งานใน UI ของเว็บตัวอย่าง ซึ่งผู้ใช้สามารถพิมพ์ประโยคและดูว่าโมเดลให้คะแนนเท่าใด ขึ้นอยู่กับกรณีการใช้งาน และวิธีที่ผู้ใช้ประสบกับการคาดการณ์แบบจำลอง ผลิตภัณฑ์ของคุณจะมีความเสี่ยง ผลกระทบ และโอกาสที่แตกต่างกัน และคุณอาจต้องการประเมินข้อกังวลด้านความเป็นธรรมที่แตกต่างกัน

คำถามข้างต้นเป็นพื้นฐานของการพิจารณาด้านจริยธรรม รวมถึงความเป็นธรรม คุณอาจต้องการพิจารณาเมื่อออกแบบและพัฒนาผลิตภัณฑ์ที่ใช้ ML คำถามเหล่านี้ยังเป็นแรงจูงใจให้ตัวชี้วัดใดและกลุ่มผู้ใช้ใดที่คุณควรใช้เครื่องมือในการประเมิน

ก่อนดำดิ่งลงไป ต่อไปนี้คือแหล่งข้อมูลที่แนะนำสามประการสำหรับการเริ่มต้น:

  • คู่มือ People + AI สำหรับการออกแบบ AI ที่มีมนุษย์เป็นศูนย์กลาง: คู่มือนี้เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับคำถามและแง่มุมต่างๆ ที่ควรคำนึงถึงเมื่อออกแบบผลิตภัณฑ์ที่ใช้การเรียนรู้ด้วยเครื่อง ในขณะที่เราสร้างคู่มือนี้โดยคำนึงถึงนักออกแบบ หลักการหลายอย่างจะช่วยตอบคำถามเช่นเดียวกับที่กล่าวข้างต้น
  • บทเรียนที่ยุติธรรมของเรา ที่ได้รับ : การเสวนาที่ Google I/O ครั้งนี้จะอภิปรายบทเรียนที่เราได้เรียนรู้ในเป้าหมายของเราในการสร้างและออกแบบผลิตภัณฑ์ที่ครอบคลุม
  • ML Crash Course: Fairness : ML Crash Course มีส่วน 70 นาทีที่อุทิศให้กับการระบุและประเมินข้อกังวลด้านความเป็นธรรม

เหตุใดจึงดูแต่ละชิ้น? การประเมินในแต่ละส่วนมีความสำคัญ เนื่องจากตัวชี้วัดโดยรวมที่แข็งแกร่งสามารถปิดบังประสิทธิภาพที่ไม่ดีสำหรับบางกลุ่มได้ ในทำนองเดียวกัน การทำงานที่ดีสำหรับตัวชี้วัดบางตัว (ความแม่นยำ AUC) ไม่ได้แปลว่าประสิทธิภาพที่ยอมรับได้สำหรับตัวชี้วัดอื่นๆ เสมอไป (อัตราการบวกที่ผิดพลาด อัตราเชิงลบที่ผิดพลาด) ที่มีความสำคัญเท่าเทียมกันในการประเมินโอกาสและอันตรายสำหรับผู้ใช้

ส่วนด้านล่างจะกล่าวถึงแง่มุมต่างๆ ที่ต้องพิจารณา

ฉันควรแบ่งกลุ่มใด

โดยทั่วไป แนวทางปฏิบัติที่ดีคือการแบ่งกลุ่มตามจำนวนที่อาจได้รับผลกระทบจากผลิตภัณฑ์ของคุณ เนื่องจากคุณไม่มีทางรู้ว่าเมื่อใดที่ประสิทธิภาพอาจแตกต่างกันสำหรับอีกกลุ่มหนึ่ง อย่างไรก็ตาม หากคุณไม่แน่ใจ ให้นึกถึงผู้ใช้หลายรายที่อาจมีส่วนร่วมกับผลิตภัณฑ์ของคุณ และผลกระทบที่พวกเขาอาจได้รับผลกระทบ โดยเฉพาะอย่างยิ่ง พิจารณาชิ้นที่เกี่ยวข้องกับลักษณะที่ละเอียดอ่อน เช่น เชื้อชาติ ชาติพันธุ์ เพศ สัญชาติ รายได้ รสนิยมทางเพศ และสถานะความทุพพลภาพ

จะเป็นอย่างไรหากฉันไม่มีข้อมูลติดป้ายกำกับสำหรับส่วนที่ฉันต้องการตรวจสอบ

คำถามที่ดี. เรารู้ว่าชุดข้อมูลจำนวนมากไม่มีป้ายกำกับจริงสำหรับแอตทริบิวต์ข้อมูลประจำตัวแต่ละรายการ

หากคุณพบว่าตัวเองอยู่ในตำแหน่งนี้ เราขอแนะนำวิธีการสองสามวิธี:

  1. ระบุว่า มี แอตทริบิวต์ที่คุณมีที่อาจให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพในกลุ่มต่างๆ หรือไม่ ตัวอย่างเช่น ภูมิศาสตร์ แม้จะไม่เทียบเท่ากับชาติพันธุ์และเชื้อชาติ อาจช่วยให้คุณค้นพบรูปแบบการทำงานที่แตกต่างกันออกไปได้
  2. ระบุว่ามีชุดข้อมูลสาธารณะที่เป็นตัวแทนที่อาจจับคู่กับปัญหาของคุณได้ดีหรือไม่ คุณสามารถค้นหาชุดข้อมูลที่หลากหลายและครอบคลุมได้ใน เว็บไซต์ Google AI ซึ่งรวมถึง Project Respect , Inclusive Images และ Open Images Extended เป็นต้น
  3. ใช้ประโยชน์จากกฎหรือตัวแยกประเภท เมื่อมีความเกี่ยวข้อง เพื่อติดป้ายกำกับข้อมูลของคุณด้วยแอตทริบิวต์ระดับพื้นผิววัตถุประสงค์ ตัวอย่างเช่น คุณสามารถติดป้ายกำกับข้อความว่ามีคำระบุตัวตน ใน ประโยคหรือไม่ พึงระลึกไว้เสมอว่าตัวแยกประเภทมีความท้าทายในตัวเอง และถ้าคุณไม่ระวัง ก็สามารถทำให้เกิดอคติอีกชั้นหนึ่งได้เช่นกัน มีความชัดเจนว่าตัวแยกประเภทของคุณจัดประเภท อย่างไร ตัวอย่างเช่น ตัวแยกประเภทอายุบนรูปภาพนั้น แท้จริงแล้วการจำแนก อายุที่รับรู้ นอกจากนี้ หากเป็นไปได้ ให้ใช้ประโยชน์จากแอตทริบิวต์ระดับพื้นผิวที่ สามารถ ระบุได้อย่างเป็นรูปธรรมในข้อมูล ตัวอย่างเช่น ไม่ควรสร้างตัวจำแนกรูปภาพสำหรับเชื้อชาติหรือชาติพันธุ์ เนื่องจากสิ่งเหล่านี้ไม่ใช่ลักษณะทางสายตาที่สามารถกำหนดได้ในภาพ ลักษณนามมักจะรับพร็อกซี่หรือแบบแผน การสร้างตัวแยกประเภทสำหรับโทนสีผิวอาจเป็นวิธีที่เหมาะสมกว่าในการติดป้ายกำกับและประเมินภาพ สุดท้าย ตรวจสอบให้แน่ใจว่ามีความแม่นยำสูงสำหรับตัวแยกประเภทที่ติดป้ายกำกับแอตทริบิวต์ดังกล่าว
  4. ค้นหาข้อมูลตัวแทนเพิ่มเติมที่มีป้ายกำกับ

ตรวจสอบให้แน่ใจเสมอว่าได้ประเมินชุดข้อมูลที่หลากหลายและหลากหลาย

หากข้อมูลการประเมินของคุณไม่ได้เป็นตัวแทนของฐานผู้ใช้ของคุณอย่างเพียงพอ หรือประเภทของข้อมูลที่น่าจะพบ คุณอาจจบลงด้วยตัวชี้วัดความเป็นธรรมที่ดีที่หลอกลวง ในทำนองเดียวกัน ประสิทธิภาพของแบบจำลองที่สูงในชุดข้อมูลหนึ่งไม่ได้รับประกันว่าชุดข้อมูลอื่นจะมีประสิทธิภาพสูง

โปรดทราบว่ากลุ่มย่อยไม่ใช่วิธีที่ดีที่สุดในการจำแนกบุคคล

ผู้คนมีหลายมิติและอยู่ในกลุ่มมากกว่าหนึ่งกลุ่ม แม้จะอยู่ในมิติเดียว ลองพิจารณาถึงผู้ที่มาจากหลายเชื้อชาติ หรืออยู่ในกลุ่มเชื้อชาติหลายกลุ่ม นอกจากนี้ แม้ว่าตัวชี้วัดโดยรวมสำหรับกลุ่มตามเชื้อชาติอาจดูยุติธรรม การโต้ตอบบางอย่าง เช่น เชื้อชาติและเพศร่วมกันอาจแสดงอคติโดยไม่ได้ตั้งใจ นอกจากนี้ กลุ่มย่อยจำนวนมากมีขอบเขตคลุมเครือซึ่งถูกวาดใหม่อย่างต่อเนื่อง

ฉันได้ทดสอบชิ้นที่เพียงพอเมื่อใด และฉันจะรู้ได้อย่างไรว่าชิ้นใดที่จะทดสอบ

เรารับทราบว่ามีกลุ่มหรือชิ้นส่วนจำนวนมากที่อาจเกี่ยวข้องกับการทดสอบ และหากเป็นไปได้ เราขอแนะนำให้แบ่งส่วนข้อมูลและประเมินการแบ่งส่วนที่หลากหลายและหลากหลาย จากนั้นจึงลงลึกในจุดที่คุณมองเห็นโอกาสในการปรับปรุง สิ่งสำคัญคือต้องรับทราบด้วยว่าถึงแม้คุณอาจไม่เห็นข้อกังวลเกี่ยวกับชิ้นส่วนที่คุณทดสอบ แต่นั่นไม่ได้หมายความว่าผลิตภัณฑ์ของคุณใช้ได้กับผู้ใช้ ทุก คน และการได้รับคำติชมและการทดสอบจากผู้ใช้ที่หลากหลายเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าคุณกำลังระบุสิ่งใหม่ๆ อยู่เสมอ โอกาส.

ในการเริ่มต้น เราขอแนะนำให้คุณพิจารณากรณีการใช้งานเฉพาะของคุณและวิธีต่างๆ ที่ผู้ใช้จะมีส่วนร่วมกับผลิตภัณฑ์ของคุณ ผู้ใช้แต่ละคนอาจมีประสบการณ์ต่างกันอย่างไร? นั่นหมายความว่าอย่างไรสำหรับชิ้นที่คุณควรประเมิน? การรวบรวมคำติชมจากผู้ใช้ที่หลากหลายอาจเน้นส่วนที่อาจเป็นส่วนสำคัญเพื่อจัดลำดับความสำคัญ

ฉันควรเลือกเมตริกใด

เมื่อเลือกเมตริกที่จะประเมินสำหรับระบบของคุณ ให้พิจารณาว่าใครจะประสบกับโมเดลของคุณ จะได้รับประสบการณ์อย่างไร และผลกระทบของประสบการณ์นั้น

ตัวอย่างเช่น แบบจำลองของคุณทำให้ผู้คนมีศักดิ์ศรีหรือความเป็นตัวของตัวเองมากขึ้น หรือส่งผลดีต่ออารมณ์ ร่างกาย หรือความอยู่ดีมีสุขทางการเงินของพวกเขาอย่างไร ในทางตรงกันข้าม การคาดคะเนของแบบจำลองของคุณจะลดศักดิ์ศรีหรือความเป็นอิสระของผู้คน หรือส่งผลเสียต่อความอยู่ดีมีสุขทางอารมณ์ ร่างกาย หรือการเงินได้อย่างไร

โดยทั่วไป เราแนะนำให้แบ่ง เมตริกประสิทธิภาพที่มีอยู่ทั้งหมดเป็นแนวทางปฏิบัติที่ดี เรายังแนะนำให้ประเมินเมตริกของคุณ ตามเกณฑ์หลายเกณฑ์ เพื่อให้เข้าใจว่าเกณฑ์ดังกล่าวส่งผลต่อประสิทธิภาพการทำงานของกลุ่มต่างๆ อย่างไร

นอกจากนี้ หากมีป้ายกำกับที่คาดการณ์ไว้ซึ่ง "ดี" หรือ "ไม่ดี" อย่างสม่ำเสมอ ให้พิจารณาการรายงาน (สำหรับแต่ละกลุ่มย่อย) อัตราที่คาดการณ์ป้ายกำกับนั้น ตัวอย่างเช่น ป้ายกำกับ "ดี" จะเป็นป้ายกำกับที่มีการคาดคะเนให้บุคคลเข้าถึงทรัพยากรบางอย่าง หรือช่วยให้ดำเนินการบางอย่างได้

ตัวชี้วัดความเป็นธรรมที่สำคัญสำหรับการจำแนกประเภท

เมื่อคิดถึงแบบจำลองการจัดหมวดหมู่ ให้นึกถึงผลกระทบของ ข้อผิดพลาด (ความแตกต่างระหว่างป้ายกำกับ "ความจริงพื้นฐาน" กับป้ายกำกับจากแบบจำลอง) หากข้อผิดพลาดบางอย่างอาจก่อให้เกิดโอกาสหรือเป็นอันตรายต่อผู้ใช้ของคุณมากขึ้น ตรวจสอบให้แน่ใจว่าคุณประเมินอัตราข้อผิดพลาดเหล่านี้ในกลุ่มผู้ใช้ทั้งหมด อัตราข้อผิดพลาดเหล่านี้กำหนดไว้ด้านล่างในเมตริกที่สนับสนุนโดย Fairness Indicators รุ่นเบต้าในปัจจุบัน

ตลอดปีหน้า เราหวังว่าจะเผยแพร่กรณีศึกษาของกรณีการใช้งานต่างๆ และตัวชี้วัดที่เกี่ยวข้องกับสิ่งเหล่านี้ เพื่อให้เราสามารถเน้นย้ำได้ดีขึ้นว่าเมื่อใดที่ตัวชี้วัดต่างๆ อาจเหมาะสมที่สุด

เมตริกพร้อมใช้งานแล้วในตัวชี้วัดความเป็นธรรม

อัตราบวก / อัตราเชิงลบ

  • คำนิยาม: เปอร์เซ็นต์ของจุดข้อมูลที่จัดประเภทเป็นบวกหรือลบ โดยไม่ขึ้นกับความจริงพื้นฐาน
  • เกี่ยวข้องกับ: ความเท่าเทียมกันทางประชากรศาสตร์และความเท่าเทียมกันของผลลัพธ์ เมื่อเท่ากันทุกกลุ่มย่อย
  • ควรใช้เมตริกนี้เมื่อใด: กรณีการใช้งานที่เป็นธรรมซึ่งมีเปอร์เซ็นต์สุดท้ายของกลุ่มเท่ากันเป็นสิ่งสำคัญ

อัตราบวกจริง / อัตราลบเท็จ

  • คำนิยาม: เปอร์เซ็นต์ของจุดข้อมูลเชิงบวก (ตามที่ระบุไว้ในความจริงพื้นฐาน) ที่จัดประเภท อย่างถูกต้อง ว่าเป็นค่าบวก หรือเปอร์เซ็นต์ของจุดข้อมูลเชิงบวกที่จำแนกเป็นค่าลบ อย่างไม่ถูกต้อง
  • เกี่ยวข้องกับ: ความเสมอภาคของโอกาส (สำหรับชนชั้นเชิงบวก) เมื่อเท่ากันทุกกลุ่มย่อย
  • เมื่อใดควรใช้เมตริกนี้: กรณีการใช้งานที่เป็นธรรมซึ่งเป็นสิ่งสำคัญที่ % เดียวกันของผู้สมัครที่ผ่านการรับรองจะได้รับการจัดอันดับเป็นบวกในแต่ละกลุ่ม วิธีนี้แนะนำโดยทั่วไปในกรณีของการจัดประเภทผลลัพธ์เชิงบวก เช่น การขอสินเชื่อ การรับเข้าเรียนในโรงเรียน หรือเนื้อหาเหมาะสำหรับเด็กหรือไม่

อัตราลบจริง / อัตราบวกเท็จ

  • คำนิยาม: เปอร์เซ็นต์ของจุดข้อมูลเชิงลบ (ตามที่ระบุไว้ในความจริงพื้นฐาน) ที่จัดประเภทอย่างถูกต้องว่าเป็นค่าลบ หรือเปอร์เซ็นต์ของจุดข้อมูลเชิงลบที่จัดประเภทเป็นค่าบวกอย่างไม่ถูกต้อง
  • เกี่ยวข้องกับ: ความเท่าเทียมกันของโอกาส (สำหรับชั้นลบ) เมื่อเท่ากันทุกกลุ่มย่อย
  • ควรใช้เมตริกนี้เมื่อใด: ความเป็นธรรมใช้กรณีที่อัตราข้อผิดพลาด (หรือการจัดประเภทบางอย่างผิดพลาดเป็นบวก) เป็นเรื่องที่น่ากังวลมากกว่าการจัดประเภทผลบวก กรณีนี้พบได้บ่อยที่สุดในกรณีการละเมิด ซึ่ง ผลดี มักนำไปสู่การกระทำเชิงลบ สิ่งเหล่านี้ก็มีความสำคัญเช่นกันสำหรับเทคโนโลยีการวิเคราะห์ใบหน้า เช่น การตรวจจับใบหน้าหรือคุณลักษณะของใบหน้า

ความแม่นยำ & AUC

  • เกี่ยวข้องกับ: Predictive Parity เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดควรใช้เมตริกเหล่านี้: กรณีที่ความแม่นยำของงานเป็นสิ่งสำคัญที่สุด (ไม่จำเป็นต้องอยู่ในทิศทางที่กำหนด) เช่น การระบุใบหน้าหรือการจัดกลุ่มใบหน้า

อัตราการค้นพบเท็จ

  • คำนิยาม: เปอร์เซ็นต์ของจุดข้อมูลเชิงลบ (ตามที่ระบุไว้ในความจริงพื้นฐาน) ที่จัดประเภทไม่ถูกต้องว่าเป็นค่าบวกจากจุดข้อมูลทั้งหมดที่จัดประเภทเป็นค่าบวก นี่คือผกผันของPPV .ด้วย
  • เกี่ยวข้องกับ: Predictive Parity (หรือที่เรียกว่า Calibration) เมื่อเท่ากันทุกกลุ่มย่อย
  • เมื่อใดควรใช้เมตริกนี้: กรณีที่เศษส่วนของการคาดการณ์เชิงบวกที่ถูกต้องควรเท่ากันในกลุ่มย่อย

อัตราการละเว้นเท็จ

  • คำนิยาม: เปอร์เซ็นต์ของจุดข้อมูลเชิงบวก (ตามที่ระบุไว้ในความจริงพื้นฐาน) ที่จัดประเภทอย่างไม่ถูกต้องว่าเป็นค่าลบจากจุดข้อมูลทั้งหมดที่จัดประเภทเป็นค่าลบ นี่คือผกผันของNPV .ด้วย
  • เกี่ยวข้องกับ: Predictive Parity (หรือที่เรียกว่า Calibration) เมื่อเท่ากันทุกกลุ่มย่อย
  • เมื่อใดควรใช้เมตริกนี้: กรณีที่เศษส่วนของการคาดการณ์เชิงลบที่ถูกต้องควรเท่ากันในกลุ่มย่อย

อัตราการพลิกกลับโดยรวม / อัตราการพลิกกลับของการคาดการณ์เชิงบวกถึงเชิงลบ / อัตราการพลิกการทำนายเชิงลบถึงเชิงบวก

  • คำนิยาม: ความน่าจะเป็นที่ตัวแยกประเภทให้การคาดคะเนที่แตกต่างกัน ถ้าแอตทริบิวต์เอกลักษณ์ในคุณลักษณะที่กำหนดมีการเปลี่ยนแปลง
  • เกี่ยวข้องกับ: ความยุติธรรมในการต่อต้าน
  • ควรใช้เมตริกนี้เมื่อใด: เมื่อพิจารณาว่าการคาดการณ์ของโมเดลจะเปลี่ยนไปเมื่อแอตทริบิวต์ที่ละเอียดอ่อนที่อ้างอิงในตัวอย่างถูกลบหรือแทนที่ หากเป็นเช่นนั้น ให้ลองใช้เทคนิค Counterfactual Logit Pairing ภายในไลบรารี Tensorflow Model Remediation

จำนวนการพลิกกลับ / การทำนายผลบวกเป็นลบ จำนวนการพลิกกลับ / การนับการพลิกกลับเชิงลบเป็นการทำนายผลบวก *

  • คำนิยาม: จำนวนครั้งที่ลักษณนามให้การทำนายที่แตกต่างกัน หากคำระบุตัวตนในตัวอย่างที่กำหนดมีการเปลี่ยนแปลง
  • เกี่ยวข้องกับ: ความยุติธรรมในการต่อต้าน
  • ควรใช้เมตริกนี้เมื่อใด: เมื่อพิจารณาว่าการคาดการณ์ของโมเดลจะเปลี่ยนไปเมื่อแอตทริบิวต์ที่ละเอียดอ่อนที่อ้างอิงในตัวอย่างถูกลบหรือแทนที่ หากเป็นเช่นนั้น ให้ลองใช้เทคนิค Counterfactual Logit Pairing ภายในไลบรารี Tensorflow Model Remediation

ตัวอย่างเมตริกที่จะเลือก

  • ความล้มเหลวในการตรวจจับใบหน้าอย่างเป็นระบบในแอพกล้องอาจนำไปสู่ประสบการณ์ผู้ใช้ในเชิงลบสำหรับกลุ่มผู้ใช้บางกลุ่ม ในกรณีนี้ ฟิล์มเนกาทีฟที่ผิดพลาดในระบบตรวจจับใบหน้าอาจนำไปสู่ความล้มเหลวของผลิตภัณฑ์ ในขณะที่ผลบวกที่ผิดพลาด (การตรวจจับใบหน้าเมื่อไม่มีใบหน้า) อาจทำให้ผู้ใช้รู้สึกรำคาญเล็กน้อย ดังนั้น การประเมินและการลดอัตราการติดลบเท็จจึงเป็นสิ่งสำคัญสำหรับกรณีการใช้งานนี้
  • การทำเครื่องหมายความคิดเห็นที่เป็นข้อความจากบุคคลบางคนอย่างไม่เป็นธรรมว่าเป็น "สแปม" หรือ "มีความเป็นพิษสูง" ในระบบกลั่นกรองจะนำไปสู่การปิดปากเสียงบางส่วน ในแง่หนึ่ง อัตราบวกเท็จที่สูงนำไปสู่การเซ็นเซอร์ที่ไม่เป็นธรรม ในอีกทางหนึ่ง อัตราการลบเท็จที่สูงอาจนำไปสู่การแพร่กระจายของเนื้อหาที่เป็นพิษจากบางกลุ่ม ซึ่งอาจเป็นอันตรายต่อผู้ใช้และก่อให้เกิดอันตรายที่เป็นตัวแทนของกลุ่มเหล่านั้น ดังนั้น เมตริกทั้งสองจึงมีความสำคัญที่ต้องพิจารณา นอกเหนือจากเมตริกที่คำนึงถึงข้อผิดพลาดทุกประเภท เช่น ความแม่นยำหรือ AUC

ไม่พบตัวชี้วัดที่คุณกำลังมองหา?

ทำตามเอกสาร ที่นี่ เพื่อเพิ่มเมตริกที่คุณกำหนดเอง

บันทึกสุดท้าย

ช่องว่างในหน่วยเมตริกระหว่างสองกลุ่มอาจเป็นสัญญาณว่าแบบจำลองของคุณอาจมีส่วนเบี่ยงเบนที่ไม่เป็นธรรม คุณควรตีความผลลัพธ์ของคุณตามกรณีการใช้งานของคุณ อย่างไรก็ตาม สัญญาณแรกที่บ่งบอกว่าคุณอาจปฏิบัติต่อผู้ใช้กลุ่มหนึ่ง อย่างไม่เป็นธรรม คือเมื่อตัวชี้วัดระหว่างผู้ใช้กลุ่มนั้นกับโดยรวมของคุณมีความแตกต่างกันอย่างมาก ตรวจสอบให้แน่ใจว่าได้คำนึงถึงช่วงความมั่นใจเมื่อดูความแตกต่างเหล่านี้ เมื่อคุณมีตัวอย่างน้อยเกินไปในส่วนใดส่วนหนึ่ง ความแตกต่างระหว่างตัวชี้วัดอาจไม่ถูกต้อง

การบรรลุความเท่าเทียมกันในทุกกลุ่มโดยใช้ตัวบ่งชี้ความเป็นธรรมไม่ได้หมายความว่าแบบจำลองนั้นยุติธรรม ระบบมีความซับซ้อนสูง และการบรรลุความเท่าเทียมกันในหนึ่ง (หรือทั้งหมด) ของตัวชี้วัดที่ให้มานั้นไม่สามารถรับประกันความเป็นธรรมได้

การประเมินความเป็นธรรมควรดำเนินการตลอดกระบวนการพัฒนาและหลังการเปิดตัว (ไม่ใช่ก่อนวันเปิดตัว) เช่นเดียวกับการปรับปรุงผลิตภัณฑ์ของคุณเป็นกระบวนการต่อเนื่องและอาจมีการปรับเปลี่ยนตามความคิดเห็นของผู้ใช้และตลาด การทำให้ผลิตภัณฑ์ของคุณยุติธรรมและเท่าเทียมกันนั้นต้องได้รับการเอาใจใส่อย่างต่อเนื่อง เมื่อแง่มุมต่างๆ ของแบบจำลองเปลี่ยนไป เช่น ข้อมูลการฝึก ข้อมูลจากแบบจำลองอื่นๆ หรือการออกแบบเอง ตัวชี้วัดความเป็นธรรมก็มักจะเปลี่ยนไป “การล้างแถบ” ครั้งเดียวไม่เพียงพอเพื่อให้แน่ใจว่าองค์ประกอบการโต้ตอบทั้งหมดจะยังคงเหมือนเดิมเมื่อเวลาผ่านไป

ควรทำการทดสอบโดยฝ่ายตรงข้ามสำหรับตัวอย่างที่ไม่ค่อยพบและเป็นอันตราย การประเมินความเป็นธรรมไม่ได้มีวัตถุประสงค์เพื่อแทนที่การทดสอบของฝ่ายตรงข้าม การป้องกันเพิ่มเติมจากตัวอย่างที่หายากและตรงเป้าหมายเป็นสิ่งสำคัญ เนื่องจากตัวอย่างเหล่านี้อาจไม่ปรากฏในการฝึกอบรมหรือข้อมูลการประเมิน