ตัวชี้วัดความเป็นธรรม: การพิจารณาการประเมินความเป็นธรรม

Fairness Indicators เป็นเครื่องมือที่มีประโยชน์สำหรับการประเมินตัวแยก ประเภทไบนารี และ หลายคลาส เพื่อความเป็นธรรม ในที่สุด เราหวังว่าจะขยายเครื่องมือนี้โดยร่วมมือกับทุกท่าน เพื่อประเมินข้อควรพิจารณาเพิ่มเติม

โปรดทราบว่าการประเมินเชิงปริมาณเป็นเพียงส่วนหนึ่งของการประเมินประสบการณ์ของผู้ใช้ในวงกว้างเท่านั้น เริ่มต้นด้วยการคิดถึง บริบท ต่างๆ ที่ผู้ใช้อาจสัมผัสกับผลิตภัณฑ์ของคุณ ผู้ใช้ประเภทต่างๆ ที่ผลิตภัณฑ์ของคุณคาดว่าจะให้บริการคือใคร ใครบ้างที่อาจได้รับผลกระทบจากประสบการณ์นี้?

เมื่อพิจารณาถึงผลกระทบของ AI ที่มีต่อผู้คน สิ่งสำคัญคือต้องจำไว้เสมอว่าสังคมมนุษย์มีความซับซ้อนอย่างยิ่ง! การทำความเข้าใจผู้คนและอัตลักษณ์ทางสังคม โครงสร้างทางสังคม และระบบวัฒนธรรมเป็นสาขาขนาดใหญ่ในการวิจัยแบบเปิดตามสิทธิของตนเอง โยนความซับซ้อนของความแตกต่างข้ามวัฒนธรรมทั่วโลก และการทำความเข้าใจผลกระทบทางสังคมอาจเป็นเรื่องที่ท้าทาย เมื่อใดก็ตามที่เป็นไปได้ ขอแนะนำให้คุณปรึกษากับผู้เชี่ยวชาญในสาขาที่เหมาะสม ซึ่งอาจรวมถึงนักวิทยาศาสตร์สังคม นักภาษาศาสตร์สังคม และนักมานุษยวิทยาวัฒนธรรม ตลอดจนกับสมาชิกของประชากรที่จะใช้เทคโนโลยี

ตัวอย่างเช่น โมเดลเดียว เช่น โมเดลความเป็นพิษที่เราใช้ประโยชน์ใน ตัวอย่าง colab สามารถนำไปใช้ในบริบทที่แตกต่างกันได้มากมาย โมเดลความเป็นพิษที่ใช้บนเว็บไซต์เพื่อกรองความคิดเห็นที่ไม่เหมาะสม เป็นกรณีการใช้งานที่แตกต่างไปจากโมเดลที่ใช้งานใน UI เว็บตัวอย่าง ซึ่งผู้ใช้สามารถพิมพ์ประโยคและดูว่าโมเดลให้คะแนนเท่าใด ผลิตภัณฑ์ของคุณจะมีความเสี่ยง ผลกระทบ และโอกาสที่แตกต่างกัน ขึ้นอยู่กับกรณีการใช้งานและวิธีที่ผู้ใช้พบกับการคาดการณ์แบบจำลอง และคุณอาจต้องการประเมินข้อกังวลด้านความเป็นธรรมที่แตกต่างกัน

คำถามข้างต้นเป็นรากฐานของการพิจารณาด้านจริยธรรม รวมถึงความเป็นธรรม ที่คุณอาจต้องการนำมาพิจารณาเมื่อออกแบบและพัฒนาผลิตภัณฑ์ที่ใช้ ML ของคุณ คำถามเหล่านี้ยังกระตุ้นให้เกิดเมตริกและกลุ่มผู้ใช้ที่คุณควรใช้เครื่องมือในการประเมิน

ก่อนที่จะดำน้ำเพิ่มเติม ต่อไปนี้เป็นแหล่งข้อมูลที่แนะนำสามประการสำหรับการเริ่มต้น:

  • คู่มือ People + AI สำหรับการออกแบบ AI ที่เน้นมนุษย์เป็นศูนย์กลาง: คู่มือเล่มนี้เป็นแหล่งข้อมูลที่ดีเยี่ยมสำหรับคำถามและประเด็นต่างๆ ที่ควรคำนึงถึงเมื่อออกแบบผลิตภัณฑ์ที่ใช้แมชชีนเลิร์นนิง ในขณะที่เราสร้างหนังสือคู่มือเล่มนี้โดยคำนึงถึงนักออกแบบ หลักการหลายประการจะช่วยตอบคำถามเหมือนกับที่กล่าวไว้ข้างต้น
  • บทเรียนเกี่ยวกับความเป็นธรรมของเราที่ได้รับ : การบรรยายที่ Google I/O กล่าวถึงบทเรียนที่เราได้เรียนรู้จากเป้าหมายในการสร้างและออกแบบผลิตภัณฑ์ที่ไม่แบ่งแยก
  • ML Crash Course: ความเป็นธรรม : ML Crash Course มีเวลา 70 นาทีเพื่อระบุและประเมินข้อกังวลด้านความเป็นธรรม

เหตุใดจึงต้องดูแต่ละชิ้น? การประเมินแต่ละส่วนมีความสำคัญ เนื่องจากเมตริกโดยรวมที่แข็งแกร่งอาจบดบังประสิทธิภาพที่ไม่ดีสำหรับบางกลุ่มได้ ในทำนองเดียวกัน ประสิทธิภาพที่ดีสำหรับตัวชี้วัดบางอย่าง (ความแม่นยำ AUC) ไม่ได้แปลเป็นประสิทธิภาพที่ยอมรับได้สำหรับตัวชี้วัดอื่นๆ เสมอไป (อัตราผลบวกลวง อัตราลบลวง) ที่มีความสำคัญเท่าเทียมกันในการประเมินโอกาสและผลเสียต่อผู้ใช้

ส่วนด้านล่างนี้จะอธิบายบางประเด็นที่ต้องพิจารณา

ฉันควรแบ่งกลุ่มไหน?

โดยทั่วไป แนวทางปฏิบัติที่ดีคือการแบ่งกลุ่มตามจำนวนที่อาจได้รับผลกระทบจากผลิตภัณฑ์ของคุณ เนื่องจากคุณไม่มีทางรู้ได้เลยว่าเมื่อใดประสิทธิภาพอาจแตกต่างกันไปสำหรับกลุ่มอื่นๆ อย่างไรก็ตาม หากคุณไม่แน่ใจ ให้ลองนึกถึงผู้ใช้กลุ่มต่างๆ ที่อาจมีส่วนร่วมกับผลิตภัณฑ์ของคุณ และพวกเขาอาจได้รับผลกระทบอย่างไร โดยเฉพาะอย่างยิ่ง พิจารณาส่วนที่เกี่ยวข้องกับคุณลักษณะที่ละเอียดอ่อน เช่น เชื้อชาติ ชาติพันธุ์ เพศ สัญชาติ รายได้ รสนิยมทางเพศ และสถานะความพิการ

จะเกิดอะไรขึ้นถ้าฉันไม่มีข้อมูลติดป้ายกำกับสำหรับส่วนที่ฉันต้องการตรวจสอบ

คำถามที่ดี. เรารู้ว่าชุดข้อมูลจำนวนมากไม่มีป้ายกำกับความจริงพื้นฐานสำหรับแอตทริบิวต์ข้อมูลประจำตัวแต่ละรายการ

หากคุณพบว่าตัวเองอยู่ในตำแหน่งนี้ เราขอแนะนำแนวทางบางประการ:

  1. ระบุว่าคุณ มี คุณลักษณะที่อาจให้ข้อมูลเชิงลึกเกี่ยวกับประสิทธิภาพระหว่างกลุ่มหรือไม่ ตัวอย่างเช่น ภูมิศาสตร์ แม้จะไม่เทียบเท่ากับชาติพันธุ์และเชื้อชาติ แต่ก็อาจช่วยให้คุณค้นพบรูปแบบการปฏิบัติงานที่แตกต่างกันได้
  2. ระบุว่ามีชุดข้อมูลสาธารณะที่เป็นตัวแทนที่อาจแมปกับปัญหาของคุณได้ดีหรือไม่ คุณสามารถค้นหาชุดข้อมูลที่หลากหลายและครอบคลุมได้บน เว็บไซต์ Google AI ซึ่งรวมถึง Project Respect , Inclusive Images และ Open Images Extended และอื่นๆ อีกมากมาย
  3. ใช้ประโยชน์จากกฎหรือตัวแยกประเภท (เมื่อเกี่ยวข้อง) เพื่อติดป้ายกำกับข้อมูลของคุณด้วยแอตทริบิวต์ระดับพื้นผิวที่เป็นวัตถุประสงค์ ตัวอย่างเช่น คุณสามารถติดป้ายกำกับข้อความว่ามีคำที่ใช้ระบุตัวตน ใน ประโยคหรือไม่ โปรดทราบว่าตัวแยกประเภทก็มีความท้าทายในตัวเอง และถ้าคุณไม่ระวัง ก็อาจทำให้เกิดอคติอีกชั้นหนึ่งได้เช่นกัน มีความชัดเจนว่า จริงๆ แล้ว ตัวแยกประเภทของคุณกำลังจัดประเภทอะไรอยู่ ตัวอย่างเช่น ตัวแยกประเภทอายุในรูปภาพ จริงๆ แล้วเป็นการจัดประเภท อายุที่รับรู้ นอกจากนี้ หากเป็นไปได้ ให้ใช้ประโยชน์จากคุณลักษณะระดับพื้นผิวที่ สามารถ ระบุได้อย่างเป็นกลางในข้อมูล ตัวอย่างเช่น ไม่แนะนำให้สร้างตัวแยกประเภทรูปภาพสำหรับเชื้อชาติหรือชาติพันธุ์ เนื่องจากสิ่งเหล่านี้ไม่ใช่ลักษณะทางการมองเห็นที่สามารถกำหนดไว้ในรูปภาพได้ ตัวแยกประเภทมีแนวโน้มที่จะรับพร็อกซีหรือแบบเหมารวม การสร้างตัวแยกประเภทสำหรับโทนสีผิวอาจเป็นวิธีที่เหมาะสมกว่าในการติดป้ายกำกับและประเมินภาพ สุดท้ายนี้ ตรวจสอบให้แน่ใจว่ามีความแม่นยำสูงสำหรับตัวแยกประเภทที่ติดป้ายกำกับคุณลักษณะดังกล่าว
  4. ค้นหาข้อมูลตัวแทนเพิ่มเติมที่มีป้ายกำกับ

อย่าลืมประเมินชุดข้อมูลที่หลากหลายและหลากหลายเสมอ

หากข้อมูลการประเมินของคุณไม่ได้เป็นตัวแทนของฐานผู้ใช้ของคุณอย่างเพียงพอ หรือประเภทของข้อมูลที่มีแนวโน้มว่าจะพบ คุณอาจได้รับตัวชี้วัดความเป็นธรรมที่ดีอย่างหลอกลวง ในทำนองเดียวกัน ประสิทธิภาพของโมเดลที่สูงบนชุดข้อมูลชุดหนึ่งไม่ได้รับประกันประสิทธิภาพสูงในชุดข้อมูลอื่นๆ

โปรดทราบว่ากลุ่มย่อยไม่ใช่วิธีที่ดีที่สุดในการจำแนกบุคคลเสมอไป

ผู้คนมีหลายมิติและอยู่ในกลุ่มมากกว่าหนึ่งกลุ่ม แม้จะอยู่ในมิติเดียว ลองพิจารณาคนที่มีหลายเชื้อชาติหรืออยู่ในหลายกลุ่มเชื้อชาติ นอกจากนี้ แม้ว่าการวัดโดยรวมสำหรับกลุ่มเชื้อชาติหนึ่งๆ อาจดูเท่าเทียมกัน แต่ปฏิสัมพันธ์บางอย่าง เช่น เชื้อชาติและเพศร่วมกัน อาจแสดงอคติโดยไม่ได้ตั้งใจ นอกจากนี้ กลุ่มย่อยจำนวนมากยังมีขอบเขตที่ไม่ชัดเจนซึ่งจะถูกวาดใหม่อยู่ตลอดเวลา

เมื่อใดที่ฉันทดสอบสไลซ์ได้เพียงพอแล้ว และฉันจะรู้ได้อย่างไรว่าต้องทดสอบสไลซ์ใด

เรารับทราบว่ามีกลุ่มหรือส่วนต่างๆ จำนวนมากที่อาจเกี่ยวข้องกับการทดสอบ และเมื่อเป็นไปได้ เราขอแนะนำให้แบ่งส่วนและประเมินส่วนต่างๆ ที่หลากหลายและหลากหลาย จากนั้นจึงเจาะลึกในส่วนที่คุณมองเห็นโอกาสในการปรับปรุง สิ่งสำคัญคือต้องรับทราบว่าแม้คุณอาจไม่เห็นข้อกังวลเกี่ยวกับชิ้นส่วนที่คุณทดสอบ แต่นั่นไม่ได้หมายความว่าผลิตภัณฑ์ของคุณใช้ได้กับผู้ใช้ ทุกคน และการได้รับคำติชมและการทดสอบจากผู้ใช้ที่หลากหลายเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าคุณจะระบุผลิตภัณฑ์ใหม่ได้อย่างต่อเนื่อง โอกาส.

ในการเริ่มต้น เราขอแนะนำให้พิจารณากรณีการใช้งานเฉพาะของคุณ และวิธีต่างๆ ที่ผู้ใช้อาจมีส่วนร่วมกับผลิตภัณฑ์ของคุณ ผู้ใช้แต่ละรายอาจมีประสบการณ์ที่แตกต่างกันอย่างไร นั่นหมายความว่าอย่างไรสำหรับสไลซ์ที่คุณควรประเมิน? การรวบรวมความคิดเห็นจากผู้ใช้ที่หลากหลายยังอาจเน้นส่วนที่น่าจะเป็นไปได้เพื่อจัดลำดับความสำคัญด้วย

ฉันควรเลือกเมตริกใด

เมื่อเลือกหน่วยวัดที่จะประเมินสำหรับระบบของคุณ ให้พิจารณาว่าใครบ้างที่จะพบกับโมเดลของคุณ จะรับประสบการณ์อย่างไร และผลกระทบของประสบการณ์นั้น

ตัวอย่างเช่น แบบจำลองของคุณทำให้ผู้คนมีศักดิ์ศรีหรือเป็นอิสระมากขึ้น หรือส่งผลกระทบเชิงบวกต่ออารมณ์ ร่างกาย หรือความเป็นอยู่ทางการเงินของพวกเขาอย่างไร ในทางตรงกันข้าม การคาดการณ์ของแบบจำลองของคุณจะลดศักดิ์ศรีหรือความเป็นอิสระของผู้คน หรือส่งผลเสียต่ออารมณ์ ร่างกาย หรือความเป็นอยู่ทางการเงินของพวกเขาได้อย่างไร

โดยทั่วไป เราขอแนะนำให้ แบ่งเมตริกประสิทธิภาพที่มีอยู่ทั้งหมดออกเป็นแนวปฏิบัติที่ดี นอกจากนี้เรายังแนะนำให้ประเมินเมตริกของคุณตาม เกณฑ์ต่างๆ เพื่อทำความเข้าใจว่าเกณฑ์ดังกล่าวส่งผลต่อประสิทธิภาพของกลุ่มต่างๆ อย่างไร

นอกจากนี้ หากมีป้ายกำกับที่คาดการณ์ซึ่งมี "ดี" หรือ "ไม่ดี" เหมือนกัน ให้พิจารณาการรายงาน (สำหรับแต่ละกลุ่มย่อย) อัตราที่ป้ายกำกับนั้นถูกคาดการณ์ ตัวอย่างเช่น ป้ายกำกับ "ดี" จะเป็นป้ายกำกับที่การคาดการณ์อนุญาตให้บุคคลเข้าถึงทรัพยากรบางอย่าง หรือเปิดให้ดำเนินการบางอย่างได้

ตัวชี้วัดความเป็นธรรมที่สำคัญสำหรับการจำแนกประเภท

เมื่อคิดถึงแบบจำลองการจำแนกประเภท ให้คิดถึงผลกระทบของ ข้อผิดพลาด (ความแตกต่างระหว่างป้ายกำกับ "ความจริงจากการภาคพื้นดิน" ที่เกิดขึ้นจริงกับป้ายกำกับจากแบบจำลอง) หากข้อผิดพลาดบางอย่างอาจก่อให้เกิดโอกาสหรืออันตรายต่อผู้ใช้มากขึ้น ตรวจสอบให้แน่ใจว่าคุณได้ประเมินอัตราของข้อผิดพลาดเหล่านี้ในกลุ่มผู้ใช้ อัตราข้อผิดพลาดเหล่านี้กำหนดไว้ด้านล่างในเมตริกที่สนับสนุนโดย Fairness Indicators รุ่นเบต้าในปัจจุบัน

ในช่วงปีหน้า เราหวังว่าจะเผยแพร่กรณีศึกษาของกรณีการใช้งานที่แตกต่างกันและตัวชี้วัดที่เกี่ยวข้องกับสิ่งเหล่านี้ เพื่อให้เราสามารถเน้นได้ดีขึ้นเมื่อใดที่ตัวชี้วัดที่แตกต่างกันอาจเหมาะสมที่สุด

ตัวชี้วัดที่มีอยู่ในวันนี้ในตัวชี้วัดความเป็นธรรม

อัตราบวก / อัตราลบ

  • คำจำกัดความ: เปอร์เซ็นต์ของจุดข้อมูลที่จัดอยู่ในประเภทเป็นบวกหรือลบ โดยไม่ขึ้นอยู่กับความจริงจากพื้นฐาน
  • เกี่ยวข้องกับ: ความเท่าเทียมกันทางประชากรและความเท่าเทียมกันของผลลัพธ์ เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้เมตริกนี้: กรณีการใช้งานอย่างเป็นธรรมโดยที่เปอร์เซ็นต์สุดท้ายของกลุ่มเท่ากันเป็นสิ่งสำคัญ

อัตราบวกจริง / อัตราลบเท็จ

  • คำจำกัดความ: เปอร์เซ็นต์ของจุดข้อมูลเชิงบวก (ตามที่ระบุไว้ในความจริงภาคพื้นดิน) ที่ได้รับการจำแนก อย่างถูกต้อง ว่าเป็นค่าบวก หรือเปอร์เซ็นต์ของจุดข้อมูลเชิงบวกที่จัด อย่างไม่ถูกต้อง ว่าเป็นค่าลบ
  • เกี่ยวข้องกับ: ความเท่าเทียมกันของโอกาส (สำหรับระดับเชิงบวก) เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้ตัวชี้วัดนี้: กรณีการใช้งานอย่างเป็นธรรมซึ่งเป็นสิ่งสำคัญที่ % ที่เท่ากันของผู้สมัครที่มีคุณสมบัติจะได้รับคะแนนเป็นบวกในแต่ละกลุ่ม โดยทั่วไปเราแนะนำสิ่งนี้ไว้ในกรณีที่แยกประเภทผลลัพธ์เชิงบวก เช่น การขอสินเชื่อ การรับเข้าเรียนในโรงเรียน หรือพิจารณาว่าเนื้อหาเหมาะสำหรับเด็กหรือไม่

อัตราลบจริง / อัตราบวกเท็จ

  • คำจำกัดความ: เปอร์เซ็นต์ของจุดข้อมูลเชิงลบ (ตามที่ระบุไว้ในความจริงภาคพื้นดิน) ที่ได้รับการจำแนกอย่างถูกต้องว่าเป็นค่าลบ หรือเปอร์เซ็นต์ของจุดข้อมูลเชิงลบที่จัดอย่างไม่ถูกต้องว่าเป็นค่าบวก
  • เกี่ยวข้องกับ: ความเท่าเทียมกันของโอกาส (สำหรับคลาสเชิงลบ) เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้เมตริกนี้: กรณีการใช้งานเพื่อความเป็นธรรมซึ่งอัตราข้อผิดพลาด (หรือการจัดประเภทบางอย่างเป็นบวก) มีความสำคัญมากกว่าการจัดประเภทเชิงบวก กรณีนี้พบบ่อยที่สุดในกรณีการละเมิด ซึ่ง ผลบวก มักจะนำไปสู่การกระทำเชิงลบ สิ่งเหล่านี้ยังมีความสำคัญสำหรับเทคโนโลยีการวิเคราะห์ใบหน้า เช่น การตรวจจับใบหน้าหรือคุณลักษณะของใบหน้า

ความแม่นยำและ AUC

  • เกี่ยวข้องกับ: ความเท่าเทียมกันในการทำนาย เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้ตัวชี้วัดเหล่านี้: กรณีที่ความแม่นยำของงานมีความสำคัญที่สุด (ไม่จำเป็นต้องไปในทิศทางที่กำหนด) เช่น การระบุใบหน้าหรือการจัดกลุ่มใบหน้า

อัตราการค้นพบเท็จ

  • คำจำกัดความ: เปอร์เซ็นต์ของจุดข้อมูลเชิงลบ (ตามที่ระบุไว้ในความจริงภาคพื้นดิน) ที่ถูกจัดประเภทอย่างไม่ถูกต้องเป็นผลบวก จากจุดข้อมูลทั้งหมดที่จัดว่าเป็นบวก นี่ก็เป็นค่าผกผันของ PPV เช่นกัน
  • เกี่ยวข้องกับ: ความเท่าเทียมกันในการทำนาย (หรือที่เรียกว่าการปรับเทียบ) เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้เมตริกนี้: กรณีที่เศษส่วนของการคาดการณ์เชิงบวกที่ถูกต้องควรเท่ากันในกลุ่มย่อย

อัตราการละเว้นเท็จ

  • คำจำกัดความ: เปอร์เซ็นต์ของจุดข้อมูลเชิงบวก (ตามที่ระบุไว้ในความจริงภาคพื้นดิน) ที่ถูกจัดประเภทอย่างไม่ถูกต้องเป็นลบ จากจุดข้อมูลทั้งหมดที่จัดว่าเป็นลบ นี่ก็เป็นค่าผกผันของ NPV เช่นกัน
  • เกี่ยวข้องกับ: ความเท่าเทียมกันในการทำนาย (หรือที่เรียกว่าการปรับเทียบ) เมื่อเท่ากันในกลุ่มย่อย
  • เมื่อใดที่ควรใช้เมตริกนี้: กรณีที่เศษส่วนของการคาดการณ์เชิงลบที่ถูกต้องควรเท่ากันในกลุ่มย่อย

อัตราการพลิกโดยรวม / อัตราการพลิกการคาดการณ์เชิงบวกเป็นลบ / อัตราการพลิกการคาดการณ์เชิงลบเป็นเชิงบวก

  • คำจำกัดความ: ความน่าจะเป็นที่ตัวแยกประเภทให้การคาดการณ์ที่แตกต่างกัน หากแอตทริบิวต์เอกลักษณ์ในคุณลักษณะที่กำหนดมีการเปลี่ยนแปลง
  • เกี่ยวข้องกับ: ความเป็นธรรมต่อต้านข้อเท็จจริง
  • เมื่อใดที่ควรใช้หน่วยเมตริกนี้: เมื่อพิจารณาว่าการคาดการณ์ของโมเดลเปลี่ยนแปลงหรือไม่เมื่อมีการลบหรือแทนที่แอตทริบิวต์ละเอียดอ่อนที่อ้างอิงในตัวอย่าง หากเป็นเช่นนั้น ให้พิจารณาใช้เทคนิคการจับคู่ Logit ต้านข้อเท็จจริงภายในไลบรารีการแก้ไขโมเดล Tensorflow

จำนวนพลิก / จำนวนพลิกการคาดการณ์เชิงบวกเป็นลบ / จำนวนพลิกการคาดการณ์เชิงลบเป็นเชิงบวก *

  • คำจำกัดความ: จำนวนครั้งที่ตัวแยกประเภทให้คำทำนายที่แตกต่างกัน หากคำระบุตัวตนในตัวอย่างที่กำหนดมีการเปลี่ยนแปลง
  • เกี่ยวข้องกับ: ความเป็นธรรมต่อต้านข้อเท็จจริง
  • เมื่อใดที่ควรใช้หน่วยเมตริกนี้: เมื่อพิจารณาว่าการคาดการณ์ของโมเดลเปลี่ยนแปลงหรือไม่เมื่อมีการลบหรือแทนที่แอตทริบิวต์ละเอียดอ่อนที่อ้างอิงในตัวอย่าง หากเป็นเช่นนั้น ให้พิจารณาใช้เทคนิคการจับคู่ Logit ต้านข้อเท็จจริงภายในไลบรารีการแก้ไขโมเดล Tensorflow

ตัวอย่างเมตริกที่จะเลือก

  • ความล้มเหลวในการตรวจจับใบหน้าในแอปกล้องอย่างเป็นระบบอาจนำไปสู่ประสบการณ์ผู้ใช้เชิงลบสำหรับกลุ่มผู้ใช้บางกลุ่ม ในกรณีนี้ ผลลบลวงในระบบการตรวจจับใบหน้าอาจทำให้ผลิตภัณฑ์ทำงานล้มเหลว ในขณะที่ผลบวกลวง (การตรวจจับใบหน้าเมื่อไม่มี) อาจทำให้ผู้ใช้รำคาญเล็กน้อย ดังนั้นการประเมินและลดอัตราผลลบลวงจึงเป็นสิ่งสำคัญสำหรับกรณีการใช้งานนี้
  • การทำเครื่องหมายความคิดเห็นในข้อความอย่างไม่เป็นธรรมจากบางคนว่าเป็น "สแปม" หรือ "เป็นพิษสูง" ในระบบการกลั่นกรองจะทำให้เสียงบางเสียงถูกเงียบลง ในด้านหนึ่ง อัตราผลบวกลวงที่สูงนำไปสู่การเซ็นเซอร์ที่ไม่ยุติธรรม ในทางกลับกัน อัตราลบลวงที่สูงอาจนำไปสู่การแพร่กระจายของเนื้อหาที่เป็นพิษจากกลุ่มบางกลุ่ม ซึ่งอาจเป็นอันตรายต่อผู้ใช้และก่อให้เกิดอันตรายที่เป็นตัวแทนสำหรับกลุ่มเหล่านั้น ดังนั้น ตัวชี้วัดทั้งสองจึงเป็นสิ่งสำคัญที่ต้องพิจารณา นอกเหนือจากตัวชี้วัดที่คำนึงถึงข้อผิดพลาดทุกประเภท เช่น ความแม่นยำหรือ AUC

ไม่เห็นตัวชี้วัดที่คุณกำลังมองหาใช่ไหม

ปฏิบัติตามเอกสารประกอบ ที่นี่ เพื่อเพิ่มเมตริกที่คุณกำหนดเอง

บันทึกสุดท้าย

ช่องว่างในเมตริกระหว่างสองกลุ่มอาจเป็นสัญญาณว่าโมเดลของคุณอาจมีความเบี่ยงเบนที่ไม่ยุติธรรม คุณควรตีความผลลัพธ์ตามกรณีการใช้งานของคุณ อย่างไรก็ตาม สัญญาณแรกที่บ่งบอกว่าคุณอาจปฏิบัติต่อผู้ใช้กลุ่มหนึ่ง อย่างไม่ยุติธรรม ก็คือเมื่อเมตริกระหว่างผู้ใช้กลุ่มนั้นและภาพรวมของคุณแตกต่างกันอย่างมาก อย่าลืมคำนึงถึงช่วงความเชื่อมั่นเมื่อดูความแตกต่างเหล่านี้ เมื่อคุณมีตัวอย่างน้อยเกินไปในส่วนใดส่วนหนึ่ง ความแตกต่างระหว่างเมตริกอาจไม่แม่นยำ

การบรรลุความเท่าเทียมกันระหว่างกลุ่มตามตัวบ่งชี้ความเป็นธรรมไม่ได้หมายความว่าแบบจำลองนั้นยุติธรรม ระบบมีความซับซ้อนสูง และการบรรลุความเท่าเทียมกันในหนึ่ง (หรือทั้งหมด) ของตัวชี้วัดที่ให้มาไม่สามารถรับประกันความเป็นธรรมได้

การประเมินความเป็นธรรมควรดำเนินการตลอดกระบวนการพัฒนาและหลังการเปิดตัว (ไม่ใช่วันก่อนการเปิดตัว) เช่นเดียวกับการปรับปรุงผลิตภัณฑ์ของคุณเป็นกระบวนการต่อเนื่องและอาจมีการปรับเปลี่ยนตามความคิดเห็นของผู้ใช้และตลาด การทำให้ผลิตภัณฑ์ของคุณยุติธรรมและเสมอภาคต้องได้รับการดูแลอย่างต่อเนื่อง เมื่อแง่มุมต่างๆ ของโมเดลเปลี่ยนแปลง เช่น ข้อมูลการฝึก อินพุตจากโมเดลอื่นๆ หรือการออกแบบ ตัวเมตริกความยุติธรรมจึงมีแนวโน้มที่จะเปลี่ยนแปลง “การล้างแถบ” เพียงครั้งเดียวไม่เพียงพอเพื่อให้แน่ใจว่าส่วนประกอบที่โต้ตอบทั้งหมดยังคงสภาพเดิมอยู่ตลอดเวลา

ควรทำการทดสอบฝ่ายตรงข้ามเพื่อหาตัวอย่างที่เป็นอันตรายซึ่งพบไม่บ่อยนัก การประเมินความเป็นธรรมไม่ได้มีวัตถุประสงค์เพื่อแทนที่การทดสอบฝ่ายตรงข้าม การป้องกันเพิ่มเติมต่อตัวอย่างที่เป็นเป้าหมายซึ่งพบได้ยากเป็นสิ่งสำคัญ เนื่องจากตัวอย่างเหล่านี้อาจจะไม่ปรากฏในข้อมูลการฝึกอบรมหรือการประเมินผล