Tham dự Hội nghị chuyên đề Women in ML vào ngày 7 tháng 12 Đăng ký ngay

Các Chỉ số Công bằng: Suy nghĩ về Đánh giá Công bằng

Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Chỉ báo Công bằng là một công cụ hữu ích để đánh giá các bộ phân loại nhị phânđa lớp nhằm đảm bảo tính công bằng. Cuối cùng, chúng tôi hy vọng sẽ mở rộng công cụ này, hợp tác với tất cả các bạn, để đánh giá nhiều cân nhắc hơn nữa.

Hãy nhớ rằng đánh giá định lượng chỉ là một phần của việc đánh giá trải nghiệm người dùng rộng hơn. Bắt đầu bằng cách suy nghĩ về các bối cảnh khác nhau mà qua đó người dùng có thể trải nghiệm sản phẩm của bạn. Những kiểu người dùng khác nhau mà sản phẩm của bạn dự kiến ​​sẽ phục vụ là ai? Ai khác có thể bị ảnh hưởng bởi trải nghiệm này?

Khi xem xét tác động của AI đối với con người, điều quan trọng là phải luôn nhớ rằng xã hội loài người vô cùng phức tạp! Hiểu biết về con người, và bản sắc xã hội, cấu trúc xã hội và hệ thống văn hóa của họ là những lĩnh vực nghiên cứu rộng lớn theo nghĩa riêng của họ. Ném mình vào sự phức tạp của sự khác biệt giữa các nền văn hóa trên toàn cầu, và thậm chí có được chỗ đứng trong việc hiểu tác động xã hội có thể là một thách thức. Bất cứ khi nào có thể, bạn nên tham khảo ý kiến ​​của các chuyên gia lĩnh vực thích hợp, có thể bao gồm các nhà khoa học xã hội, nhà xã hội học và nhà nhân học văn hóa, cũng như với các thành viên của quần thể mà công nghệ sẽ được triển khai.

Một mô hình duy nhất, ví dụ, mô hình độc tính mà chúng tôi tận dụng trong chuyên mục ví dụ , có thể được sử dụng trong nhiều ngữ cảnh khác nhau. Ví dụ: một mô hình độc hại được triển khai trên một trang web để lọc các nhận xét xúc phạm là một trường hợp sử dụng rất khác với mô hình đang được triển khai trong giao diện người dùng web mẫu, nơi người dùng có thể nhập một câu và xem mô hình cho điểm gì. Tùy thuộc vào trường hợp sử dụng và cách người dùng trải nghiệm dự đoán mô hình, sản phẩm của bạn sẽ có những rủi ro, ảnh hưởng và cơ hội khác nhau và bạn có thể muốn đánh giá các mối quan tâm về tính công bằng khác nhau.

Các câu hỏi trên là nền tảng của những cân nhắc về đạo đức, bao gồm cả sự công bằng, mà bạn có thể muốn tính đến khi thiết kế và phát triển sản phẩm dựa trên ML của mình. Những câu hỏi này cũng thúc đẩy chỉ số nào và nhóm người dùng nào bạn nên sử dụng công cụ để đánh giá.

Trước khi tìm hiểu sâu hơn, đây là ba tài nguyên được khuyến nghị để bắt đầu:

  • Sách hướng dẫn Con người + AI cho thiết kế AI lấy con người làm trung tâm: Sách hướng dẫn này là một nguồn tài liệu tuyệt vời cho các câu hỏi và khía cạnh cần lưu ý khi thiết kế một sản phẩm dựa trên máy học. Mặc dù chúng tôi tạo ra cuốn sách hướng dẫn này với các nhà thiết kế, nhưng nhiều nguyên tắc sẽ giúp trả lời các câu hỏi như nguyên tắc được đặt ra ở trên.
  • Bài học về tính công bằng của chúng tôi : Buổi trò chuyện tại Google I / O này thảo luận về các bài học mà chúng tôi đã học được trong mục tiêu xây dựng và thiết kế các sản phẩm toàn diện.
  • Khóa học về sự cố ML: Sự công bằng : Khóa học về sự cố ML có một phần 70 phút dành riêng cho việc xác định và đánh giá các mối quan tâm về sự công bằng

Vì vậy, tại sao nhìn vào các lát riêng lẻ? Đánh giá qua các phần riêng lẻ là rất quan trọng vì các chỉ số tổng thể mạnh mẽ có thể che khuất hiệu suất kém đối với một số nhóm nhất định. Tương tự, hoạt động tốt đối với một số liệu nhất định (độ chính xác, AUC) không phải lúc nào cũng chuyển thành hiệu suất có thể chấp nhận được đối với các chỉ số khác (tỷ lệ dương tính giả, tỷ lệ âm tính giả) cũng quan trọng không kém trong việc đánh giá cơ hội và tác hại đối với người dùng.

Các phần dưới đây sẽ đi qua một số khía cạnh cần xem xét.

Tôi nên chia theo nhóm nào?

Nói chung, một phương pháp hay là chia theo càng nhiều nhóm càng có thể bị ảnh hưởng bởi sản phẩm của bạn, vì bạn không bao giờ biết khi nào hiệu suất có thể khác nhau đối với nhóm kia. Tuy nhiên, nếu bạn không chắc chắn, hãy nghĩ về những người dùng khác nhau có thể tương tác với sản phẩm của bạn và họ có thể bị ảnh hưởng như thế nào. Đặc biệt, hãy xem xét các khía cạnh liên quan đến các đặc điểm nhạy cảm như chủng tộc, dân tộc, giới tính, quốc tịch, thu nhập, khuynh hướng tình dục và tình trạng khuyết tật.

Điều gì sẽ xảy ra nếu tôi không có dữ liệu được gắn nhãn cho các phần mà tôi muốn điều tra?

Câu hỏi hay. Chúng tôi biết rằng nhiều bộ dữ liệu không có nhãn xác thực cho các thuộc tính nhận dạng cá nhân.

Nếu bạn thấy mình ở vị trí này, chúng tôi đề xuất một số cách tiếp cận:

  1. Xác định xem có thuộc tính nào mà bạn có có thể cung cấp cho bạn một số thông tin chi tiết về hiệu suất giữa các nhóm hay không. Ví dụ: địa lý mặc dù không tương đương với dân tộc và chủng tộc, nhưng có thể giúp bạn phát hiện ra bất kỳ mô hình khác biệt nào về hiệu suất
  2. Xác định xem có bộ dữ liệu công khai đại diện có thể ánh xạ tốt đến vấn đề của bạn hay không. Bạn có thể tìm thấy một loạt các bộ dữ liệu đa dạng và bao gồm trên trang web AI của Google , bao gồm Sự tôn trọng của Dự án , Hình ảnh Hòa nhậpHình ảnh Mở rộng , trong số những bộ khác.
  3. Tận dụng các quy tắc hoặc bộ phân loại, khi có liên quan, để gắn nhãn dữ liệu của bạn với các thuộc tính cấp bề mặt khách quan. Ví dụ, bạn có thể gắn nhãn văn bản là có hay không có thuật ngữ nhận dạng trong câu. Hãy nhớ rằng bộ phân loại có những thách thức riêng và nếu bạn không cẩn thận, có thể tạo ra một lớp thiên vị khác. Hãy rõ ràng về những gì bộ phân loại của bạn thực sự đang phân loại. Ví dụ, một bộ phân loại độ tuổi trên hình ảnh trên thực tế đang phân loại độ tuổi cảm nhận . Ngoài ra, khi có thể, hãy tận dụng các thuộc tính cấp độ bề mặt có thể được xác định một cách khách quan trong dữ liệu. Ví dụ: không nên xây dựng bộ phân loại hình ảnh cho chủng tộc hoặc dân tộc, vì đây không phải là những đặc điểm hình ảnh có thể được xác định trong một hình ảnh. Một bộ phân loại có thể sẽ thu thập các proxy hoặc khuôn mẫu. Thay vào đó, xây dựng bộ phân loại cho màu da có thể là một cách thích hợp hơn để ghi nhãn và đánh giá hình ảnh. Cuối cùng, đảm bảo độ chính xác cao cho các bộ phân loại gắn nhãn các thuộc tính đó.
  4. Tìm thêm dữ liệu đại diện được gắn nhãn

Luôn đảm bảo đánh giá trên nhiều bộ dữ liệu đa dạng.

Nếu dữ liệu đánh giá của bạn không đại diện đầy đủ cho cơ sở người dùng của bạn hoặc các loại dữ liệu có thể gặp phải, bạn có thể nhận được các chỉ số công bằng tốt được coi là tốt. Tương tự, hiệu suất mô hình cao trên một tập dữ liệu không đảm bảo hiệu suất cao trên các tập dữ liệu khác.

Hãy nhớ rằng các nhóm con không phải lúc nào cũng là cách tốt nhất để phân loại các cá nhân.

Mọi người là đa chiều và thuộc nhiều nhóm, ngay cả trong một chiều - hãy coi ai đó là đa chủng tộc hoặc thuộc nhiều nhóm chủng tộc. Ngoài ra, mặc dù các chỉ số tổng thể cho một nhóm chủng tộc nhất định có thể trông công bằng, nhưng các tương tác cụ thể, chẳng hạn như chủng tộc và giới tính với nhau có thể cho thấy sự thiên vị ngoài ý muốn. Hơn nữa, nhiều nhóm con có ranh giới mờ liên tục được vẽ lại.

Khi nào tôi đã kiểm tra đủ các lát cắt và làm cách nào để biết những lát cắt nào cần kiểm tra?

Chúng tôi thừa nhận rằng có một số lượng lớn các nhóm hoặc lát cắt có thể phù hợp để kiểm tra và khi có thể, chúng tôi khuyên bạn nên cắt và đánh giá một loạt các lát cắt đa dạng và sau đó đi sâu vào nơi bạn phát hiện ra các cơ hội để cải thiện. Điều quan trọng là phải thừa nhận rằng mặc dù bạn có thể không thấy lo ngại về các phần bạn đã thử nghiệm, nhưng điều đó không có nghĩa là sản phẩm của bạn phù hợp với tất cả người dùng và việc nhận được phản hồi và thử nghiệm đa dạng của người dùng là điều quan trọng để đảm bảo rằng bạn liên tục xác định các sản phẩm mới những cơ hội.

Để bắt đầu, chúng tôi khuyên bạn nên suy nghĩ về trường hợp sử dụng cụ thể của mình và các cách khác nhau mà người dùng có thể tương tác với sản phẩm của bạn. Những người dùng khác nhau có thể có những trải nghiệm khác nhau như thế nào? Điều đó có ý nghĩa gì đối với các lát bạn nên đánh giá? Thu thập phản hồi từ những người dùng đa dạng cũng có thể làm nổi bật các phần tiềm năng cần ưu tiên.

Tôi nên chọn số liệu nào?

Khi chọn số liệu nào để đánh giá cho hệ thống của bạn, hãy cân nhắc xem ai sẽ trải nghiệm mô hình của bạn, trải nghiệm mô hình đó như thế nào và ảnh hưởng của trải nghiệm đó.

Ví dụ: làm thế nào để mô hình của bạn mang lại cho mọi người phẩm giá hoặc quyền tự chủ hơn, hoặc tác động tích cực đến tình cảm, thể chất hoặc tài chính của họ? Ngược lại, làm thế nào những dự đoán của mô hình của bạn có thể làm giảm phẩm giá hoặc quyền tự chủ của con người, hoặc tác động tiêu cực đến tình cảm, thể chất hoặc tài chính của họ?

Nói chung, chúng tôi khuyên bạn nên cắt tất cả các chỉ số hiệu suất hiện có của mình như một phương pháp hay. Chúng tôi cũng khuyên bạn nên đánh giá các chỉ số của mình qua nhiều ngưỡng để hiểu ngưỡng có thể ảnh hưởng như thế nào đến hiệu suất cho các nhóm khác nhau.

Ngoài ra, nếu có một nhãn được dự đoán đồng nhất là "tốt" hoặc "xấu", thì hãy xem xét báo cáo (cho từng nhóm con) tỷ lệ mà nhãn đó được dự đoán. Ví dụ: nhãn "tốt" sẽ là nhãn có dự đoán cho phép một người truy cập vào một số tài nguyên hoặc cho phép họ thực hiện một số hành động.

Các chỉ số công bằng quan trọng để phân loại

Khi nghĩ về một mô hình phân loại, hãy nghĩ về ảnh hưởng của sai số (sự khác biệt giữa nhãn “sự thật cơ bản” thực tế và nhãn từ mô hình). Nếu một số lỗi có thể tạo ra nhiều cơ hội hơn hoặc gây hại cho người dùng của bạn, hãy đảm bảo bạn đánh giá tỷ lệ các lỗi này trên các nhóm người dùng. Các tỷ lệ lỗi này được xác định bên dưới, trong các chỉ số hiện được hỗ trợ bởi phiên bản beta Chỉ báo Công bằng.

Trong suốt năm tới, chúng tôi hy vọng sẽ phát hành các nghiên cứu điển hình về các trường hợp sử dụng khác nhau và các chỉ số liên quan đến những trường hợp này để chúng tôi có thể làm nổi bật hơn khi nào các chỉ số khác nhau có thể phù hợp nhất.

Các chỉ số hiện có trong Chỉ báo Công bằng

Tỷ lệ Tích cực / Tỷ lệ Tiêu cực

  • Định nghĩa: Phần trăm điểm dữ liệu được phân loại là tích cực hoặc tiêu cực, không phụ thuộc vào sự thật cơ bản
  • Liên quan đến: Sự bình đẳng về nhân khẩu học và sự bình đẳng về kết quả, khi bằng nhau giữa các nhóm con
  • Khi nào sử dụng chỉ số này: Các trường hợp sử dụng công bằng trong đó có tỷ lệ phần trăm cuối cùng của các nhóm bằng nhau là quan trọng

Tỷ lệ Tích cực Đúng / Tỷ lệ Phủ định Sai

  • Định nghĩa: Phần trăm điểm dữ liệu tích cực (như được gắn nhãn trong sự thật cơ bản) được phân loại chính xác là tích cực hoặc phần trăm điểm dữ liệu tích cực được phân loại không chính xác là tiêu cực
  • Liên quan đến: Bình đẳng về Cơ hội (đối với lớp tích cực), khi bình đẳng giữa các nhóm con
  • Khi nào sử dụng số liệu này: Các trường hợp sử dụng công bằng trong đó điều quan trọng là cùng một% ứng viên đủ tiêu chuẩn được đánh giá tích cực trong mỗi nhóm. Điều này thường được đề xuất nhất trong các trường hợp phân loại kết quả tích cực, chẳng hạn như đơn xin vay, nhập học hoặc nội dung có thân thiện với trẻ em hay không

Tỷ lệ Phủ định Đúng / Tỷ lệ Tích cực Sai

  • Định nghĩa: Tỷ lệ phần trăm các điểm dữ liệu tiêu cực (được gắn nhãn trong sự thật cơ bản) được phân loại chính xác là phủ định hoặc tỷ lệ phần trăm các điểm dữ liệu phủ định được phân loại không chính xác là tích cực
  • Liên quan đến: Bình đẳng về Cơ hội (đối với lớp phủ định), khi bằng nhau giữa các nhóm con
  • Khi nào sử dụng số liệu này: Các trường hợp sử dụng tính công bằng trong đó tỷ lệ lỗi (hoặc phân loại sai điều gì đó là tích cực) được quan tâm nhiều hơn là phân loại các mặt tích cực. Điều này thường xảy ra nhất trong các trường hợp lạm dụng, nơi tích cực thường dẫn đến hành động tiêu cực. Những điều này cũng quan trọng đối với Công nghệ phân tích khuôn mặt như nhận diện khuôn mặt hoặc các thuộc tính khuôn mặt

Độ chính xác & AUC

  • Liên quan đến: Chẵn lẻ dự đoán, khi bằng nhau giữa các nhóm con
  • Khi nào sử dụng các chỉ số này: Các trường hợp mà độ chính xác của nhiệm vụ là quan trọng nhất (không nhất thiết phải theo một hướng nhất định), chẳng hạn như nhận dạng khuôn mặt hoặc phân cụm khuôn mặt

Tỷ lệ khám phá sai

  • Định nghĩa: Tỷ lệ phần trăm các điểm dữ liệu tiêu cực (như được gắn nhãn trong sự thật cơ bản) được phân loại không chính xác là tích cực trong số tất cả các điểm dữ liệu được phân loại là tích cực. Đây cũng là nghịch đảo của PPV
  • Liên quan đến: Chẵn lẻ Dự đoán (còn được gọi là Hiệu chuẩn), khi bằng nhau giữa các nhóm con
  • Khi nào sử dụng chỉ số này: Các trường hợp trong đó tỷ lệ các dự đoán dương tính đúng phải bằng nhau giữa các nhóm con

Tỷ lệ thiếu sót sai

  • Định nghĩa: Tỷ lệ phần trăm các điểm dữ liệu tích cực (như được gắn nhãn trong sự thật cơ bản) được phân loại không chính xác là tiêu cực trong số tất cả các điểm dữ liệu được phân loại là tiêu cực. Đây cũng là nghịch đảo của NPV
  • Liên quan đến: Chẵn lẻ Dự đoán (còn được gọi là Hiệu chuẩn), khi bằng nhau giữa các nhóm con
  • Khi nào sử dụng chỉ số này: Các trường hợp trong đó phần dự đoán phủ định đúng phải bằng nhau giữa các nhóm con

Tỷ lệ lật tổng thể / Tỷ lệ lật dự đoán từ dương tính đến tiêu cực / Tỷ lệ lật dự đoán từ âm đến dương

  • Định nghĩa: Xác suất mà bộ phân loại đưa ra một dự đoán khác nếu thuộc tính nhận dạng trong một đối tượng địa lý nhất định bị thay đổi.
  • Liên quan đến: Công bằng thực tế
  • Khi nào sử dụng số liệu này: Khi xác định liệu dự đoán của mô hình có thay đổi hay không khi các thuộc tính nhạy cảm được tham chiếu trong ví dụ bị xóa hoặc thay thế. Nếu có, hãy xem xét sử dụng kỹ thuật Ghép nối bản ghi ngược thực trong thư viện Tensorflow Model Remediation.

Số lần lật / Số lần dự đoán từ dương tính đến phủ định / Số lần từ dự đoán từ phủ định đến tích cực Số lần lật của dự đoán *

  • Định nghĩa: Số lần bộ phân loại đưa ra một dự đoán khác nếu cụm từ nhận dạng trong một ví dụ nhất định bị thay đổi.
  • Liên quan đến: Công bằng thực tế
  • Khi nào sử dụng số liệu này: Khi xác định liệu dự đoán của mô hình có thay đổi hay không khi các thuộc tính nhạy cảm được tham chiếu trong ví dụ bị xóa hoặc thay thế. Nếu có, hãy xem xét sử dụng kỹ thuật Ghép nối bản ghi ngược thực trong thư viện Tensorflow Model Remediation.

Ví dụ về các chỉ số để chọn

  • Hệ thống không nhận diện được khuôn mặt trong ứng dụng máy ảnh có thể dẫn đến trải nghiệm người dùng tiêu cực cho một số nhóm người dùng nhất định. Trong trường hợp này, âm tính giả trong hệ thống nhận diện khuôn mặt có thể dẫn đến hỏng sản phẩm, trong khi âm tính giả (phát hiện khuôn mặt khi không có khuôn mặt) có thể gây ra một chút phiền toái cho người dùng. Do đó, việc đánh giá và giảm thiểu tỷ lệ âm tính giả là rất quan trọng đối với trường hợp sử dụng này.
  • Đánh dấu không công bằng các nhận xét văn bản từ một số người là "spam" hoặc "độc tính cao" trong một hệ thống kiểm duyệt dẫn đến một số giọng nói nhất định bị im lặng. Một mặt, tỷ lệ dương tính giả cao dẫn đến việc kiểm duyệt không công bằng. Mặt khác, tỷ lệ âm tính giả cao có thể dẫn đến sự gia tăng nội dung độc hại từ một số nhóm nhất định, điều này có thể gây hại cho người dùng và tạo thành tác hại đại diện cho các nhóm đó. Do đó, cả hai chỉ số đều quan trọng cần xem xét, ngoài các chỉ số có tính đến tất cả các loại lỗi như độ chính xác hoặc AUC.

Không thấy các chỉ số bạn đang tìm kiếm?

Thực hiện theo tài liệu tại đây để thêm số liệu tùy chỉnh của riêng bạn.

Ghi chú cuối cùng

Khoảng cách về chỉ số giữa hai nhóm có thể là một dấu hiệu cho thấy mô hình của bạn có thể có sai lệch không công bằng . Bạn nên giải thích kết quả của mình theo trường hợp sử dụng của bạn. Tuy nhiên, dấu hiệu đầu tiên cho thấy bạn có thể đang đối xử không công bằng với một nhóm người dùng là khi các chỉ số giữa nhóm người dùng đó và tổng thể của bạn khác nhau đáng kể. Đảm bảo tính đến khoảng tin cậy khi xem xét những khác biệt này. Khi bạn có quá ít mẫu trong một phần cụ thể, sự khác biệt giữa các chỉ số có thể không chính xác.

Đạt được sự bình đẳng giữa các nhóm trên các Chỉ số Công bằng không có nghĩa là mô hình này là công bằng. Các hệ thống rất phức tạp và việc đạt được sự bình đẳng trên một (hoặc thậm chí tất cả) các chỉ số được cung cấp không thể đảm bảo tính Công bằng.

Đánh giá tính công bằng nên được thực hiện trong suốt quá trình phát triển và sau khi ra mắt (không phải một ngày trước khi ra mắt). Giống như việc cải thiện sản phẩm của bạn là một quá trình liên tục và có thể điều chỉnh dựa trên phản hồi của người dùng và thị trường, việc làm cho sản phẩm của bạn công bằng và bình đẳng đòi hỏi sự chú ý liên tục. Khi các khía cạnh khác nhau của mô hình thay đổi, chẳng hạn như dữ liệu đào tạo, dữ liệu đầu vào từ các mô hình khác hoặc bản thân thiết kế, các chỉ số công bằng có khả năng thay đổi. “Xóa thanh” một lần không đủ để đảm bảo rằng tất cả các thành phần tương tác vẫn còn nguyên vẹn theo thời gian.

Thử nghiệm đối nghịch nên được thực hiện đối với các ví dụ hiếm, độc hại. Đánh giá tính công bằng không có nghĩa là để thay thế kiểm tra đối thủ. Phòng thủ bổ sung chống lại các ví dụ được nhắm mục tiêu, hiếm gặp là rất quan trọng vì những ví dụ này có thể sẽ không hiển thị trong dữ liệu đào tạo hoặc đánh giá.