Indikator Kewajaran: Memikirkan Evaluasi Kewajaran

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Indikator Keadilan adalah alat yang berguna untuk mengevaluasi pengklasifikasi biner dan multi-kelas untuk keadilan. Akhirnya, kami berharap dapat memperluas alat ini, dalam kemitraan dengan Anda semua, untuk mengevaluasi lebih banyak pertimbangan.

Ingatlah bahwa evaluasi kuantitatif hanyalah salah satu bagian dari evaluasi pengalaman pengguna yang lebih luas. Mulailah dengan memikirkan konteks yang berbeda di mana pengguna mungkin mengalami produk Anda. Siapa saja jenis pengguna yang diharapkan dilayani oleh produk Anda? Siapa lagi yang mungkin terpengaruh oleh pengalaman itu?

Saat mempertimbangkan dampak AI pada manusia, penting untuk selalu diingat bahwa masyarakat manusia sangat kompleks! Memahami orang, dan identitas sosial, struktur sosial, dan sistem budaya mereka masing-masing merupakan bidang penelitian terbuka yang luas. Melemparkan kompleksitas perbedaan lintas budaya di seluruh dunia, dan bahkan mendapatkan pijakan untuk memahami dampak sosial dapat menjadi tantangan. Jika memungkinkan, Anda disarankan untuk berkonsultasi dengan pakar domain yang sesuai, yang mungkin mencakup ilmuwan sosial, sosiolinguistik, dan antropolog budaya, serta dengan anggota populasi yang akan menerapkan teknologi.

Model tunggal, misalnya, model toksisitas yang kami manfaatkan dalam contoh colab , dapat digunakan dalam banyak konteks berbeda. Model toksisitas yang diterapkan di situs web untuk memfilter komentar yang menyinggung, misalnya, adalah kasus penggunaan yang sangat berbeda dari model yang diterapkan di UI web contoh tempat pengguna dapat mengetikkan kalimat dan melihat skor yang diberikan model tersebut. Bergantung pada kasus penggunaan, dan bagaimana pengguna mengalami prediksi model, produk Anda akan memiliki risiko, efek, dan peluang yang berbeda dan Anda mungkin ingin mengevaluasi masalah keadilan yang berbeda.

Pertanyaan di atas adalah dasar pertimbangan etis apa, termasuk keadilan, yang mungkin ingin Anda perhitungkan saat merancang dan mengembangkan produk berbasis ML Anda. Pertanyaan-pertanyaan ini juga memotivasi metrik mana dan kelompok pengguna mana yang harus Anda gunakan untuk mengevaluasi alat tersebut.

Sebelum menyelam lebih jauh, berikut adalah tiga sumber daya yang direkomendasikan untuk memulai:

  • Buku Panduan People + AI untuk desain AI yang berpusat pada manusia: Buku panduan ini adalah sumber yang bagus untuk pertanyaan dan aspek yang perlu diingat saat merancang produk berbasis pembelajaran mesin. Sementara kami membuat buku panduan ini dengan mempertimbangkan desainer, banyak prinsip akan membantu menjawab pertanyaan seperti yang diajukan di atas.
  • Pelajaran Keadilan Kami : Pembicaraan di Google I/O ini membahas pelajaran yang telah kami pelajari dalam tujuan kami untuk membangun dan mendesain produk inklusif.
  • Kursus Singkat ML: Keadilan : Kursus Singkat ML memiliki bagian 70 menit yang didedikasikan untuk mengidentifikasi dan mengevaluasi masalah keadilan

Jadi, mengapa melihat irisan individu? Evaluasi atas irisan individu penting karena metrik keseluruhan yang kuat dapat mengaburkan kinerja yang buruk untuk kelompok tertentu. Demikian pula, berkinerja baik untuk metrik tertentu (akurasi, AUC) tidak selalu berarti kinerja yang dapat diterima untuk metrik lain (rasio positif palsu, rasio negatif palsu) yang sama pentingnya dalam menilai peluang dan kerugian bagi pengguna.

Bagian di bawah ini akan membahas beberapa aspek yang perlu dipertimbangkan.

Grup mana yang harus saya potong?

Secara umum, praktik yang baik adalah membagi kelompok sebanyak mungkin yang terpengaruh oleh produk Anda, karena Anda tidak pernah tahu kapan kinerja mungkin berbeda untuk satu sama lain. Namun, jika Anda tidak yakin, pikirkan tentang berbagai pengguna yang mungkin terlibat dengan produk Anda, dan bagaimana pengaruhnya terhadap mereka. Pertimbangkan, khususnya, potongan-potongan yang berkaitan dengan karakteristik sensitif seperti ras, etnis, jenis kelamin, kebangsaan, pendapatan, orientasi seksual, dan status disabilitas.

Bagaimana jika saya tidak memiliki data yang diberi label untuk irisan yang ingin saya selidiki?

Pertanyaan bagus. Kita tahu bahwa banyak kumpulan data tidak memiliki label kebenaran dasar untuk atribut identitas individu.

Jika Anda menemukan diri Anda dalam posisi ini, kami merekomendasikan beberapa pendekatan:

  1. Identifikasi apakah ada atribut yang Anda miliki yang dapat memberi Anda beberapa wawasan tentang kinerja di seluruh grup. Misalnya, geografi meskipun tidak setara dengan etnis & ras, dapat membantu Anda menemukan pola yang berbeda dalam kinerja
  2. Identifikasi apakah ada kumpulan data publik yang representatif yang mungkin memetakan dengan baik masalah Anda. Anda dapat menemukan berbagai kumpulan data yang beragam dan inklusif di situs Google AI , yang antara lain meliputi Project Respect , Inclusive Images , dan Open Images Extended .
  3. Manfaatkan aturan atau pengklasifikasi, jika relevan, untuk melabeli data Anda dengan atribut tingkat permukaan yang objektif. Misalnya, Anda dapat memberi label teks apakah ada istilah identitas dalam kalimat atau tidak. Ingatlah bahwa pengklasifikasi memiliki tantangannya sendiri, dan jika Anda tidak hati-hati, dapat menimbulkan lapisan bias lain juga. Perjelas tentang apa yang sebenarnya diklasifikasi oleh pengklasifikasi Anda. Misalnya, pengklasifikasi usia pada gambar sebenarnya mengklasifikasikan usia yang dirasakan . Selain itu, jika memungkinkan, manfaatkan atribut tingkat permukaan yang dapat diidentifikasi secara objektif dalam data. Misalnya, tidak disarankan untuk membuat pengklasifikasi gambar untuk ras atau etnis, karena ini bukan ciri visual yang dapat didefinisikan dalam gambar. Pengklasifikasi kemungkinan akan menangkap proxy atau stereotip. Sebaliknya, membangun pengklasifikasi untuk warna kulit mungkin merupakan cara yang lebih tepat untuk memberi label dan mengevaluasi sebuah gambar. Terakhir, pastikan akurasi tinggi untuk pengklasifikasi yang melabeli atribut tersebut.
  4. Temukan lebih banyak data representatif yang diberi label

Selalu pastikan untuk mengevaluasi beberapa set data yang beragam.

Jika data evaluasi Anda tidak cukup mewakili basis pengguna Anda, atau jenis data yang mungkin ditemui, Anda mungkin mendapatkan metrik keadilan yang menipu. Demikian pula, kinerja model tinggi pada satu set data tidak menjamin kinerja tinggi pada yang lain.

Ingatlah bahwa subkelompok tidak selalu merupakan cara terbaik untuk mengklasifikasikan individu.

Orang-orang bersifat multidimensi dan termasuk dalam lebih dari satu kelompok, bahkan dalam satu dimensi -- pertimbangkan seseorang yang multiras, atau termasuk dalam beberapa kelompok ras. Selain itu, meskipun metrik keseluruhan untuk kelompok ras tertentu mungkin terlihat adil, interaksi tertentu, seperti ras dan gender bersama-sama dapat menunjukkan bias yang tidak disengaja. Selain itu, banyak subkelompok memiliki batas fuzzy yang terus-menerus digambar ulang.

Kapan saya telah menguji cukup banyak irisan, dan bagaimana saya tahu irisan mana yang harus diuji?

Kami mengakui bahwa ada banyak sekali kelompok atau irisan yang mungkin relevan untuk diuji, dan bila memungkinkan, kami menyarankan untuk memotong dan mengevaluasi irisan yang beragam dan luas, lalu menyelami lebih dalam di mana Anda menemukan peluang untuk peningkatan. Penting juga untuk mengetahui bahwa meskipun Anda mungkin tidak melihat masalah pada irisan yang telah Anda uji, itu tidak berarti bahwa produk Anda berfungsi untuk semua pengguna, dan mendapatkan umpan balik dan pengujian pengguna yang beragam penting untuk memastikan bahwa Anda terus mengidentifikasi produk baru. peluang.

Untuk memulai, sebaiknya pikirkan kasus penggunaan khusus Anda dan berbagai cara pengguna dapat terlibat dengan produk Anda. Bagaimana mungkin pengguna yang berbeda memiliki pengalaman yang berbeda? Apa artinya itu untuk irisan yang harus Anda evaluasi? Mengumpulkan umpan balik dari beragam pengguna juga dapat menyoroti potongan potensial untuk diprioritaskan.

Metrik mana yang harus saya pilih?

Saat memilih metrik mana yang akan dievaluasi untuk sistem Anda, pertimbangkan siapa yang akan mengalami model Anda, bagaimana hal itu akan dialami, dan efek dari pengalaman tersebut.

Misalnya, bagaimana model Anda memberi orang lebih banyak martabat atau otonomi, atau berdampak positif pada kesejahteraan emosional, fisik, atau finansial mereka? Sebaliknya, bagaimana prediksi model Anda dapat mengurangi martabat atau otonomi orang, atau berdampak negatif pada kesejahteraan emosional, fisik, atau finansial mereka?

Secara umum, sebaiknya pisahkan semua metrik kinerja yang ada sebagai praktik yang baik. Kami juga merekomendasikan untuk mengevaluasi metrik Anda di beberapa ambang batas untuk memahami bagaimana ambang batas dapat memengaruhi kinerja untuk grup yang berbeda.

Selain itu, jika ada label prediksi yang seragam "baik" atau "buruk", maka pertimbangkan untuk melaporkan (untuk setiap subkelompok) tingkat prediksi label tersebut. Misalnya, label "baik" akan menjadi label yang prediksinya memberi seseorang akses ke beberapa sumber daya, atau memungkinkan mereka melakukan beberapa tindakan.

Metrik keadilan kritis untuk klasifikasi

Saat memikirkan model klasifikasi, pikirkan efek kesalahan (perbedaan antara label “kebenaran dasar” yang sebenarnya, dan label dari model). Jika beberapa kesalahan dapat menimbulkan lebih banyak peluang atau bahaya bagi pengguna Anda, pastikan Anda mengevaluasi tingkat kesalahan ini di seluruh grup pengguna. Tingkat kesalahan ini ditentukan di bawah, dalam metrik yang saat ini didukung oleh Indikator Kewajaran versi beta.

Selama tahun depan, kami berharap untuk merilis studi kasus dari kasus penggunaan yang berbeda dan metrik yang terkait dengannya sehingga kami dapat menyoroti dengan lebih baik kapan metrik yang berbeda mungkin paling sesuai.

Metrik yang tersedia hari ini di Indikator Kewajaran

Nilai Positif / Nilai Negatif

  • Definisi: Persentase titik data yang diklasifikasikan sebagai positif atau negatif, tidak bergantung pada kebenaran dasar
  • Berkaitan dengan: Paritas Demografis dan Kesetaraan Hasil, bila sama di seluruh subkelompok
  • Kapan menggunakan metrik ini: Kasus penggunaan keadilan di mana memiliki persentase akhir kelompok yang sama adalah penting

Tingkat Positif Benar / Tingkat Negatif Palsu

  • Definisi: Persentase titik data positif (sebagaimana diberi label dalam kebenaran dasar) yang diklasifikasikan dengan benar sebagai positif, atau persentase titik data positif yang salah diklasifikasikan sebagai negatif
  • Berkaitan dengan: Kesetaraan Peluang (untuk kelas positif), bila sama di seluruh subkelompok
  • Kapan menggunakan metrik ini: Kasus penggunaan keadilan di mana penting bahwa persentase kandidat yang memenuhi syarat yang sama dinilai positif di setiap grup. Ini paling sering direkomendasikan dalam kasus mengklasifikasikan hasil positif, seperti aplikasi pinjaman, penerimaan sekolah, atau apakah konten ramah anak

Tingkat Negatif Benar / Tingkat Positif Palsu

  • Definisi: Persentase titik data negatif (sebagaimana diberi label dalam kebenaran dasar) yang diklasifikasikan dengan benar sebagai negatif, atau persentase titik data negatif yang salah diklasifikasikan sebagai positif
  • Berkaitan dengan: Kesetaraan Peluang (untuk kelas negatif), bila sama di seluruh subkelompok
  • Kapan menggunakan metrik ini: Kasus penggunaan yang adil di mana tingkat kesalahan (atau salah mengklasifikasikan sesuatu sebagai positif) lebih memprihatinkan daripada mengklasifikasikan hal-hal positif. Ini paling umum dalam kasus pelecehan, di mana hal positif sering kali mengarah pada tindakan negatif. Ini juga penting untuk Teknologi Analisis Wajah seperti deteksi wajah atau atribut wajah

Akurasi & AUC

  • Berkaitan dengan: Prediktif Paritas, bila sama di seluruh subkelompok
  • Kapan harus menggunakan metrik ini: Kasus di mana ketepatan tugas paling penting (tidak harus dalam arah tertentu), seperti identifikasi wajah atau pengelompokan wajah

Tingkat Penemuan Palsu

  • Definisi: Persentase titik data negatif (sebagaimana diberi label dalam kebenaran dasar) yang salah diklasifikasikan sebagai positif dari semua titik data yang diklasifikasikan sebagai positif. Ini juga kebalikan dari PPV
  • Berkaitan dengan: Prediktif Paritas (juga dikenal sebagai Kalibrasi), bila sama di seluruh subkelompok
  • Kapan menggunakan metrik ini: Kasus di mana fraksi dari prediksi positif yang benar harus sama di seluruh subgrup

Tingkat Kelalaian Palsu

  • Definisi: Persentase titik data positif (sebagaimana diberi label dalam kebenaran dasar) yang salah diklasifikasikan sebagai negatif dari semua titik data yang diklasifikasikan sebagai negatif. Ini juga merupakan kebalikan dari NPV
  • Berkaitan dengan: Prediktif Paritas (juga dikenal sebagai Kalibrasi), bila sama di seluruh subkelompok
  • Kapan menggunakan metrik ini: Kasus di mana fraksi dari prediksi negatif yang benar harus sama di seluruh subgrup

Tingkat Balik Keseluruhan / Tingkat Balik Prediksi Positif ke Negatif / Tingkat Balik Prediksi Negatif ke Positif

  • Definisi: Probabilitas classifier memberikan prediksi yang berbeda jika atribut identitas dalam fitur tertentu diubah.
  • Berkaitan dengan: Keadilan kontrafaktual
  • Kapan menggunakan metrik ini: Saat menentukan apakah prediksi model berubah saat atribut sensitif yang dirujuk dalam contoh dihapus atau diganti. Jika ya, pertimbangkan untuk menggunakan teknik Counterfactual Logit Pairing dalam library Remediasi Model Tensorflow.

Flip Count / Prediksi Positif ke Negatif Flip Count / Prediksi Negatif ke Positif Flip Count *

  • Definisi: Berapa kali pengklasifikasi memberikan prediksi yang berbeda jika istilah identitas dalam contoh yang diberikan diubah.
  • Berkaitan dengan: Keadilan kontrafaktual
  • Kapan menggunakan metrik ini: Saat menentukan apakah prediksi model berubah saat atribut sensitif yang dirujuk dalam contoh dihapus atau diganti. Jika ya, pertimbangkan untuk menggunakan teknik Counterfactual Logit Pairing dalam library Remediasi Model Tensorflow.

Contoh metrik mana yang harus dipilih

  • Gagal mendeteksi wajah secara sistematis di aplikasi kamera dapat menyebabkan pengalaman pengguna yang negatif untuk grup pengguna tertentu. Dalam hal ini, negatif palsu dalam sistem deteksi wajah dapat menyebabkan kegagalan produk, sementara positif palsu (mendeteksi wajah ketika tidak ada) dapat menimbulkan sedikit gangguan bagi pengguna. Dengan demikian, mengevaluasi dan meminimalkan tingkat negatif palsu penting untuk kasus penggunaan ini.
  • Menandai komentar teks secara tidak adil dari orang-orang tertentu sebagai "spam" atau "toksisitas tinggi" dalam sistem moderasi menyebabkan suara-suara tertentu dibungkam. Di satu sisi, tingkat positif palsu yang tinggi mengarah pada penyensoran yang tidak adil. Di sisi lain, tingkat negatif palsu yang tinggi dapat menyebabkan proliferasi konten beracun dari kelompok tertentu, yang dapat merugikan pengguna dan menimbulkan kerugian representasional bagi kelompok tersebut. Dengan demikian, kedua metrik penting untuk dipertimbangkan, selain metrik yang memperhitungkan semua jenis kesalahan seperti akurasi atau AUC.

Tidak melihat metrik yang Anda cari?

Ikuti dokumentasi di sini untuk menambahkan metrik khusus Anda sendiri.

Catatan akhir

Kesenjangan metrik antara dua grup dapat menjadi tanda bahwa model Anda mungkin memiliki kemiringan yang tidak adil . Anda harus menginterpretasikan hasil Anda sesuai dengan kasus penggunaan Anda. Namun, tanda pertama bahwa Anda mungkin memperlakukan satu kumpulan pengguna secara tidak adil adalah ketika metrik antara kumpulan pengguna tersebut dan keseluruhan Anda sangat berbeda. Pastikan untuk memperhitungkan interval kepercayaan saat melihat perbedaan ini. Jika Anda memiliki terlalu sedikit sampel dalam irisan tertentu, perbedaan antara metrik mungkin tidak akurat.

Mencapai kesetaraan antar kelompok dalam Indikator Kewajaran tidak berarti model tersebut adil. Sistem sangat kompleks, dan mencapai kesetaraan pada satu (atau bahkan semua) metrik yang disediakan tidak dapat menjamin Keadilan.

Evaluasi kewajaran harus dijalankan selama proses pengembangan dan pasca-peluncuran (bukan sehari sebelum peluncuran). Sama seperti meningkatkan produk Anda adalah proses yang berkelanjutan dan tunduk pada penyesuaian berdasarkan umpan balik pengguna dan pasar, membuat produk Anda adil dan merata membutuhkan perhatian terus-menerus. Karena berbagai aspek model berubah, seperti data pelatihan, masukan dari model lain, atau desain itu sendiri, metrik keadilan cenderung berubah. "Mengosongkan bilah" sekali tidak cukup untuk memastikan bahwa semua komponen yang berinteraksi tetap utuh dari waktu ke waktu.

Pengujian permusuhan harus dilakukan untuk contoh yang jarang dan berbahaya. Evaluasi keadilan tidak dimaksudkan untuk menggantikan pengujian permusuhan. Pertahanan tambahan terhadap contoh-contoh langka yang ditargetkan sangat penting karena contoh-contoh ini mungkin tidak akan terwujud dalam data pelatihan atau evaluasi.