Pemasangan Logit Kontrafaktual untuk Remediasi Model

Counterfactual Logit Pairing (CLP) adalah teknik dalam Pustaka Remediasi Model TensorFlow yang berupaya memastikan bahwa prediksi model tidak berubah saat atribut sensitif yang direferensikan dalam contoh dihapus atau diganti. Misalnya, dalam pengklasifikasi toksisitas, contoh seperti "Saya seorang pria" dan "Saya seorang lesbian" seharusnya tidak memiliki prediksi toksisitas yang berbeda.

Untuk pembahasan mendalam tentang topik ini, lihat penelitian tentang counterfactual fairness , adversarial logit pairing , dan counterfactual logit pairing .

Kapan Anda harus menggunakan Counterfactual Logit Pairing?

CLP membahas skenario di mana perubahan atribut sensitif yang direferensikan dalam fitur mengubah prediksi (ketika prediksi seharusnya tidak berubah). Dengan demikian, ia mencoba menjawab pertanyaan: Apakah model ini rentan untuk mengubah prediksinya hanya berdasarkan kehadiran atribut identitas? Lihat makalah penelitian untuk rincian tentang keadilan kontrafaktual.

Masalah ini terlihat di Perspective API , alat ML yang digunakan oleh pengembang dan penerbit untuk menganalisis konten komentar untuk teks yang berpotensi menyinggung atau beracun . API Perspektif mengambil teks komentar sebagai input dan mengembalikan skor dari 0 hingga 1 sebagai indikasi kemungkinan komentar tersebut beracun. Misalnya, komentar seperti "Kamu idiot" mungkin menerima skor probabilitas 0,8 untuk toksisitas, yang menunjukkan seberapa besar kemungkinan pembaca akan menganggap komentar itu sebagai racun.

Setelah peluncuran awal Perspective API, pengguna eksternal menemukan korelasi positif antara istilah identitas yang berisi informasi tentang ras atau orientasi seksual dan prediksi skor toksisitas. Misalnya, frasa "Saya seorang lesbian" mendapat skor 0,51, sedangkan "Saya laki-laki" mendapat skor lebih rendah 0,2. Dalam hal ini, istilah identitas tidak digunakan secara merendahkan, jadi seharusnya tidak ada perbedaan skor yang begitu signifikan. Untuk informasi selengkapnya tentang API Perspektif, lihat entri blog tentang bias yang tidak diinginkan dan istilah identitas .

Bagaimana cara mengukur pengaruh Counterfactual Logit Pairing?

Jika Anda telah menilai model pembelajaran mesin Anda dan menentukan bahwa perubahan prediksi karena perubahan atribut sensitif tertentu akan berbahaya, maka Anda harus mengukur prevalensi masalah ini. Dalam kasus pengklasifikasi biner atau multi-kelas, flip didefinisikan sebagai pengklasifikasi yang memberikan keputusan berbeda (seperti mengubah prediksi dari toksik menjadi tidak toksik) ketika atribut sensitif yang dirujuk dalam contoh berubah. Saat menilai prevalensi flips , Anda dapat melihat jumlah flip dan kecepatan flip . Dengan mempertimbangkan potensi bahaya pengguna yang disebabkan oleh flip dan frekuensi yang terjadi, Anda dapat menentukan apakah ini masalah yang harus diatasi dengan menerapkan CLP. Untuk informasi lebih lanjut tentang metrik ini, lihat panduan Indikator Kewajaran .

Pada tipe model apa saya dapat menerapkan Counterfactual Logit Pairing?

Teknik ini dapat digunakan dengan pengklasifikasi biner dan multi-kelas dari berbagai jenis data seperti teks, gambar, dan video.

Kapan Counterfactual Logit Pairing tidak cocok untuk saya?

CLP bukanlah metode yang tepat untuk semua situasi. Misalnya, tidak relevan jika ada atau tidak adanya istilah identitas secara sah mengubah prediksi pengklasifikasi. Ini mungkin terjadi jika pengklasifikasi bertujuan untuk menentukan apakah fitur tersebut merujuk pada kelompok identitas tertentu. Metode ini juga kurang berdampak jika korelasi yang tidak diinginkan antara hasil pengklasifikasi dan kelompok identitas tidak memiliki dampak negatif pada pengguna.

CLP berguna untuk menguji apakah model bahasa atau pengklasifikasi toksisitas mengubah outputnya dengan cara yang tidak adil (misalnya mengklasifikasikan sepotong teks sebagai beracun) hanya karena istilah seperti "Hitam", "gay", "Muslim" hadir di teks. CLP tidak dimaksudkan untuk membuat prediksi tentang individu, misalnya dengan memanipulasi identitas individu. Lihat makalah ini untuk diskusi yang lebih rinci.

Penting untuk diingat bahwa CLP adalah salah satu teknik dalam Responsible AI Toolkit yang dirancang khusus untuk mengatasi situasi di mana atribut sensitif yang dirujuk dalam fitur mengubah prediksi. Bergantung pada model dan kasus penggunaan Anda, mungkin juga penting untuk mempertimbangkan apakah ada kesenjangan kinerja untuk kelompok yang terpinggirkan secara historis, terutama karena CLP dapat memengaruhi kinerja kelompok. Hal ini dapat dinilai dengan Indikator Kewajaran dan ditangani oleh MinDiff yang juga ada di Pustaka Remediasi Model TensorFlow.

Anda juga harus mempertimbangkan apakah produk Anda cocok digunakan untuk pembelajaran mesin. Jika ya, alur kerja pembelajaran mesin Anda harus dirancang untuk praktik yang direkomendasikan yang diketahui seperti memiliki tugas model yang terdefinisi dengan baik dan kebutuhan produk yang jelas.

Bagaimana cara kerja Counterfactual Logit Pairing?

CLP menambahkan kerugian pada model asli yang disediakan oleh logit yang memasangkan contoh asli dan kontrafaktual dari kumpulan data. Dengan menghitung perbedaan antara dua nilai, Anda menghukum perbedaan istilah sensitif yang menyebabkan prediksi pengklasifikasi Anda berubah. Karya ini didasarkan pada penelitian tentang pasangan logit adversarial dan pasangan logit kontrafaktual .