Apa itu Remediasi Model TensorFlow?

Jika Anda telah mengidentifikasi masalah keadilan dengan model pembelajaran mesin Anda, ada tiga jenis intervensi teknis utama yang tersedia:

  • Melatih teknik pra-pemrosesan data: Mengumpulkan lebih banyak data, menghasilkan data sintetis, menyesuaikan bobot contoh, dan laju pengambilan sampel dari irisan yang berbeda.
  • Teknik pemodelan waktu pelatihan: Mengubah model itu sendiri dengan memperkenalkan atau mengubah tujuan model dan menambahkan batasan.
  • Teknik pasca pelatihan: Memodifikasi keluaran model atau interpretasi keluaran untuk meningkatkan kinerja di seluruh metrik.
Pustaka Remediasi Model TensorFlow menyediakan teknik waktu pelatihan untuk mengintervensi model.

Pemodelan waktu pelatihan

Pustaka Remediasi Model TensorFlow menyediakan dua teknik untuk mengatasi masalah bias dan keadilan dalam model Anda, MinDiff dan Counterfactual Logit Pairing (CLP) . Mereka dijelaskan dalam tabel di bawah ini.

perbedaan kecil CLP
Kapan sebaiknya Anda menggunakan teknik ini?

Untuk memastikan bahwa model memprediksi label pilihan dengan baik untuk semua nilai atribut sensitif.

Untuk mencapai kesetaraan kesempatan kelompok.

Untuk memastikan bahwa prediksi model tidak berubah antara "pasangan kontrafaktual" (di mana atribut sensitif yang dirujuk dalam fitur berbeda). Misalnya, dalam pengklasifikasi toksisitas , contoh seperti "Saya seorang pria" dan "Saya seorang lesbian" seharusnya tidak memiliki prediksi yang berbeda.

Untuk mencapai suatu bentuk keadilan kontrafaktual .

Bagaimana cara kerjanya? Menghukum model selama pelatihan untuk perbedaan dalam distribusi skor antara dua set. Menghukum model selama pelatihan untuk perbedaan keluaran antara pasangan contoh kontrafaktual.
Modalitas Masukan Fungsi rugi beroperasi pada keluaran, secara teori, agnostik terhadap masukan dan arsitektur model. Fungsi rugi beroperasi pada keluaran, secara teori, agnostik terhadap masukan dan arsitektur model.