Fairness Indicators ابزاری مفید برای ارزیابی طبقهبندیکنندههای باینری و چند کلاسه برای انصاف است. در نهایت، امیدواریم این ابزار را با مشارکت همه شما گسترش دهیم تا ملاحظات بیشتری را ارزیابی کنیم.
به خاطر داشته باشید که ارزیابی کمی تنها بخشی از ارزیابی یک تجربه کاربری گسترده تر است. با فکر کردن در مورد زمینه های مختلف که از طریق آن کاربر ممکن است محصول شما را تجربه کند، شروع کنید. انتظار می رود محصول شما به انواع مختلف کاربران خدمت کند؟ چه کسی دیگری ممکن است تحت تأثیر این تجربه قرار گیرد؟
هنگام در نظر گرفتن تأثیر هوش مصنوعی بر مردم، مهم است که همیشه به یاد داشته باشید که جوامع انسانی بسیار پیچیده هستند! درک افراد، و هویت اجتماعی، ساختارهای اجتماعی و نظامهای فرهنگی آنها، هر یک به تنهایی زمینههای عظیمی از تحقیقات آزاد هستند. پیچیدگیهای تفاوتهای بین فرهنگی در سرتاسر جهان را کنار بگذارید، و حتی به دست آوردن جایگاهی در درک تأثیرات اجتماعی میتواند چالشبرانگیز باشد. در صورت امکان، توصیه میشود با کارشناسان حوزه مناسب، که ممکن است شامل دانشمندان علوم اجتماعی، زبانشناسان اجتماعی، و انسانشناسان فرهنگی، و همچنین با اعضای جمعیتهایی که فناوری در آنها به کار گرفته میشود، مشورت کنید.
یک مدل واحد، به عنوان مثال، مدل سمیت که ما در colab مثال استفاده می کنیم، می تواند در زمینه های مختلف استفاده شود. برای مثال، یک مدل سمیت که در یک وبسایت برای فیلتر کردن نظرات توهینآمیز استفاده میشود، یک مورد استفاده بسیار متفاوت از مدلی است که در یک نمونه رابط کاربری وب استفاده میشود، جایی که کاربران میتوانند جملهای را تایپ کنند و ببینند مدل چه امتیازی میدهد. بسته به مورد استفاده، و اینکه کاربران چگونه پیشبینی مدل را تجربه میکنند، محصول شما خطرات، اثرات و فرصتهای متفاوتی خواهد داشت و ممکن است بخواهید نگرانیهای مربوط به انصاف را ارزیابی کنید.
سوالات بالا پایه و اساس این است که چه ملاحظات اخلاقی، از جمله انصاف، ممکن است بخواهید هنگام طراحی و توسعه محصول مبتنی بر ML خود در نظر بگیرید. این سؤالات همچنین انگیزه می دهد که کدام معیارها و کدام گروه از کاربران را باید برای ارزیابی از این ابزار استفاده کنید.
قبل از غواصی بیشتر، در اینجا سه منبع توصیه شده برای شروع وجود دارد:
- The People + AI Guidebook for Human-centred AI design: این کتاب راهنما منبع بسیار خوبی برای سوالات و جنبه هایی است که هنگام طراحی یک محصول مبتنی بر یادگیری ماشینی باید در نظر داشته باشید. در حالی که ما این کتاب راهنما را با در نظر گرفتن طراحان ایجاد کردیم، بسیاری از اصول به پاسخگویی به سوالاتی مانند آنچه در بالا مطرح شد کمک می کند.
- درسهای آموختهشده ما از انصاف : این سخنرانی در Google I/O به درسهایی میپردازد که در هدف خود برای ساخت و طراحی محصولات فراگیر آموختهایم.
- دوره تصادف ML: انصاف : دوره ML Crash دارای یک بخش 70 دقیقه ای است که به شناسایی و ارزیابی نگرانی های مربوط به عدالت اختصاص دارد.
بنابراین، چرا به تک تک برش ها نگاه می کنیم؟ ارزیابی بر روی برشهای فردی مهم است زیرا معیارهای کلی قوی میتواند عملکرد ضعیف گروههای خاص را پنهان کند. به طور مشابه، عملکرد خوب برای یک معیار خاص (دقت، AUC) همیشه به عملکرد قابل قبول برای سایر معیارها (نرخ مثبت کاذب، نرخ منفی کاذب) که در ارزیابی فرصت و آسیب برای کاربران به یک اندازه مهم هستند، ترجمه نمی شود.
در بخشهای زیر برخی از جنبههایی که باید در نظر گرفته شود، توضیح داده میشود.
بر اساس کدام گروه ها باید برش داد؟
به طور کلی، یک روش خوب این است که به تعداد گروه هایی که ممکن است تحت تأثیر محصول شما قرار گیرند، برش دهید، زیرا هرگز نمی دانید عملکرد چه زمانی ممکن است برای یکی دیگر متفاوت باشد. با این حال، اگر مطمئن نیستید، در مورد کاربران مختلفی که ممکن است با محصول شما درگیر باشند و اینکه چگونه ممکن است تحت تأثیر قرار گیرند فکر کنید. به ویژه، بخش هایی را در نظر بگیرید که مربوط به ویژگی های حساس مانند نژاد، قومیت، جنسیت، ملیت، درآمد، گرایش جنسی و وضعیت ناتوانی است.
اگر دادههای برچسبگذاری شده برای برشهایی را که میخواهم بررسی کنم نداشته باشم، چطور؟
سؤال خوبی بود. ما می دانیم که بسیاری از مجموعه داده ها دارای برچسب حقیقت پایه برای ویژگی های هویت فردی نیستند.
اگر در این موقعیت هستید، چند روش را توصیه می کنیم:
- مشخص کنید که آیا ویژگیهایی وجود دارد که ممکن است بینشی از عملکرد در گروهها به شما بدهد. به عنوان مثال، جغرافیا در حالی که معادل قومیت و نژاد نیست، ممکن است به شما در کشف الگوهای متفاوت در عملکرد کمک کند.
- مشخص کنید که آیا مجموعه داده های عمومی نماینده ای وجود دارد که ممکن است به خوبی مشکل شما را نشان دهد. میتوانید مجموعهای از مجموعه دادههای متنوع و فراگیر را در سایت هوش مصنوعی گوگل بیابید، که شامل Project Respect ، Inclusive Images ، Open Images Extended و غیره است.
- از قوانین یا طبقهبندیکنندهها، در صورت لزوم، برای برچسبگذاری دادههای خود با ویژگیهای سطح سطحی هدف استفاده کنید. به عنوان مثال، می توانید به متن برچسب بزنید که آیا عبارت هویتی در جمله وجود دارد یا خیر. به خاطر داشته باشید که طبقهبندیکنندهها چالشهای خاص خود را دارند و اگر مراقب نباشید، ممکن است لایه دیگری از سوگیری را نیز معرفی کنید. در مورد اینکه طبقه بندی کننده شما واقعاً چه چیزی را طبقه بندی می کند روشن باشید. برای مثال، یک طبقهبندی سن روی تصاویر در واقع سن درک شده را طبقهبندی میکند. علاوه بر این، در صورت امکان، از ویژگیهای سطح سطحی استفاده کنید که میتوانند به طور عینی در دادهها شناسایی شوند. برای مثال، ساختن یک طبقهبندی کننده تصویر برای نژاد یا قومیت توصیه نمیشود، زیرا اینها ویژگیهای بصری نیستند که بتوان در یک تصویر تعریف کرد. یک طبقهبندیکننده احتمالاً از پروکسیها یا کلیشهها استفاده میکند. در عوض، ساختن یک طبقهبندی کننده برای رنگ پوست ممکن است راه مناسبتری برای برچسبگذاری و ارزیابی تصویر باشد. در نهایت، از دقت بالا برای طبقهبندیکنندههایی که چنین ویژگیهایی را برچسبگذاری میکنند، اطمینان حاصل کنید.
- داده های نماینده بیشتری را پیدا کنید که دارای برچسب هستند
همیشه مطمئن شوید که روی مجموعه دادههای متعدد و متنوع ارزیابی میکنید.
اگر دادههای ارزیابی شما بهاندازه کافی معرف پایگاه کاربریتان یا انواع دادههایی که احتمالاً با آنها مواجه میشوید نیست، ممکن است با معیارهای انصاف فریبنده خوبی مواجه شوید. به طور مشابه، عملکرد مدل بالا در یک مجموعه داده، عملکرد بالا را در سایر داده ها تضمین نمی کند.
به خاطر داشته باشید که زیرگروه ها همیشه بهترین راه برای طبقه بندی افراد نیستند.
مردم چند بعدی هستند و به بیش از یک گروه تعلق دارند، حتی در یک بعد واحد - فردی را در نظر بگیرید که چند نژادی است، یا به چند گروه نژادی تعلق دارد. همچنین، در حالی که معیارهای کلی برای یک گروه نژادی خاص ممکن است منصفانه به نظر برسند، تعاملات خاصی مانند نژاد و جنسیت با هم ممکن است سوگیری ناخواسته را نشان دهند. علاوه بر این، بسیاری از زیر گروه ها دارای مرزهای فازی هستند که به طور مداوم در حال ترسیم مجدد هستند.
چه زمانی برش های کافی را آزمایش کرده ام و چگونه می توانم بفهمم کدام برش ها را آزمایش کنم؟
ما تصدیق میکنیم که تعداد زیادی گروه یا برش وجود دارد که ممکن است برای آزمایش مرتبط باشند، و در صورت امکان، برش دادن و ارزیابی طیف متنوع و گستردهای از برشها و سپس غواصی عمیق را توصیه میکنیم که در آن فرصتهایی برای بهبود پیدا میکنید. همچنین مهم است که اذعان داشته باشید که حتی اگر ممکن است نگرانیهایی را در بخشهایی که آزمایش کردهاید مشاهده نکنید، این بدان معنا نیست که محصول شما برای همه کاربران کار میکند، و دریافت بازخورد و آزمایشهای متنوع از کاربران برای اطمینان از شناسایی مداوم موارد جدید مهم است. فرصت ها.
برای شروع، توصیه میکنیم در مورد مورد استفاده خاص خود و روشهای مختلف تعامل کاربران با محصول شما فکر کنید. چگونه ممکن است کاربران مختلف تجربیات متفاوتی داشته باشند؟ این برای برش هایی که باید ارزیابی کنید به چه معناست؟ جمع آوری بازخورد از کاربران مختلف نیز ممکن است برش های بالقوه برای اولویت بندی را برجسته کند.
کدام معیارها را انتخاب کنم؟
هنگام انتخاب معیارهایی که باید برای سیستم خود ارزیابی کنید، در نظر بگیرید که چه کسی مدل شما را تجربه می کند، چگونه آن را تجربه می کند، و اثرات آن تجربه را در نظر بگیرید.
به عنوان مثال، مدل شما چگونه به افراد کرامت یا استقلال بیشتری می دهد، یا تأثیر مثبتی بر رفاه عاطفی، فیزیکی یا مالی آنها می گذارد؟ در مقابل، چگونه پیشبینیهای مدل شما میتواند حیثیت یا استقلال افراد را کاهش دهد یا بر رفاه عاطفی، فیزیکی یا مالی آنها تأثیر منفی بگذارد؟
به طور کلی، توصیه می کنیم تمام معیارهای عملکرد موجود خود را به عنوان تمرین خوب برش دهید. همچنین توصیه میکنیم معیارهای خود را در چند آستانه ارزیابی کنید تا بفهمید این آستانه چگونه میتواند بر عملکرد گروههای مختلف تأثیر بگذارد.
بهعلاوه، اگر برچسب پیشبینیشدهای وجود دارد که به طور یکسان «خوب» یا «بد» است، آنگاه نرخ پیشبینی آن برچسب (برای هر زیرگروه) را در نظر بگیرید. به عنوان مثال، یک برچسب "خوب" برچسبی است که پیشبینی آن به فرد امکان دسترسی به برخی منابع را میدهد یا آنها را قادر میسازد تا عملی را انجام دهند.
معیارهای انصاف انتقادی برای طبقه بندی
هنگامی که در مورد یک مدل طبقه بندی فکر می کنید، به اثرات خطاها فکر کنید (تفاوت بین برچسب واقعی "واقعیت پایه" و برچسب مدل). اگر برخی از خطاها ممکن است فرصت یا آسیب بیشتری برای کاربران شما ایجاد کند، مطمئن شوید که میزان این خطاها را در بین گروههای کاربران ارزیابی کردهاید. این نرخ های خطا در زیر، در معیارهایی که در حال حاضر توسط Fairness Indicators بتا پشتیبانی می شود، تعریف شده است.
در طول سال آینده، ما امیدواریم که مطالعات موردی موارد استفاده مختلف و معیارهای مرتبط با آنها را منتشر کنیم تا بتوانیم زمانی که معیارهای مختلف مناسبترین هستند را برجسته کنیم.
معیارهای امروزی در Fairness Indicators موجود است
نرخ مثبت / نرخ منفی
- تعریف: درصدی از نقاط داده که مستقل از حقیقت زمینی به عنوان مثبت یا منفی طبقه بندی می شوند
- مربوط به: برابری جمعیتی و برابری نتایج، زمانی که در بین زیر گروه ها برابر باشد
- زمان استفاده از این معیار: موارد استفاده منصفانه که در آن داشتن درصد نهایی برابر از گروه ها مهم است
نرخ مثبت واقعی / نرخ منفی نادرست
- تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان مثبت طبقه بندی شده اند، یا درصد نقاط داده مثبتی که به اشتباه به عنوان منفی طبقه بندی شده اند.
- مربوط به: برابری فرصت (برای طبقه مثبت)، زمانی که در بین زیر گروه ها برابر است
- زمان استفاده از این معیار: موارد استفاده منصفانه که در آن مهم است که درصد یکسانی از نامزدهای واجد شرایط در هر گروه مثبت ارزیابی شود. این معمولاً در موارد طبقهبندی نتایج مثبت، مانند درخواستهای وام، پذیرش مدرسه، یا اینکه آیا محتوا برای کودکان مناسب است توصیه میشود.
نرخ منفی واقعی / نرخ مثبت نادرست
- تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان منفی طبقه بندی شده اند، یا درصد نقاط داده منفی که به اشتباه به عنوان مثبت طبقه بندی شده اند.
- مربوط به: برابری فرصت (برای طبقه منفی)، زمانی که در بین زیر گروه ها برابر است
- چه زمانی باید از این معیار استفاده کرد: مواردی که نرخ خطا (یا طبقهبندی اشتباه چیزی به عنوان مثبت) بیشتر از طبقهبندی موارد مثبت نگرانکننده است، استفاده میکند. این در موارد سوء استفاده بیشتر رایج است، جایی که موارد مثبت اغلب منجر به اعمال منفی می شود. اینها همچنین برای فناوری های تحلیل چهره مانند تشخیص چهره یا ویژگی های چهره مهم هستند
دقت و AUC
- مربوط به: برابری پیش بینی کننده، زمانی که در بین زیر گروه ها برابر است
- زمان استفاده از این معیارها: مواردی که دقت کار بسیار مهم است (نه لزوماً در جهت معین)، مانند شناسایی چهره یا خوشهبندی چهره
نرخ کشف نادرست
- تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده است) که به اشتباه به عنوان مثبت طبقه بندی شده اند از بین تمام نقاط داده ای که به عنوان مثبت طبقه بندی شده اند. این نیز معکوس PPV است
- مربوط به: برابری پیشبینیکننده (همچنین به عنوان کالیبراسیون شناخته میشود)، زمانی که در بین زیر گروهها برابر باشد
- زمان استفاده از این معیار: مواردی که کسری از پیشبینیهای مثبت صحیح باید در بین گروههای فرعی برابر باشد.
نرخ حذف کاذب
- تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت زمینی برچسب گذاری شده اند) که به اشتباه به عنوان منفی طبقه بندی شده اند از بین تمام نقاط داده ای که به عنوان منفی طبقه بندی شده اند. این نیز معکوس NPV است
- مربوط به: برابری پیشبینیکننده (همچنین به عنوان کالیبراسیون شناخته میشود)، زمانی که در بین زیر گروهها برابر باشد
- زمان استفاده از این معیار: مواردی که کسری از پیشبینیهای منفی صحیح باید در بین زیر گروهها برابر باشد.
نرخ چرخش کلی / نرخ چرخش پیشبینی مثبت به منفی / نرخ چرخش پیشبینی منفی به مثبت
- تعریف: احتمال اینکه طبقهبندیکننده پیشبینی متفاوتی را در صورت تغییر ویژگی هویت در یک ویژگی خاص ارائه دهد.
- مربوط به: انصاف خلاف واقع
- زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیشبینی مدل با حذف یا جایگزینی ویژگیهای حساس اشارهشده در مثال تغییر میکند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.
تعداد تلنگر / پیشبینی مثبت به منفی تعداد تلنگر / پیشبینی منفی به مثبت تعداد تلنگر *
- تعریف: تعداد دفعاتی که طبقهبندیکننده پیشبینی متفاوتی را در صورت تغییر عبارت هویت در یک مثال مشخص میدهد.
- مربوط به: انصاف خلاف واقع
- زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیشبینی مدل با حذف یا جایگزینی ویژگیهای حساس اشارهشده در مثال تغییر میکند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.
نمونه هایی از معیارهایی که باید انتخاب شوند
- ناتوانی سیستماتیک در تشخیص چهره در یک برنامه دوربین میتواند منجر به تجربه کاربری منفی برای گروههای کاربری خاص شود. در این حالت، منفی کاذب در یک سیستم تشخیص چهره ممکن است منجر به خرابی محصول شود، در حالی که مثبت کاذب (تشخیص چهره در زمانی که وجود ندارد) ممکن است کمی آزاردهنده برای کاربر باشد. بنابراین، ارزیابی و به حداقل رساندن نرخ منفی کاذب برای این مورد مهم است.
- علامتگذاری ناعادلانه کامنتهای متنی افراد خاص بهعنوان «هرزنامه» یا «سمیت بالا» در یک سیستم تعدیل منجر به خاموش شدن برخی صداها میشود. از یک طرف، نرخ مثبت کاذب بالا منجر به سانسور ناعادلانه می شود. از سوی دیگر، نرخ منفی کاذب بالا میتواند منجر به تکثیر محتوای سمی از گروههای خاص شود، که هم ممکن است به کاربر آسیب برساند و هم برای آن گروهها یک آسیب نمایشی باشد. بنابراین، علاوه بر معیارهایی که همه انواع خطاها مانند دقت یا AUC را در نظر می گیرند، مهم است که هر دو معیار را در نظر بگیرید.
معیارهایی را که به دنبال آن هستید نمی بینید؟
برای افزودن معیارهای سفارشی خود، اسناد اینجا را دنبال کنید.
یادداشت های پایانی
شکاف در متریک بین دو گروه می تواند نشانه این باشد که مدل شما ممکن است دارای انحرافات ناعادلانه باشد. شما باید نتایج خود را بر اساس مورد استفاده خود تفسیر کنید. با این حال، اولین نشانهای که نشان میدهد ممکن است با یک سری از کاربران بهطور ناعادلانه رفتار کنید، زمانی است که معیارهای بین آن دسته از کاربران و کلی شما به طور قابلتوجهی متفاوت است. هنگام بررسی این تفاوتها، حتماً فواصل اطمینان را در نظر بگیرید. وقتی تعداد نمونههای بسیار کمی در یک برش خاص دارید، تفاوت بین معیارها ممکن است دقیق نباشد.
دستیابی به برابری بین گروه ها در شاخص های انصاف به این معنی نیست که مدل منصفانه است. سیستم ها بسیار پیچیده هستند و دستیابی به برابری در یک (یا حتی همه) معیارهای ارائه شده نمی تواند انصاف را تضمین کند.
ارزیابیهای انصاف باید در طول فرآیند توسعه و پس از راهاندازی (نه روز قبل از راهاندازی) انجام شود. درست مانند بهبود محصول شما یک فرآیند مداوم و منوط به تعدیل بر اساس بازخورد کاربران و بازار است، عادلانه و عادلانه بودن محصول شما نیازمند توجه مداوم است. با تغییر جنبههای مختلف مدل، مانند دادههای آموزشی، ورودیهای مدلهای دیگر، یا خود طراحی، معیارهای انصاف احتمالاً تغییر میکنند. یک بار "پاک کردن نوار" برای اطمینان از اینکه همه اجزای تعاملی در طول زمان دست نخورده باقی مانده اند کافی نیست.
آزمایش خصمانه باید برای نمونه های نادر و مخرب انجام شود. ارزشیابی انصاف به معنای جایگزینی آزمایش خصمانه نیست. دفاع اضافی در برابر نمونه های نادر و هدفمند بسیار مهم است زیرا این نمونه ها احتمالاً در داده های آموزشی یا ارزیابی ظاهر نمی شوند.