روز جامعه ML 9 نوامبر است! برای به روز رسانی از TensorFlow، JAX به ما بپیوندید، و بیشتر بیشتر بدانید

شاخص های انصاف: فکر کردن در مورد ارزیابی انصاف

آیا می خواهید از شاخص های عدالت بتا استفاده کنید؟

قبل از انجام این کار ، از شما می خواهیم راهنمایی های زیر را مطالعه کنید.

شاخص های عدالت ابزاری مفید برای ارزیابی طبقه بندی های باینری و چند طبقه برای انصاف است. در نهایت ، ما امیدواریم که این ابزار را با مشارکت همه شما گسترش دهیم تا ملاحظات بیشتری را نیز ارزیابی کنیم.

به خاطر داشته باشید که ارزیابی کمی تنها بخشی از ارزیابی تجربه کاربری گسترده تر است. با فکر کردن در مورد زمینه های مختلفی که ممکن است یک کاربر محصول شما را تجربه کند ، شروع کنید. انواع مختلفی از کاربران که انتظار می رود محصول شما در خدمت شما باشد چه کسانی هستند؟ چه کسی ممکن است تحت تأثیر این تجربه قرار بگیرد؟

هنگام بررسی تأثیر هوش مصنوعی بر روی افراد ، مهم است که همیشه به یاد داشته باشیم که جوامع بشری بسیار پیچیده هستند! شناخت افراد ، و هویت های اجتماعی ، ساختارهای اجتماعی و سیستم های فرهنگی آنها هر یک در نوع خود زمینه های عظیمی از تحقیقات باز هستند. پیچیدگی های تفاوت های بین فرهنگی را در سرتاسر کره زمین بریزید و حتی دستیابی به جایگاهی برای درک تأثیرات اجتماعی می تواند چالش برانگیز باشد. هر زمان ممکن است ، ما توصیه می کنیم با متخصصان دامنه مناسب مشورت کنید ، که ممکن است شامل دانشمندان علوم اجتماعی ، زبان شناسان جامعه ، و مردم شناسان فرهنگی و همچنین با اعضای جمعیتی باشد که فناوری در آنها استفاده می شود.

به عنوان مثال ، یک مدل واحد ، مدل سمیتی که در مثال colab خود استفاده می کنیم ، می تواند در زمینه های مختلفی استفاده شود. به عنوان مثال ، یک مدل سمی برای استفاده در فیلتر کردن نظرات توهین آمیز در وب سایت ، مورد استفاده بسیار متفاوتی از مدل استفاده شده در UI نمونه وب است که کاربران می توانند در آن جمله را تایپ کنند و ببینند که این مدل چه نمره ای می دهد. بسته به نوع استفاده ، و چگونگی تجربه پیش بینی مدل توسط کاربران ، محصول شما خطرات ، تأثیرات و فرصت های مختلفی خواهد داشت و ممکن است بخواهید برای نگرانی های مختلف انصاف ارزیابی کنید.

س questionsالات بالا اساس این است که مایلید هنگام طراحی و توسعه محصول مبتنی بر ML ملاحظات اخلاقی ، از جمله انصاف را در نظر بگیرید. این پرسش نیز ایجاد انگیزه که معیارهای و آن گروه از کاربران شما باید از ابزار برای ارزیابی استفاده کنید.

قبل از غواصی بیشتر ، در اینجا سه ​​منبع وجود دارد که ما هنگام شروع توصیه می کنیم:

  • کتاب راهنمای People + AI برای طراحی هوش مصنوعی انسان محور: این کتاب راهنما منبع بسیار خوبی برای س questionsالات و جنبه هایی است که باید هنگام طراحی یک محصول مبتنی بر یادگیری ماشین به خاطر بسپارید. در حالی که ما این کتاب راهنما را با در نظر داشتن طراحان ایجاد کرده ایم ، بسیاری از اصول به شما کمک می کند تا به س theالاتی مانند سوالی که در بالا مطرح کردیم پاسخ دهید.
  • عادلانه آموخته های ما : این سخنرانی در Google I / O درباره درسهایی است که ما در ساخت و طراحی محصولات فراگیر در هدف خود آموخته ایم.
  • دوره ML Crash: Fairness : دوره ML Crash دارای 70 دقیقه اختصاص به شناسایی و ارزیابی نگرانی های انصاف

بنابراین ، چرا به برش های جداگانه نگاه کنیم؟ ارزیابی برشهای جداگانه مهم است زیرا معیارهای کلی قوی می توانند عملکرد ضعیف گروههای خاصی را پنهان کنند. به طور مشابه ، عملکرد خوب برای یک معیار خاص (دقت ، AUC) همیشه به عملکرد قابل قبول برای سایر معیارها (نرخ مثبت کاذب ، نرخ منفی کاذب) که در ارزیابی فرصت و آسیب برای کاربران مهم است ، تبدیل نمی شود.

بخشهای زیر برخی از جنبه های مورد بررسی را مرور می کند.

کدام گروه ها را باید برش بزنم؟

به طور کلی ، یک روش خوب تقسیم کردن به تعداد گروههایی است که ممکن است تحت تأثیر محصول شما قرار بگیرند ، زیرا شما هرگز نمی دانید چه زمانی عملکرد ممکن است برای دیگری متفاوت باشد. با این حال ، اگر مطمئن نیستید ، به کاربران مختلفی که ممکن است با محصول شما ارتباط برقرار کنند و اینکه چگونه ممکن است تحت تأثیر قرار بگیرند فکر کنید. به ویژه برشهای مربوط به ویژگیهای حساس مانند نژاد ، قومیت ، جنسیت ، ملیت ، درآمد ، گرایش جنسی و وضعیت ناتوانی را در نظر بگیرید.

اگر من داده هایی با برچسب برش هایی که می خواهم بررسی کنم نداشته باشم ، چه می کنم؟

سؤال خوبی بود. ما می دانیم که بسیاری از مجموعه های داده دارای برچسب های حقیقت واقعی برای ویژگی های هویت فردی نیستند.

اگر در این موقعیت قرار دارید ، چند روش را به شما توصیه می کنیم:

  1. شناسایی در صورت هستند، ویژگی های است که شما باید که ممکن است شما برخی از بینش به عملکرد در گروه وجود دارد. به عنوان مثال ، جغرافیا گرچه با نژاد و نژاد معادل نیست ، اما ممکن است به شما کمک کند تا الگوهای متفاوت عملکرد را کشف کنید
  2. اگر مجموعه داده های عمومی نماینده ای وجود دارد که می تواند به خوبی از پس مشکل شما برآید ، مشخص کنید. شما می توانید مجموعه ای از مجموعه داده های متنوع و فراگیر را در سایت Google AI پیدا کنید که شامل Project Respect ، Inclusive Images و Open Open Extended و سایر موارد است.
  3. قوانین یا طبقه بندی اهرم ها ، در صورت لزوم ، برای برچسب گذاری داده های شما با ویژگی های سطح سطح عینی. به عنوان مثال ، می توانید متن را برچسب بزنید که آیا اصطلاح هویتی در جمله وجود دارد یا نه. به خاطر داشته باشید که طبقه بندی کننده ها چالش های خاص خود را دارند و اگر مراقب نباشید ، ممکن است لایه دیگری از سوگیری را نیز ایجاد کند. در مورد آنچه که طبقه بندی کننده شما در واقع طبقه بندی می کند واضح باشید. به عنوان مثال ، یک طبقه بندی کننده سن بر روی تصاویر در واقع طبقه بندی سن درک شده است . علاوه بر این ، در صورت امکان ، ویژگی های سطح سطح را می توان شناسایی کرد که می تواند به طور عینی در داده ها شناسایی شود. به عنوان مثال ، ساخت طبقه بندی کننده تصویر برای نژاد یا قومیت بد توصیه نمی شود ، زیرا این خصوصیات بصری نیستند که بتوانند در یک تصویر تعریف شوند. طبقه بندی کننده احتمالاً از پروکسی ها یا کلیشه ها استفاده می کند. در عوض ، ایجاد یک طبقه بندی برای رنگ پوست ممکن است روش مناسب تری برای برچسب گذاری و ارزیابی تصویر باشد. در آخر ، از دقت بالا برای طبقه بندی کننده هایی که چنین ویژگی هایی را برچسب گذاری می کنند ، اطمینان حاصل کنید.
  4. داده های نماینده بیشتری پیدا کنید که دارای برچسب باشند

همیشه مطمئن شوید که در مجموعه داده های متنوع و متعدد ارزیابی کنید.

اگر داده های ارزیابی شما به اندازه کافی نماینده پایگاه کاربری شما نیست ، یا انواع داده هایی که احتمالاً وجود دارد ، ممکن است با معیارهای عدالت فریبکارانه خوبی روبرو شوید. به همین ترتیب ، عملکرد بالای مدل در یک مجموعه داده تضمین کننده عملکرد بالا در مورد سایر داده ها نیست.

بخاطر داشته باشید زیرگروه ها همیشه بهترین روش برای طبقه بندی افراد نیستند.

افراد چند بعدی هستند و حتی در یک بعد واحد به بیش از یک گروه تعلق دارند - شخصی را که چند نژادی است یا به چندین گروه نژادی تعلق دارد ، در نظر بگیرید. همچنین ، اگرچه ممکن است معیارهای کلی برای یک گروه نژادی معادل عادلانه به نظر برسند ، تعاملات خاص مانند نژاد و جنسیت با هم ممکن است تعصب ناخواسته ای را نشان دهند. علاوه بر این ، بسیاری از زیر گروه ها مرزهای فازی دارند که دائماً در حال ترسیم مجدد است.

چه زمانی برش های کافی را آزمایش کرده ام و از کجا می دانم کدام برش ها را آزمایش کنم؟

ما تصدیق می کنیم که تعداد زیادی گروه یا برش وجود دارد که ممکن است برای آزمایش مناسب باشد ، و در صورت امکان ، برش و ارزیابی طیف متنوع و گسترده ای از برش ها و سپس غواصی عمیق را در جایی که فرصت های پیشرفت را پیدا می کنید ، توصیه می کنیم. همچنین تأیید این نکته مهم است که حتی اگر نگرانی در مورد برش هایی که آزمایش کرده اید مشاهده نکنید ، این به معنای کارکرد محصول شما برای همه کاربران نیست و دریافت بازخورد و آزمایش متنوع کاربر برای اطمینان از شناسایی مداوم جدید مهم است. فرصت ها.

برای شروع ، ما توصیه می کنیم در مورد مورد استفاده خاص خود و روش های مختلفی که کاربران ممکن است با محصول شما تعامل کنند ، فکر کنید. چگونه ممکن است کاربران مختلف تجربیات مختلفی داشته باشند؟ این برای برشهایی که باید ارزیابی کنید به چه معناست؟ جمع آوری بازخورد از کاربران متنوع همچنین ممکن است برشهای احتمالی برای اولویت بندی را برجسته کند.

کدام معیارها را انتخاب کنم؟

هنگام انتخاب اینکه کدام یک از معیارها را برای سیستم خود ارزیابی کنید ، به این نکته توجه کنید که چه کسی مدل شما را تجربه می کند ، چگونه تجربه می شود و اثرات آن تجربه چیست.

به عنوان مثال ، مدل شما چگونه به مردم عزت یا استقلال بیشتری می بخشد ، یا بر سلامت احساسی ، جسمی یا مالی آنها تأثیر مثبت می گذارد؟ در مقابل ، پیش بینی های مدل شما چگونه می تواند از شأن یا استقلال افراد بکاهد ، یا بر سلامت احساسی ، جسمی یا مالی آنها تأثیر منفی بگذارد؟

به طور کلی ، ما برش دادن تمام معیارهای عملکرد موجود خود را به عنوان یک روش خوب توصیه می کنیم . ما همچنین توصیه می کنیم معیارهای خود را در چندین آستانه ارزیابی کنید تا درک کنید که چگونه این آستانه می تواند روی عملکرد برای گروه های مختلف تأثیر بگذارد.

علاوه بر این ، اگر برچسب پیش بینی شده ای وجود دارد که به طور یکنواخت "خوب" یا "بد" است ، بنابراین گزارش دهید (برای هر زیر گروه) میزان پیش بینی آن برچسب را در نظر بگیرید. به عنوان مثال ، برچسب "خوب" برچسبی است که پیش بینی آن باعث می شود شخص به برخی از منابع دسترسی داشته باشد یا آنها را قادر به انجام عملی می کند.

معیارهای عدالت انتقادی برای طبقه بندی

وقتی به یک مدل طبقه بندی فکر می کنید ، به تأثیرات خطاها (تفاوت بین برچسب واقعی "حقیقت زمین" و برچسب از مدل) فکر کنید. اگر برخی از خطاها ممکن است فرصت بیشتری برای کاربران شما ایجاد کنند یا به ضرر آنها باشد ، مطمئن شوید که میزان این خطاها را در بین گروههای کاربران ارزیابی کرده اید. این معیارهای خطا در زیر ، در معیارهایی که در حال حاضر توسط بتا شاخص های عدالت پشتیبانی می شود ، تعریف شده اند.

در طول سال آینده ، ما امیدواریم که مطالعات موردی موارد مختلف استفاده و معیارهای مرتبط با این موارد را منتشر کنیم تا بتوانیم بهترین زمان برجسته سازی معیارهای مختلف را برجسته کنیم.

معیارهای اندازه گیری امروز در شاخص های انصاف موجود است

توجه: بسیاری از معیارهای عدالت ارزشمند وجود دارد که در حال حاضر در بتا شاخص های عدالت پشتیبانی نمی شوند. با افزودن معیارهای بیشتر ، در اینجا به راهنمایی برای این معیارها ادامه می دهیم. در زیر ، می توانید به دستورالعمل ها دسترسی پیدا کنید تا معیارهای خود را به شاخص های عدالت اضافه کنید. علاوه بر این ، اگر معیارهایی وجود دارد که می خواهید مشاهده کنید ، لطفاً با tfx@tensorflow.org تماس بگیرید. ما امیدواریم که برای ساخت این موضوع با شما شریک باشیم.

نرخ مثبت / نرخ منفی

  • تعریف: درصدی از نقاط داده ای که مستقل از حقیقت اساسی در طبقه بندی مثبت یا منفی طبقه بندی می شوند
  • مربوط می شود به: برابری جمعیتی و برابری نتایج ، هنگامی که در گروه های فرعی برابر باشد
  • زمان استفاده از این معیار: انصاف از مواردی استفاده کنید که داشتن درصد نهایی برابر گروهها مهم است

مثبت مثبت / نرخ منفی نادرست

  • تعریف: درصد نقاط مثبت داده (به عنوان برچسب زده شده در حقیقت زمین) که به درستی مثبت طبقه بندی شده اند ، یا درصد نقاط مثبت داده که به اشتباه به عنوان منفی طبقه بندی شده اند
  • مربوط می شود به: برابری فرصت (برای طبقه مثبت) ، وقتی در زیر گروه ها برابر باشد
  • چه موقع از این معیار استفاده کنید: انصاف از مواردی استفاده کنید که مهم است یک درصد از داوطلبان واجد شرایط در هر گروه مثبت ارزیابی شوند. این معمولاً در موارد طبقه بندی نتایج مثبت ، از قبیل درخواست وام ، پذیرش در مدرسه ، یا اینکه کودک محتوا دوستانه است ، توصیه می شود.

نرخ منفی واقعی / نرخ مثبت نادرست

  • تعریف: درصد نقاط منفی داده (به عنوان برچسب زده شده در حقیقت زمین) که به درستی منفی طبقه بندی شده اند ، یا درصد نقاط داده منفی که به اشتباه به عنوان مثبت طبقه بندی شده اند
  • مربوط می شود به: برابر بودن فرصت (برای کلاس منفی) ، وقتی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: انصاف از مواردی استفاده کنید که میزان خطا (یا طبقه بندی غلط در مورد مثبت) بیشتر از طبقه بندی نکات مثبت نگران کننده است. این بیشتر در موارد سو abuse استفاده معمول است ، جایی که موارد مثبت اغلب منجر به اقدامات منفی می شوند. این موارد همچنین برای فناوری های تجزیه و تحلیل صورت مانند تشخیص چهره یا ویژگی های چهره مهم هستند

دقت و AUC

  • مربوط می شود به: برابری پیش بینی ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیارها: مواردی که دقت کار بسیار مهم است (لزوماً در یک جهت مشخص نیست) ، مانند شناسایی چهره یا خوشه بندی چهره

نرخ کشف کاذب

  • تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت زمین برچسب گذاری شده اند) از همه نقاط داده ای که به عنوان مثبت طبقه بندی شده اند ، به طور اشتباه به عنوان مثبت طبقه بندی شده اند. این نیز معکوس PPV است
  • مربوط می شود به: برابری پیش بینی (همچنین به عنوان کالیبراسیون نیز شناخته می شود) ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسر پیش بینی های مثبت صحیح باید در گروه های فرعی برابر باشد

نرخ حذف False

  • تعریف: درصد نقاط مثبت داده (به عنوان برچسب زده شده در حقیقت زمین) که به اشتباه به عنوان منفی طبقه بندی شده اند از تمام نقاط داده منفی طبقه بندی شده است. این نیز معکوس NPV است
  • مربوط می شود به: برابری پیش بینی (همچنین به عنوان کالیبراسیون نیز شناخته می شود) ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسر پیش بینی های منفی صحیح باید در گروه های فرعی برابر باشد

نمونه هایی از معیارها را انتخاب کنید

  • عدم شناسایی سیستماتیک چهره در یک برنامه دوربین ، می تواند منجر به یک تجربه منفی کاربر برای برخی از گروه های کاربر شود. در این حالت ، نگاتیوهای کاذب در سیستم تشخیص چهره ممکن است منجر به خرابی محصول شود ، در حالی که یک مثبت کاذب (تشخیص چهره در صورت عدم وجود) ممکن است باعث آزار کمی کاربر شود. بنابراین ، ارزیابی و به حداقل رساندن میزان منفی کاذب برای این مورد استفاده مهم است.
  • علامت گذاری ناعادلانه نظرات متن برخی افراد به عنوان "هرزنامه" یا "سمیت زیاد" در یک سیستم تعدیل منجر به خاموش شدن صدای خاصی می شود. از یک طرف ، نرخ مثبت کاذب بالا منجر به سانسور ناعادلانه می شود. از طرف دیگر ، یک نرخ منفی کاذب بالا می تواند منجر به تکثیر محتوای سمی از گروه های خاص شود ، که ممکن است هم به کاربر آسیب برساند و هم یک آسیب نمایشی برای آن گروه ها ایجاد کند. بنابراین ، علاوه بر معیارهایی که انواع خطاها مانند دقت یا AUC را در نظر می گیرند ، در نظر گرفتن هر دو معیار مهم است.

معیارهای مورد نظر خود را نمی بینید؟

اسناد را در اینجا دنبال کنید تا معیار سفارشی خود را اضافه کنید.

یادداشت های نهایی

وجود فاصله در معیار بین دو گروه می تواند نشانه آن باشد که مدل شما دارای انحراف ناعادلانه است . شما باید نتایج خود را با توجه به مورد استفاده خود تفسیر کنید. با این حال ، اولین علامتی که ممکن است با یک مجموعه از کاربران رفتار ناعادلانه داشته باشید این است که معیارهای اندازه گیری بین آن مجموعه از کاربران و کل شما به طور قابل توجهی متفاوت باشد. هنگام بررسی این تفاوت ها ، اطمینان حاصل کنید که فواصل اطمینان را در اختیار داشته باشید. وقتی در برش خاصی نمونه کم دارید ، ممکن است تفاوت بین معیارها دقیق نباشد.

دستیابی به برابری بین گروه ها در شاخص های انصاف به معنای منصفانه بودن مدل نیست. سیستم ها بسیار پیچیده هستند و دستیابی به برابری در یک (یا حتی همه) از معیارهای ارائه شده نمی تواند عدالت را تضمین کند.

ارزیابی انصاف باید در تمام مراحل توسعه و پس از راه اندازی انجام شود (نه روز قبل از راه اندازی). درست مانند بهبود کالای شما فرآیندی مداوم و منوط به تعدیل براساس بازخورد کاربر و بازار ، تولید عادلانه و منصفانه محصول شما نیاز به توجه مداوم دارد. با تغییر جنبه های مختلف مدل ، مانند داده های آموزش ، ورودی های سایر مدل ها یا خود طراحی ، معیارهای انصاف تغییر می کنند. "پاک کردن نوار" یک بار برای اطمینان از سالم ماندن تمام اجزای متقابل کافی نیست.

آزمایش خصومت باید برای نمونه های نادر و مخرب انجام شود. ارزیابی انصاف به معنای جایگزینی آزمایش خصمانه نیست. دفاع اضافی در برابر نمونه های نادر و هدفمند بسیار مهم است زیرا این نمونه ها احتمالاً در آموزش یا داده های ارزیابی آشکار نمی شوند.