تاریخ را ذخیره کنید! Google I / O 18-20 مه بازمی گردد اکنون ثبت نام کنید
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

شاخص های انصاف: فکر کردن در مورد ارزیابی انصاف

آیا می خواهید از شاخص های عدالت بتا استفاده کنید؟

قبل از انجام این کار ، از شما می خواهیم راهنمایی های زیر را مطالعه کنید.

شاخص های عدالت ابزاری مفید برای ارزیابی طبقه بندی های باینری و چند طبقه برای انصاف است. در نهایت ، ما امیدواریم که این ابزار را با مشارکت همه شما گسترش دهیم تا ملاحظات بیشتری را نیز ارزیابی کنیم.

به خاطر داشته باشید که ارزیابی کمی تنها بخشی از ارزیابی تجربه کاربری گسترده تر است. با فکر کردن در مورد زمینه های مختلفی که ممکن است یک کاربر محصول شما را تجربه کند ، شروع کنید. انتظار می رود که کالای شما انواع مختلفی از کاربران را ارائه دهد؟ چه کسی ممکن است تحت تأثیر این تجربه قرار بگیرد؟

هنگام در نظر گرفتن تأثیر هوش مصنوعی بر روی افراد ، مهم است که همیشه به یاد داشته باشیم که جوامع انسانی بسیار پیچیده هستند! شناخت افراد ، و هویت های اجتماعی ، ساختارهای اجتماعی و سیستم های فرهنگی آنها هر یک از حوزه های عظیم تحقیقات آزاد در نوع خود است. پیچیدگی های تفاوت های بین فرهنگی را در سرتاسر کره زمین بریزید و حتی دستیابی به جایگاهی برای درک تأثیرات اجتماعی می تواند چالش برانگیز باشد. هر زمان ممکن است ، ما توصیه می کنیم با متخصصان حوزه مناسب مشورت کنید ، که ممکن است شامل دانشمندان علوم اجتماعی ، زبان شناسان جامعه ، و مردم شناسان فرهنگی و همچنین با اعضای جمعیتی باشد که فناوری در آنها استفاده می شود.

به عنوان مثال ، یک مدل واحد ، مدل سمیتی که در مثال colab خود استفاده می کنیم ، می تواند در زمینه های مختلف استفاده شود. به عنوان مثال ، یک مدل سمی برای استفاده در فیلتر کردن نظرات توهین آمیز در یک وب سایت ، مورد استفاده بسیار متفاوت از مدل استفاده شده در UI نمونه وب است که کاربران می توانند در آن جمله را تایپ کنند و ببینند این مدل چه نمره ای می دهد. بسته به مورد استفاده ، و چگونگی تجربه پیش بینی مدل توسط کاربران ، محصول شما خطرات ، تأثیرات و فرصت های مختلفی خواهد داشت و ممکن است بخواهید از نظر نگرانی های مختلف انصاف را ارزیابی کنید.

س questionsالات بالا مبنای این است که ممکن است بخواهید هنگام طراحی و توسعه محصول مبتنی بر ML ملاحظات اخلاقی ، از جمله انصاف را در نظر بگیرید. این س questionsالات همچنین انگیزه شما را می گیرد که کدام معیارها و کدام گروه از کاربران را باید از این ابزار برای ارزیابی استفاده کنید.

قبل از غواصی بیشتر ، در اینجا سه ​​منبع وجود دارد که ما هنگام شروع توصیه می کنیم:

  • کتاب + راهنمای People + AI برای طراحی هوش مصنوعی انسان محور: این کتاب راهنما منبع خوبی برای سوالات و جنبه هایی است که باید هنگام طراحی یک محصول مبتنی بر یادگیری ماشین به خاطر بسپارید. در حالی که ما این کتاب راهنما را با در نظر گرفتن طراحان ایجاد کرده ایم ، بسیاری از اصول در پاسخگویی به س questionsالاتی مانند سوالی که در بالا ارائه دادیم کمک می کند.
  • عادلانه آموخته های ما : این سخنرانی در Google I / O درباره درسهایی است که ما در ساخت و طراحی محصولات فراگیر در هدف خود آموخته ایم.
  • دوره ML Crash: Fairness : دوره ML Crash دارای 70 دقیقه اختصاص به شناسایی و ارزیابی نگرانی های انصاف

بنابراین ، چرا به برش های جداگانه نگاه کنیم؟ ارزیابی برشهای جداگانه مهم است زیرا معیارهای کلی قوی می توانند عملکرد ضعیف گروههای خاصی را پنهان کنند. به همین ترتیب ، عملکرد خوب برای یک معیار خاص (دقت ، AUC) همیشه به عملکرد قابل قبول برای سایر معیارها (نرخ مثبت کاذب ، نرخ منفی کاذب) که در ارزیابی فرصت و آسیب برای کاربران مهم است ، تبدیل نمی شود.

بخشهای زیر برخی از جنبه های مورد بررسی را مرور می کند.

کدام گروه ها را باید برش بزنم؟

به طور کلی ، یک روش خوب تقسیم کردن به تعداد گروههایی است که ممکن است تحت تأثیر محصول شما قرار بگیرند ، زیرا شما هرگز نمی دانید چه زمانی عملکرد ممکن است برای دیگری متفاوت باشد. با این حال ، اگر مطمئن نیستید ، به کاربران مختلفی که ممکن است با محصول شما ارتباط برقرار کنند و اینکه چگونه ممکن است تحت تأثیر قرار بگیرند فکر کنید. به ویژه برشهای مربوط به ویژگیهای حساس مانند نژاد ، قومیت ، جنسیت ، ملیت ، درآمد ، گرایش جنسی و وضعیت ناتوانی را در نظر بگیرید.

اگر من داده هایی با برچسب برش هایی که می خواهم بررسی کنم ندارم؟

سؤال خوبی بود. ما می دانیم که بسیاری از مجموعه های داده دارای برچسب های حقیقت واقعی برای ویژگی های هویت فردی نیستند.

اگر در این موقعیت قرار دارید ، چند روش را به شما توصیه می کنیم:

  1. شناسایی در صورت هستند، ویژگی های است که شما باید که ممکن است شما برخی از بینش به عملکرد در گروه وجود دارد. به عنوان مثال ، جغرافیا گرچه با نژاد و نژاد معادل نیست ، اما ممکن است به شما کمک کند تا الگوهای مختلف عملکرد را کشف کنید
  2. اگر مجموعه داده های عمومی نماینده ای وجود دارد که می تواند به خوبی از پس مشکل شما برآید ، مشخص کنید. می توانید مجموعه ای از مجموعه داده های متنوع و فراگیر را در سایت Google AI پیدا کنید که شامل Project Respect ، Inclusive Images و Open Open Extended ، و غیره.
  3. قوانین یا طبقه بندی اهرم ها ، در صورت لزوم ، برای برچسب گذاری داده های شما با ویژگی های سطح سطح عینی. به عنوان مثال ، می توانید متن را برچسب بزنید که آیا اصطلاح هویتی در جمله وجود دارد یا نه. به خاطر داشته باشید که طبقه بندی کننده ها چالش های خاص خود را دارند و اگر مراقب نباشید ، ممکن است لایه دیگری از سوگیری را نیز ایجاد کند. در مورد آنچه که طبقه بندی کننده شما در واقع طبقه بندی می کند واضح باشید. به عنوان مثال ، یک طبقه بندی کننده سن بر روی تصاویر در واقع طبقه بندی سن درک شده است . علاوه بر این ، در صورت امکان ، از ویژگی های سطح سطح استفاده می شود که می تواند به طور عینی در داده ها شناسایی شود. به عنوان مثال ، ساخت طبقه بندی کننده تصویر برای نژاد یا قومیت بد توصیه نمی شود ، زیرا این خصوصیات بصری نیستند که بتوانند در یک تصویر تعریف شوند. طبقه بندی کننده احتمالاً از پروکسی ها یا کلیشه ها استفاده می کند. در عوض ، ایجاد یک طبقه بندی برای رنگ پوست ممکن است روش مناسب تری برای برچسب گذاری و ارزیابی تصویر باشد. در آخر ، از دقت بالا برای طبقه بندی کننده هایی که چنین ویژگی هایی را برچسب گذاری می کنند اطمینان حاصل کنید.
  4. داده های نماینده بیشتری پیدا کنید که دارای برچسب باشند

همیشه اطمینان حاصل کنید که در مجموعه داده های متنوع و متعدد ارزیابی کنید.

اگر داده های ارزیابی شما به اندازه کافی نمایانگر پایگاه کاربری شما نیست یا انواع داده هایی که احتمالاً وجود دارد ، ممکن است با معیارهای عدالت فریبکارانه خوبی روبرو شوید. به همین ترتیب ، عملکرد بالای مدل در یک مجموعه داده تضمین کننده عملکرد بالا در مورد دیگران نیست.

بخاطر داشته باشید زیرگروه ها همیشه بهترین روش برای طبقه بندی افراد نیستند.

افراد چند بعدی هستند و حتی در یک بعد واحد به بیش از یک گروه تعلق دارند - کسی را که چند نژادی است یا به چندین گروه نژادی تعلق دارد ، در نظر بگیرید. همچنین ، اگرچه ممکن است معیارهای کلی برای یک گروه نژادی معادل عادلانه به نظر برسند ، تعاملات خاص مانند نژاد و جنسیت با هم ممکن است تعصب ناخواسته ای را نشان دهند. علاوه بر این ، بسیاری از زیر گروه ها مرزهای فازی دارند که به طور مداوم دوباره ترسیم می شوند.

چه زمانی برش های کافی را آزمایش کرده ام و چگونه می دانم کدام برش ها را آزمایش کنم؟

ما تصدیق می کنیم که تعداد زیادی گروه یا برش وجود دارد که ممکن است برای آزمایش مناسب باشد و در صورت امکان ، برش و ارزیابی طیف متنوع و گسترده ای از برش ها و سپس غواصی عمیق را در جایی که فرصت های پیشرفت را پیدا می کنید ، توصیه می کنیم. همچنین تأیید این نکته مهم است که حتی اگر نگرانی در مورد برشهایی که آزمایش کرده اید مشاهده نکنید ، به این معنی نیست که محصول شما برای همه کاربران کار می کند و دریافت بازخورد و آزمایش متنوع کاربر برای اطمینان از شناسایی مداوم جدید مهم است. فرصت ها.

برای شروع ، ما توصیه می کنیم در مورد مورد استفاده خاص خود و روش های مختلفی که کاربران ممکن است با محصول شما تعامل کنند ، فکر کنید. چگونه ممکن است کاربران مختلف تجربیات مختلفی داشته باشند؟ این برای برشهایی که باید ارزیابی کنید به چه معناست؟ جمع آوری بازخورد از کاربران متنوع همچنین ممکن است برشهای احتمالی را برای اولویت بندی برجسته کند.

کدام معیارها را انتخاب کنم؟

هنگام انتخاب معیارهایی که برای سیستم شما ارزیابی می شود ، در نظر بگیرید که چه کسی مدل شما را تجربه می کند ، چگونه تجربه می شود و اثرات آن تجربه چیست.

به عنوان مثال ، مدل شما چگونه به مردم عزت یا استقلال بیشتری می بخشد ، یا بر سلامت احساسی ، جسمی یا مالی آنها تأثیر مثبت می گذارد؟ در مقابل ، پیش بینی های مدل شما چگونه می تواند از شأن یا استقلال افراد بکاهد یا بر سلامت احساسی ، جسمی یا مالی آنها تأثیر منفی بگذارد؟

به طور کلی ، ما برش دادن همه معیارهای عملکرد موجود خود را به عنوان یک روش خوب توصیه می کنیم . ما همچنین توصیه می کنیم معیارهای خود را در چند آستانه ارزیابی کنید تا درک کنید که این آستانه چگونه می تواند روی عملکرد برای گروه های مختلف تأثیر بگذارد.

علاوه بر این ، اگر برچسب پیش بینی شده ای وجود دارد که به طور یکنواخت "خوب" یا "بد" است ، گزارش دادن (برای هر زیرگروه) نرخ پیش بینی آن برچسب را در نظر بگیرید. به عنوان مثال ، برچسب "خوب" برچسبی است که پیش بینی آن باعث می شود شخص به برخی از منابع دسترسی پیدا کند یا آنها را قادر به انجام عملی کند.

معیارهای عدالت انتقادی برای طبقه بندی

وقتی به یک مدل طبقه بندی فکر می کنید ، به تأثیرات خطاها (تفاوت بین برچسب واقعی "حقیقت زمین" و برچسب از مدل) فکر کنید. اگر برخی از خطاها ممکن است فرصت بیشتری برای کاربران شما ایجاد کنند یا به کاربران آسیب برساند ، مطمئن شوید که میزان این خطاها را در بین گروه های کاربران ارزیابی می کنید. این معیارهای خطا در زیر ، در معیارهایی که در حال حاضر توسط بتا شاخص های عدالت پشتیبانی می شود ، تعریف شده اند.

در طول سال آینده ، ما امیدواریم که مطالعات موردی موارد مختلف استفاده و معیارهای مرتبط با این موارد را منتشر کنیم تا بتوانیم بهترین زمان برجسته سازی معیارهای مختلف را برجسته کنیم.

معیارهای اندازه گیری امروز در شاخص های انصاف موجود است

توجه: بسیاری از معیارهای عدالت ارزشمند وجود دارد که در حال حاضر در بتا شاخص های عدالت پشتیبانی نمی شوند. با افزودن معیارهای بیشتر ، در اینجا به راهنمایی برای این معیارها ادامه می دهیم. در زیر ، می توانید به دستورالعمل ها دسترسی پیدا کنید تا معیارهای خود را به شاخص های عدالت اضافه کنید. علاوه بر این ، اگر معیارهایی وجود دارد که می خواهید مشاهده کنید ، لطفاً با tfx@tensorflow.org تماس بگیرید. ما امیدواریم که برای ساخت این موضوع با شما شریک باشیم.

نرخ مثبت / نرخ منفی

  • تعریف: درصدی از نقاط داده ای که مستقل از حقیقت اساسی در طبقه بندی مثبت یا منفی طبقه بندی می شوند
  • مربوط به: برابری جمعیتی و برابری نتایج ، هنگامی که در گروههای فرعی برابر باشد
  • زمان استفاده از این معیار: انصاف از مواردی استفاده کنید که داشتن درصد نهایی برابر گروهها مهم است

مثبت مثبت / نرخ منفی نادرست

  • تعریف: درصد نقاط مثبت داده (به عنوان برچسب زده شده در حقیقت زمین) که به درستی مثبت طبقه بندی شده اند ، یا درصد نقاط مثبت داده که به اشتباه به عنوان منفی طبقه بندی شده اند
  • مربوط می شود به: برابری فرصت (برای طبقه مثبت) ، وقتی در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: انصاف از مواردی استفاده کنید که مهم باشد یک درصد از داوطلبان واجد شرایط در هر گروه مثبت ارزیابی شوند. این معمولاً در موارد طبقه بندی نتایج مثبت ، از قبیل درخواست وام ، پذیرش در مدرسه یا اینکه بچه ها محتوا دوستانه هستند ، توصیه می شود.

نرخ منفی واقعی / نرخ مثبت نادرست

  • تعریف: درصد نقاط منفی داده (به عنوان برچسب زده شده در حقیقت زمین) که به درستی مثبت طبقه بندی شده اند ، یا درصد نقاط داده منفی که به اشتباه به عنوان مثبت طبقه بندی شده اند
  • مربوط می شود به: برابری فرصت (برای کلاس منفی) ، وقتی در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: انصاف از مواردی استفاده کنید که میزان خطا (یا طبقه بندی غلط در مورد مثبت) بیشتر از طبقه بندی نکات مثبت نگران کننده است. این بیشتر در موارد سو abuse استفاده معمول است ، جایی که موارد مثبت اغلب منجر به اقدامات منفی می شوند. اینها همچنین برای فناوری های تجزیه و تحلیل صورت مانند تشخیص چهره یا ویژگی های چهره مهم هستند

دقت و AUC

  • مربوط می شود به: برابری پیش بینی ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیارها: مواردی که دقت کار بسیار مهم است (لزوماً در یک جهت مشخص نیست) ، مانند شناسایی چهره یا خوشه بندی چهره

نرخ کشف کاذب

  • تعریف: درصد نقاط داده منفی (که در حقیقت زمین برچسب گذاری شده اند) از همه نقاط داده طبقه بندی شده به عنوان مثبت ، به طور اشتباه به عنوان مثبت طبقه بندی شده اند. این نیز معکوس PPV است
  • مربوط به: برابری پیش بینی (همچنین به عنوان کالیبراسیون نیز شناخته می شود) ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسر پیش بینی های مثبت صحیح باید در گروه های فرعی برابر باشد

نرخ حذف False

  • تعریف: درصد نقاط مثبت داده (به عنوان برچسب زده شده در حقیقت زمین) که به اشتباه به عنوان منفی طبقه بندی شده اند از تمام نقاط داده منفی طبقه بندی شده است. این نیز معکوس NPV است
  • مربوط می شود به: برابری پیش بینی (همچنین به عنوان کالیبراسیون شناخته می شود) ، هنگامی که در زیر گروه ها برابر باشد
  • زمان استفاده از این معیار: مواردی که کسر پیش بینی های منفی صحیح باید در گروه های فرعی برابر باشد

نمونه هایی از سنجه ها را انتخاب کنید

  • عدم شناسایی سیستماتیک چهره در یک برنامه دوربین ، می تواند منجر به تجربه منفی کاربر برای برخی از گروه های کاربر شود. در این حالت ، نگاتیوهای کاذب در سیستم تشخیص چهره ممکن است منجر به خرابی محصول شود ، در حالی که یک مثبت کاذب (تشخیص چهره در صورت عدم وجود) ممکن است باعث ایجاد مزاحمت جزئی برای کاربر شود. بنابراین ، ارزیابی و به حداقل رساندن میزان منفی کاذب برای این مورد مهم مهم است.
  • علامت گذاری ناعادلانه نظرات متن برخی افراد به عنوان "هرزنامه" یا "سمیت زیاد" در یک سیستم تعدیل منجر به خاموش شدن صدای خاصی می شود. از یک طرف ، نرخ مثبت کاذب بالا منجر به سانسور ناعادلانه می شود. از طرف دیگر ، یک نرخ منفی کاذب بالا می تواند منجر به تکثیر محتوای سمی از گروه های خاص شود ، که ممکن است هم به کاربر آسیب برساند و هم یک آسیب نمایشی برای آن گروه ها ایجاد کند. بنابراین ، علاوه بر معیارهایی که انواع خطاها مانند دقت یا AUC را در نظر می گیرند ، در نظر گرفتن هر دو معیار مهم است.

معیارهای مورد نظر خود را نمی بینید؟

اسناد را اینجا اضافه کنید تا معیار سفارشی خود را اضافه کنید.

یادداشت های نهایی

فاصله در معیار بین دو گروه می تواند نشانه این باشد که مدل شما ممکن است دارای انحراف ناعادلانه باشد. شما باید نتایج خود را با توجه به مورد استفاده خود تفسیر کنید. با این حال ، اولین علامتی که ممکن است با یک مجموعه از کاربران رفتار ناعادلانه داشته باشید این است که معیارهای بین آن مجموعه از کاربران و به طور کلی تفاوت قابل توجهی با یکدیگر داشته باشند. هنگام بررسی این تفاوت ها اطمینان حاصل کنید که فواصل اطمینان را در نظر بگیرید. وقتی در برش خاصی نمونه کم دارید ، ممکن است تفاوت بین معیارها دقیق نباشد.

دستیابی به برابری بین گروه ها بر روی شاخص های عدالت به معنای منصفانه بودن مدل نیست. سیستم ها بسیار پیچیده هستند و دستیابی به برابری در یک (یا حتی همه) از معیارهای ارائه شده نمی تواند عدالت را تضمین کند.

ارزیابی انصاف باید در تمام مراحل توسعه و پس از راه اندازی انجام شود (نه روز قبل از راه اندازی). درست همانطور که بهبود محصول شما روندی مداوم است و منوط به تعدیل براساس بازخورد کاربر و بازار است ، تولید عادلانه و منصفانه محصول شما نیاز به توجه مداوم دارد. با تغییر جنبه های مختلف مدل ، مانند داده های آموزش ، ورودی های سایر مدل ها یا خود طراحی ، معیارهای انصاف تغییر می کنند. "پاک کردن نوار" یک بار برای اطمینان از سالم ماندن تمام اجزای متقابل کافی نیست.

آزمایش خصومت باید برای نمونه های نادر و مخرب انجام شود. ارزیابی انصاف به معنای جایگزینی آزمایش خصمانه نیست. دفاع اضافی در برابر نمونه های نادر و هدفمند بسیار مهم است زیرا این نمونه ها احتمالاً در آموزش یا ارزیابی داده ها ظاهر نمی شوند.