اصلاح مدل | Responsible AI Toolkit

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

اصلاح مدل TensorFlow چیست؟

اگر نگرانی‌های انصافی را در مورد مدل یادگیری ماشین خود شناسایی کرده‌اید، سه نوع اصلی مداخله فنی در دسترس است:

آموزش تکنیک های پیش پردازش داده ها: جمع آوری داده های بیشتر، تولید داده های مصنوعی، تنظیم وزن نمونه ها و نرخ نمونه برداری از برش های مختلف.
تکنیک‌های مدل‌سازی زمان آموزش: تغییر خود مدل با معرفی یا تغییر اهداف مدل و اضافه کردن محدودیت‌ها.
تکنیک‌های پس از آموزش: اصلاح خروجی‌های مدل یا تفسیر خروجی‌ها برای بهبود عملکرد در مقیاس‌ها.

کتابخانه Remediation مدل TensorFlow تکنیک‌های زمان آموزش را برای مداخله در مدل ارائه می‌کند.

مدلسازی زمان آموزش

کتابخانه Remediation مدل TensorFlow دو تکنیک را برای پرداختن به مسائل تعصب و انصاف در مدل شما ارائه می‌کند، MinDiff و جفت‌سازی Logit Counterfactual (CLP) . آنها در جدول زیر توضیح داده شده اند.

	MinDiff	CLP
چه زمانی باید از این تکنیک استفاده کرد؟	برای اطمینان از اینکه یک مدل برچسب ترجیحی را به خوبی برای همه مقادیر یک ویژگی حساس پیش‌بینی می‌کند. برای دستیابی به برابری فرصت های گروهی.	برای اطمینان از اینکه پیش‌بینی مدل بین «جفت‌های خلاف واقع» (جایی که ویژگی حساس ارجاع‌شده در یک ویژگی متفاوت است) تغییر نمی‌کند. برای مثال، در یک طبقه‌بندی سمیت ، مثال‌هایی مانند «من یک مرد هستم» و «من یک لزبین هستم» نباید پیش‌بینی متفاوتی داشته باشند. برای دستیابی به شکلی از انصاف خلاف واقع.
چگونه کار می کند؟	مدل را در طول تمرین به دلیل تفاوت در توزیع امتیازات بین دو مجموعه جریمه می کند.	مدل را در طول آموزش برای تفاوت های خروجی بین جفت مثال های خلاف واقع مجازات می کند.
روش های ورودی	توابع اتلاف بر روی خروجی عمل می‌کنند، بنابراین، در تئوری، نسبت به معماری ورودی و مدل ناشناس هستند.	توابع اتلاف بر روی خروجی عمل می‌کنند، بنابراین، در تئوری، نسبت به معماری ورودی و مدل ناشناس هستند.

MinDiff

CLP

چه زمانی باید از این تکنیک استفاده کرد؟

برای اطمینان از اینکه یک مدل برچسب ترجیحی را به خوبی برای همه مقادیر یک ویژگی حساس پیش‌بینی می‌کند.

برای دستیابی به برابری فرصت های گروهی.

برای اطمینان از اینکه پیش‌بینی مدل بین «جفت‌های خلاف واقع» (جایی که ویژگی حساس ارجاع‌شده در یک ویژگی متفاوت است) تغییر نمی‌کند. برای مثال، در یک طبقه‌بندی سمیت ، مثال‌هایی مانند «من یک مرد هستم» و «من یک لزبین هستم» نباید پیش‌بینی متفاوتی داشته باشند.

برای دستیابی به شکلی از انصاف خلاف واقع.

چگونه کار می کند؟

مدل را در طول تمرین به دلیل تفاوت در توزیع امتیازات بین دو مجموعه جریمه می کند.

مدل را در طول آموزش برای تفاوت های خروجی بین جفت مثال های خلاف واقع مجازات می کند.

روش های ورودی

توابع اتلاف بر روی خروجی عمل می‌کنند، بنابراین، در تئوری، نسبت به معماری ورودی و مدل ناشناس هستند.