اندازه گیری حریم خصوصی

حریم خصوصی دیفرانسیل چارچوبی برای اندازه گیری تضمین های حریم خصوصی ارائه شده توسط یک الگوریتم است و می تواند با استفاده از مقادیر ε (epsilon) و δ (delta) بیان شود. از بین این دو، ε اهمیت بیشتری دارد و حساسیت بیشتری نسبت به انتخاب فراپارامترها دارد. به طور کلی منظور آنها موارد زیر است:

  • ε سقفی را نشان می دهد که چقدر احتمال یک خروجی خاص با گنجاندن (یا حذف) یک مثال آموزشی افزایش می یابد. شما معمولاً می خواهید ثابت کوچک باشد (کمتر از 10، یا برای تضمین حریم خصوصی دقیق تر، کمتر از 1). با این حال، این فقط یک کران بالایی است و مقدار زیاد اپسیلون ممکن است همچنان به معنای حفظ حریم خصوصی خوب باشد.
  • δ احتمال یک تغییر دلخواه در رفتار مدل را محدود می کند. شما معمولاً می توانید آن را روی یک عدد بسیار کوچک (1e-7 یا بیشتر) بدون به خطر انداختن ابزارها تنظیم کنید. یک قانون کلی این است که آن را کمتر از معکوس اندازه داده آموزشی تنظیم کنید.

رابطه بین فراپارامترهای آموزشی و حریم خصوصی حاصله از نظر (ε, δ) پیچیده و دشوار است که به صراحت بیان شود. رویکرد پیشنهادی کنونی ما در پایین صفحه شروع به کار است که شامل یافتن حداکثر ضرب‌کننده نویز است که می‌توان از آن استفاده کرد در حالی که هنوز کاربرد معقولی دارد، و سپس مقیاس‌کننده ضریب نویز و تعداد میکروبچ‌ها را مقیاس‌بندی می‌کند. TensorFlow Privacy ابزاری به نام compute_dp_sgd_privacy برای محاسبه (ε, δ) بر اساس ضریب نویز σ، تعداد مراحل آموزشی انجام شده و کسری از داده های ورودی مصرف شده در هر مرحله فراهم می کند. میزان حریم خصوصی با افزایش نویز σ افزایش می‌یابد و هر چه تعداد دفعات استفاده از داده‌ها در تمرین بیشتر شود، کاهش می‌یابد. به طور کلی، برای دستیابی به اپسیلون حداکثر 10.0، بسته به اندازه مجموعه داده و تعداد دوره‌ها، باید ضریب نویز را روی 0.3 تا 0.5 تنظیم کنیم. برای مشاهده رویکرد، آموزش حریم خصوصی طبقه بندی را ببینید.

برای جزئیات بیشتر، مقاله اصلی DP-SGD را ببینید.

می‌توانید از compute_dp_sgd_privacy برای پیدا کردن اپسیلون با مقدار دلتای ثابت برای مدل خود استفاده کنید [../tutorials/classification_privacy.ipynb]:

  • q : نسبت نمونه گیری - احتمال اینکه یک نقطه آموزشی فردی در یک دسته کوچک گنجانده شود ( batch_size/number_of_examples ).
  • noise_multiplier : شناوری که میزان نویز اضافه شده در طول آموزش را کنترل می کند. به طور کلی، نویز بیشتر منجر به حفظ حریم خصوصی بهتر و کاربرد کمتر می شود.
  • Steps : تعداد steps های جهانی برداشته شده است.

شرح مفصلی از نظریه محاسبات اپسیلون و دلتا در Differential Privacy of the Sampled Gaussian Mechanism در دسترس است.