গোপনীয়তা পরিমাপ

ডিফারেনশিয়াল প্রাইভেসি হল একটি অ্যালগরিদম দ্বারা প্রদত্ত গোপনীয়তা গ্যারান্টি পরিমাপের একটি কাঠামো এবং ε (এপসিলন) এবং δ (ডেল্টা) মান ব্যবহার করে প্রকাশ করা যেতে পারে। দুটির মধ্যে, ε হাইপারপ্যারামিটারের পছন্দের জন্য আরও গুরুত্বপূর্ণ এবং আরও সংবেদনশীল। মোটামুটিভাবে বলতে গেলে, তারা নিম্নলিখিত মানে:

  • ε একটি একক প্রশিক্ষণ উদাহরণ অন্তর্ভুক্ত করে (বা অপসারণ) দ্বারা একটি নির্দিষ্ট আউটপুটের সম্ভাব্যতা কতটা বাড়তে পারে তার একটি সিলিং দেয়। আপনি সাধারণত এটি একটি ছোট ধ্রুবক হতে চান (10 এর কম, বা আরও কঠোর গোপনীয়তার গ্যারান্টির জন্য, 1 এর কম)। যাইহোক, এটি শুধুমাত্র একটি উপরের সীমা, এবং এপিসিলনের একটি বড় মান এখনও ভাল ব্যবহারিক গোপনীয়তার অর্থ হতে পারে।
  • δ মডেল আচরণে একটি নির্বিচারে পরিবর্তনের সম্ভাবনাকে সীমাবদ্ধ করে। আপনি সাধারণত ইউটিলিটি আপস না করে এটিকে খুব ছোট সংখ্যায় (1e-7 বা তাই) সেট করতে পারেন। থাম্বের একটি নিয়ম হল এটিকে প্রশিক্ষণের ডেটা আকারের বিপরীতের চেয়ে কম সেট করা।

প্রশিক্ষণের হাইপারপ্যারামিটার এবং (ε, δ) পরিপ্রেক্ষিতে ফলে গোপনীয়তার মধ্যে সম্পর্ক জটিল এবং স্পষ্টভাবে বলা কঠিন। আমাদের বর্তমান প্রস্তাবিত পদ্ধতিটি শুরু করুন পৃষ্ঠার নীচে রয়েছে, যার মধ্যে যুক্তিসঙ্গত ইউটিলিটি থাকা অবস্থায় সর্বাধিক নয়েজ মাল্টিপ্লায়ার খুঁজে বের করা এবং তারপরে নয়েজ গুণক এবং মাইক্রোব্যাচের সংখ্যা স্কেল করা জড়িত। TensorFlow গোপনীয়তা একটি টুল প্রদান করে, compute_dp_sgd_privacy (ε, δ), নয়েজ মাল্টিপ্লায়ার σ, গৃহীত প্রশিক্ষণ পদক্ষেপের সংখ্যা এবং প্রতিটি ধাপে ব্যবহৃত ইনপুট ডেটার ভগ্নাংশের উপর ভিত্তি করে গণনা করার জন্য। গোপনীয়তার পরিমাণ শব্দ গুণক σ এর সাথে বৃদ্ধি পায় এবং প্রশিক্ষণে যতবার ডেটা ব্যবহার করা হয় ততই হ্রাস পায়। সাধারণত, সর্বাধিক 10.0 এর এপিসিলন অর্জনের জন্য, ডেটাসেটের আকার এবং যুগের সংখ্যার উপর নির্ভর করে আমাদের শব্দ গুণকটিকে প্রায় 0.3 থেকে 0.5 সেট করতে হবে। পদ্ধতিটি দেখতে শ্রেণীবিভাগ গোপনীয়তা টিউটোরিয়াল দেখুন।

আরও বিস্তারিত জানার জন্য , মূল DP-SGD কাগজ দেখুন।

আপনার মডেল [../tutorials/classification_privacy.ipynb] এর জন্য একটি নির্দিষ্ট ডেল্টা মান দেওয়া এপিসিলন খুঁজে বের করতে আপনি compute_dp_sgd_privacy ব্যবহার করতে পারেন:

  • q : নমুনা অনুপাত - একটি মিনি ব্যাচে অন্তর্ভুক্ত একটি পৃথক প্রশিক্ষণ পয়েন্টের সম্ভাবনা ( batch_size/number_of_examples )।
  • noise_multiplier : একটি ফ্লোট যা প্রশিক্ষণের সময় যোগ করা শব্দের পরিমাণ নিয়ন্ত্রণ করে। সাধারণত, বেশি শব্দের ফলে ভালো গোপনীয়তা এবং কম উপযোগিতা পাওয়া যায়।
  • steps : নেওয়া বিশ্বব্যাপী পদক্ষেপের সংখ্যা।

এপসিলন এবং ডেল্টার গণনার পিছনে তত্ত্বের একটি বিশদ লেখা স্যাম্পলড গাউসিয়ান মেকানিজমের ডিফারেনশিয়াল প্রাইভেসিতে পাওয়া যায়।