Đo lường quyền riêng tư

Quyền riêng tư khác biệt là một khuôn khổ để đo lường các đảm bảo về quyền riêng tư được cung cấp bởi một thuật toán và có thể được biểu thị bằng cách sử dụng các giá trị ε (epsilon) và δ (delta). Trong số hai, ε quan trọng hơn và nhạy cảm hơn với việc lựa chọn siêu tham số. Nói một cách đại khái, chúng có nghĩa như sau:

ε đưa ra mức trần về xác suất của một đầu ra cụ thể có thể tăng lên bao nhiêu khi bao gồm (hoặc loại bỏ) một ví dụ đào tạo duy nhất. Bạn thường muốn nó là một hằng số nhỏ (nhỏ hơn 10 hoặc để đảm bảo quyền riêng tư nghiêm ngặt hơn, nhỏ hơn 1). Tuy nhiên, đây chỉ là giới hạn trên và giá trị lớn của epsilon vẫn có thể có nghĩa là quyền riêng tư thực tế tốt.
δ giới hạn xác suất của một sự thay đổi tùy ý trong hành vi của mô hình. Bạn thường có thể đặt giá trị này thành một số rất nhỏ (1e-7 hoặc lâu hơn) mà không ảnh hưởng đến tiện ích. Một quy tắc chung là đặt nó nhỏ hơn nghịch đảo của kích thước dữ liệu đào tạo.

Mối quan hệ giữa các siêu tham số đào tạo và kết quả là sự riêng tư về (ε, δ) là phức tạp và khó trình bày một cách rõ ràng. Phương pháp được đề xuất hiện tại của chúng tôi nằm ở cuối trang Bắt đầu , bao gồm việc tìm hệ số nhiễu tối đa mà người ta có thể sử dụng trong khi vẫn có tiện ích hợp lý, sau đó mở rộng hệ số nhiễu và số lượng microbatch. TensorFlow Privacy cung cấp một công cụ, compute_dp_sgd_privacy để tính toán (ε, δ) dựa trên hệ số nhiễu σ, số bước đào tạo được thực hiện và phần dữ liệu đầu vào được tiêu thụ ở mỗi bước. Mức độ riêng tư tăng lên theo hệ số tiếng ồn σ và giảm khi dữ liệu được sử dụng trong quá trình huấn luyện càng nhiều. Nói chung, để đạt được epsilon nhiều nhất là 10,0, chúng ta cần đặt hệ số nhiễu trong khoảng 0,3 đến 0,5, tùy thuộc vào kích thước tập dữ liệu và số lượng kỷ nguyên. Xem hướng dẫn phân loại quyền riêng tư để xem cách tiếp cận.

Để biết thêm chi tiết, hãy xem giấy DP-SGD gốc .

Bạn có thể sử dụng compute_dp_sgd_privacy để tìm ra epsilon được cung cấp một giá trị delta cố định cho mô hình của bạn [../tutorials/classification_privacy.ipynb]:

q : tỷ lệ lấy mẫu - xác suất của một điểm đào tạo riêng lẻ được đưa vào một lô nhỏ ( batch_size/number_of_examples ).
noise_multiplier : Một phao điều chỉnh lượng tiếng ồn được thêm vào trong quá trình huấn luyện. Nói chung, nhiều tiếng ồn hơn dẫn đến quyền riêng tư tốt hơn và tiện ích thấp hơn.
số steps : Số bước toàn cục đã thực hiện.

Bản viết chi tiết về lý thuyết đằng sau việc tính toán epsilon và delta có sẵn tại Quyền riêng tư khác biệt của Cơ chế Gaussian được lấy mẫu .