Trong ví dụ này, chúng tôi xem xét nhiệm vụ dự đoán xem một bình luận thảo luận được đăng trên trang thảo luận Wiki có chứa nội dung độc hại hay không (tức là chứa nội dung “thô lỗ, thiếu tôn trọng hoặc vô lý”). Chúng tôi sử dụng công cộng số liệu công bố bởi AI thoại dự án, trong đó có hơn 100k ý kiến từ Wikipedia tiếng Anh được chú thích của người lao động đám đông (xem giấy cho phương pháp ghi nhãn).

Một trong những thách thức với tập dữ liệu này là một tỷ lệ rất nhỏ các nhận xét đề cập đến các chủ đề nhạy cảm như tình dục hoặc tôn giáo. Do đó, việc đào tạo mô hình mạng nơ-ron trên tập dữ liệu này dẫn đến hiệu suất khác nhau trên các chủ đề nhạy cảm nhỏ hơn. Điều này có thể có nghĩa là những tuyên bố vô thưởng vô phạt về những chủ đề đó có thể bị gắn cờ không chính xác là 'độc hại' với tỷ lệ cao hơn, khiến bài phát biểu bị kiểm duyệt không công bằng

Bằng cách áp đặt những hạn chế trong quá trình đào tạo, chúng ta có thể đào tạo một mô hình công bằng hơn mà thực hiện một cách công bằng hơn trên các nhóm chủ đề khác nhau.

Chúng tôi sẽ sử dụng thư viện TFCO để tối ưu hóa cho mục tiêu công bằng của chúng tôi trong quá trình đào tạo.

Cài đặt

Trước tiên, hãy cài đặt và nhập các thư viện có liên quan. Lưu ý rằng bạn có thể phải khởi động lại chuyên mục của mình một lần sau khi chạy ô đầu tiên vì các gói lỗi thời trong thời gian chạy. Sau khi làm như vậy, sẽ không có vấn đề gì thêm với hàng nhập khẩu.

pip cài đặt

Lưu ý rằng tùy thuộc vào thời điểm bạn chạy ô bên dưới, bạn có thể nhận được cảnh báo về việc phiên bản mặc định của TensorFlow trong Colab sẽ sớm chuyển sang TensorFlow 2.X. Bạn có thể bỏ qua cảnh báo đó một cách an toàn vì máy tính xách tay này được thiết kế để tương thích với TensorFlow 1.X và 2.X.

Nhập mô-đun

Mặc dù TFCO tương thích với thực thi háo hức và đồ thị, máy tính xách tay này giả định rằng thực thi háo hức được bật theo mặc định. Để đảm bảo rằng không có gì bị hỏng, thực thi háo hức sẽ được bật trong ô bên dưới.

Bật các phiên bản in và thực thi háo hức

Eager execution enabled by default.
TensorFlow 2.3.2
TFMA 0.26.0

Siêu tham số

Đầu tiên, chúng tôi đặt một số siêu tham số cần thiết cho quá trình tiền xử lý dữ liệu và đào tạo mô hình.

hparams = {
    "batch_size": 128,
    "cnn_filter_sizes": [128, 128, 128],
    "cnn_kernel_sizes": [5, 5, 5],
    "cnn_pooling_sizes": [5, 5, 40],
    "constraint_learning_rate": 0.01,
    "embedding_dim": 100,
    "embedding_trainable": False,
    "learning_rate": 0.005,
    "max_num_words": 10000,
    "max_sequence_length": 250

Tải và xử lý trước tập dữ liệu

Tiếp theo, chúng tôi tải xuống tập dữ liệu và xử lý trước nó. Tập hợp đào tạo, kiểm tra và xác thực được cung cấp dưới dạng tệp CSV riêng biệt.

toxicity_data_url = (""

data_train = pd.read_csv(toxicity_data_url + "wiki_train.csv")
data_test = pd.read_csv(toxicity_data_url + "wiki_test.csv")
data_vali = pd.read_csv(toxicity_data_url + "wiki_dev.csv")


Các comment cột chứa các ý kiến thảo luận và is_toxic cột chỉ ra hay không một lời nhận xét được chú thích là độc hại.

Sau đây, chúng tôi:

  1. Tách các nhãn ra
  2. Mã hóa các nhận xét văn bản
  3. Xác định các nhận xét có chứa các cụm từ chủ đề nhạy cảm

Đầu tiên, chúng tôi tách các nhãn khỏi tập hợp tàu, thử nghiệm và xác nhận. Các nhãn đều là nhị phân (0 hoặc 1).

labels_train = data_train["is_toxic"].values.reshape(-1, 1) * 1.0
labels_test = data_test["is_toxic"].values.reshape(-1, 1) * 1.0
labels_vali = data_vali["is_toxic"].values.reshape(-1, 1) * 1.0

Tiếp theo, chúng ta tokenize các chú thích chữ bằng cách sử dụng Tokenizer cung cấp bởi Keras . Chúng tôi chỉ sử dụng các nhận xét trong tập huấn luyện để xây dựng vốn từ vựng về mã thông báo và sử dụng chúng để chuyển đổi tất cả các nhận xét thành một chuỗi mã thông báo (có đệm) có cùng độ dài.

tokenizer = text.Tokenizer(num_words=hparams["max_num_words"])

def prep_text(texts, tokenizer, max_sequence_length):
    # Turns text into into padded sequences.
    text_sequences = tokenizer.texts_to_sequences(texts)
    return sequence.pad_sequences(text_sequences, maxlen=max_sequence_length)

text_train = prep_text(data_train["comment"], tokenizer, hparams["max_sequence_length"])
text_test = prep_text(data_test["comment"], tokenizer, hparams["max_sequence_length"])
text_vali = prep_text(data_vali["comment"], tokenizer, hparams["max_sequence_length"])

Cuối cùng, chúng tôi xác định các bình luận liên quan đến một số nhóm chủ đề nhạy cảm nhất định. Chúng tôi xem xét một tập hợp con của các thuật ngữ sắc được cung cấp với các bộ dữ liệu và nhóm chúng thành bốn nhóm chủ đề lớn: tình dục, giới tính, tôn giáochủng tộc.

terms = {
    'sexuality': ['gay', 'lesbian', 'bisexual', 'homosexual', 'straight', 'heterosexual'], 
    'gender identity': ['trans', 'transgender', 'cis', 'nonbinary'],
    'religion': ['christian', 'muslim', 'jewish', 'buddhist', 'catholic', 'protestant', 'sikh', 'taoist'],
    'race': ['african', 'african american', 'black', 'white', 'european', 'hispanic', 'latino', 'latina', 
             'latinx', 'mexican', 'canadian', 'american', 'asian', 'indian', 'middle eastern', 'chinese', 

group_names = list(terms.keys())
num_groups = len(group_names)

Sau đó, chúng tôi tạo các ma trận thành viên nhóm riêng biệt cho các tập huấn luyện, kiểm tra và xác nhận, trong đó các hàng tương ứng với nhận xét, các cột tương ứng với bốn nhóm nhạy cảm và mỗi mục nhập là một boolean cho biết liệu nhận xét có chứa một thuật ngữ từ nhóm chủ đề hay không.

def get_groups(text):
    # Returns a boolean NumPy array of shape (n, k), where n is the number of comments, 
    # and k is the number of groups. Each entry (i, j) indicates if the i-th comment 
    # contains a term from the j-th group.
    groups = np.zeros((text.shape[0], num_groups))
    for ii in range(num_groups):
        groups[:, ii] = text.str.contains('|'.join(terms[group_names[ii]]), case=False)
    return groups

groups_train = get_groups(data_train["comment"])
groups_test = get_groups(data_test["comment"])
groups_vali = get_groups(data_vali["comment"])

Như hình dưới đây, tất cả bốn nhóm chủ đề chỉ chiếm một phần nhỏ của tập dữ liệu tổng thể và có tỷ lệ nhận xét độc hại khác nhau.

print("Overall label proportion = %.1f%%" % (labels_train.mean() * 100))

group_stats = []
for ii in range(num_groups):
    group_proportion = groups_train[:, ii].mean()
    group_pos_proportion = labels_train[groups_train[:, ii] == 1].mean()
                        "%.2f%%" % (group_proportion * 100), 
                        "%.1f%%" % (group_pos_proportion * 100)])
group_stats = pd.DataFrame(group_stats, 
                           columns=["Topic group", "Group proportion", "Label proportion"])
Overall label proportion = 9.7%

Chúng tôi thấy rằng chỉ 1,3% tập dữ liệu có chứa các bình luận liên quan đến tình dục. Trong số đó, 37% bình luận được chú thích là độc hại. Lưu ý rằng con số này lớn hơn đáng kể so với tỷ lệ tổng thể của các nhận xét được chú thích là độc hại. Điều này có thể là do một số bình luận sử dụng các thuật ngữ nhận dạng đó đã làm như vậy trong các bối cảnh đáng tiếc. Như đã đề cập ở trên, điều này có thể khiến mô hình của chúng tôi phân loại nhầm các nhận xét là độc hại khi chúng bao gồm các điều khoản đó. Vì đây là sự quan tâm, chúng tôi sẽ đảm bảo nhìn vào False Tỷ lệ tích cực khi chúng ta đánh giá hiệu suất của mô hình.

Xây dựng mô hình dự báo độc tính của CNN

Sau khi chuẩn bị các dữ liệu, bây giờ chúng ta xây dựng một Keras mô hình cho độc tính dự đoán. Mô hình chúng tôi sử dụng là mạng nơ-ron phức hợp (CNN) có cùng kiến ​​trúc được dự án Conversation AI sử dụng để phân tích xu hướng của chúng. Chúng tôi thích ứng đang được cung cấp bởi chúng để xây dựng các lớp mô hình.

Mô hình sử dụng một lớp nhúng để chuyển đổi các mã thông báo văn bản thành các vectơ có độ dài cố định. Lớp này chuyển đổi chuỗi văn bản đầu vào thành một chuỗi các vectơ, và chuyển chúng qua một số lớp của các hoạt động tích và gộp, tiếp theo là một lớp cuối cùng được kết nối đầy đủ.

Chúng tôi sử dụng các nhúng vector từ GloVe được đào tạo trước, chúng tôi tải xuống bên dưới. Quá trình này có thể mất vài phút để hoàn thành.

zip_file_url = ""
zip_file = urllib.request.urlopen(zip_file_url)
archive = zipfile.ZipFile(io.BytesIO(

Chúng tôi sử dụng embeddings Glove tải để tạo ra một ma trận nhúng, nơi các hàng chứa các embeddings từ cho tokens trong Tokenizer từ vựng 's.

embeddings_index = {}
glove_file = "glove.6B.100d.txt"

with as f:
    for line in f:
        values = line.split()
        word = values[0].decode("utf-8") 
        coefs = np.asarray(values[1:], dtype="float32")
        embeddings_index[word] = coefs

embedding_matrix = np.zeros((len(tokenizer.word_index) + 1, hparams["embedding_dim"]))
num_words_in_embedding = 0
for word, i in tokenizer.word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        num_words_in_embedding += 1
        embedding_matrix[i] = embedding_vector

Bây giờ chúng ta đã sẵn sàng để xác định Keras lớp. Chúng tôi viết một hàm để tạo một mô hình mới, mà chúng tôi sẽ gọi bất cứ khi nào chúng tôi muốn đào tạo một mô hình mới.

def create_model():
    model = keras.Sequential()

    # Embedding layer.
    embedding_layer = layers.Embedding(

    # Convolution layers.
    for filter_size, kernel_size, pool_size in zip(
        hparams['cnn_filter_sizes'], hparams['cnn_kernel_sizes'],

        conv_layer = layers.Conv1D(
            filter_size, kernel_size, activation='relu', padding='same')

        pooled_layer = layers.MaxPooling1D(pool_size, padding='same')

    # Add a flatten layer, a fully-connected layer and an output layer.
    model.add(layers.Dense(128, activation='relu'))

    return model

Chúng tôi cũng xác định một phương pháp để đặt hạt giống ngẫu nhiên. Điều này được thực hiện để đảm bảo kết quả có thể lặp lại.

def set_seeds():

Các chỉ số công bằng

Chúng tôi cũng viết các hàm để vẽ các chỉ số công bằng.

def create_examples(labels, predictions, groups, group_names):
  # Returns tf.examples with given labels, predictions, and group information.  
  examples = []
  sigmoid = lambda x: 1/(1 + np.exp(-x)) 
  for ii in range(labels.shape[0]):
    example = tf.train.Example()
        sigmoid(predictions[ii]))  # predictions need to be in [0, 1].
    for jj in range(groups.shape[1]):
          b'Yes' if groups[ii, jj] else b'No')
  return examples
def evaluate_results(labels, predictions, groups, group_names):
  # Evaluates fairness indicators for given labels, predictions and group
  # membership info.
  examples = create_examples(labels, predictions, groups, group_names)

  # Create feature map for labels, predictions and each group.
  feature_map = {
      'prediction':[], tf.float32),
      'toxicity':[], tf.float32),
  for group in group_names:
    feature_map[group] =[], tf.string)

  # Serialize the examples.
  serialized_examples = [e.SerializeToString() for e in examples]

  BASE_DIR = tempfile.gettempdir()
  OUTPUT_DIR = os.path.join(BASE_DIR, 'output')

  with beam.Pipeline() as pipeline:
    model_agnostic_config = agnostic_predict.ModelAgnosticConfig(

    slices = [tfma.slicer.SingleSliceSpec()]
    for group in group_names:

    extractors = [

    metrics_callbacks = [

    # Create a model agnostic aggregator.
    eval_shared_model = tfma.types.EvalSharedModel(

    # Run Model Agnostic Eval.
    _ = (
        | beam.Create(serialized_examples)
        | 'ExtractEvaluateAndWriteResults' >>

  fairness_ind_result = tfma.load_eval_result(output_path=OUTPUT_DIR)

  # Also evaluate accuracy of the model.
  accuracy = np.mean(labels == (predictions > 0.0))

  return fairness_ind_result, accuracy
def plot_fairness_indicators(eval_result, title):
  fairness_ind_result, accuracy = eval_result
  display(HTML("<center><h2>" + title + 
               " (Accuracy = %.2f%%)" % (accuracy * 100) + "</h2></center>"))
def plot_multi_fairness_indicators(multi_eval_results):

  multi_results = {}
  multi_accuracy = {}
  for title, (fairness_ind_result, accuracy) in multi_eval_results.items():
    multi_results[title] = fairness_ind_result
    multi_accuracy[title] = accuracy

  title_str = "<center><h2>"
  for title in multi_eval_results.keys():
      title_str+=title + " (Accuracy = %.2f%%)" % (multi_accuracy[title] * 100) + "; "
  # fairness_ind_result, accuracy = eval_result

Đào tạo mô hình không bị hạn chế

Đối với mô hình đào tạo chúng tôi đầu tiên, chúng tôi tối ưu hóa một sự mất mát cross-entropy đơn giản mà không cần bất kỳ trở ngại ..

# Set random seed for reproducible results.
# Optimizer and loss.
optimizer = tf.keras.optimizers.Adam(learning_rate=hparams["learning_rate"])
loss = lambda y_true, y_pred: tf.keras.losses.binary_crossentropy(
    y_true, y_pred, from_logits=True)

# Create, compile and fit model.
model_unconstrained = create_model()
model_unconstrained.compile(optimizer=optimizer, loss=loss)
    x=text_train, y=labels_train, batch_size=hparams["batch_size"], epochs=2)
Epoch 1/2
748/748 [==============================] - 51s 69ms/step - loss: 0.1590
Epoch 2/2
748/748 [==============================] - 48s 65ms/step - loss: 0.1217
<tensorflow.python.keras.callbacks.History at 0x7f55603a1d30>

Sau khi đào tạo mô hình không bị hạn chế, chúng tôi lập các số liệu đánh giá khác nhau cho mô hình trên tập thử nghiệm.

scores_unconstrained_test = model_unconstrained.predict(text_test)
eval_result_unconstrained = evaluate_results(
    labels_test, scores_unconstrained_test, groups_test, group_names)
INFO:tensorflow:ExampleCount post export metric: could not find any of the standard keys in predictions_dict (keys were: dict_keys(['prediction']))
INFO:tensorflow:ExampleCount post export metric: could not find any of the standard keys in predictions_dict (keys were: dict_keys(['prediction']))
INFO:tensorflow:Using the first key from predictions_dict: prediction
INFO:tensorflow:Using the first key from predictions_dict: prediction't find python-snappy so the implementation of _TFRecordUtil._masked_crc32c is not as fast as it could be.
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_model_analysis/writers/ tf_record_iterator (from is deprecated and will be removed in a future version.
Instructions for updating:
Use eager execution and: 
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_model_analysis/writers/ tf_record_iterator (from is deprecated and will be removed in a future version.
Instructions for updating:
Use eager execution and: 

Như đã giải thích ở trên, chúng tôi đang tập trung vào tỷ lệ dương tính giả. Trong phiên bản hiện tại (0.1.2), Chỉ báo Công bằng chọn tỷ lệ âm sai theo mặc định. Sau khi chạy dòng bên dưới, hãy tiếp tục và bỏ chọn false_negative_rate và chọn false_positive_rate để xem chỉ số mà chúng tôi quan tâm.

plot_fairness_indicators(eval_result_unconstrained, "Unconstrained")

Trong khi tỷ lệ dương tính giả tổng thể là dưới 2%, tỷ lệ dương tính giả đối với các nhận xét liên quan đến tình dục cao hơn đáng kể. Điều này là do nhóm tình dục có kích thước rất nhỏ và có tỷ lệ nhận xét được chú thích là độc hại cao hơn một cách không cân đối. Do đó, việc đào tạo một người mẫu không có ràng buộc dẫn đến việc người mẫu tin rằng các thuật ngữ liên quan đến tình dục là một chỉ báo mạnh mẽ về độc tính.

Huấn luyện với các ràng buộc về tỷ lệ dương tính giả

Để tránh sự khác biệt lớn về tỷ lệ dương tính giả giữa các nhóm khác nhau, tiếp theo, chúng tôi đào tạo một mô hình bằng cách giới hạn tỷ lệ dương tính giả cho mỗi nhóm trong một giới hạn mong muốn. Trong trường hợp này, chúng tôi sẽ tối ưu hóa tỷ lệ lỗi của đối tượng mô hình để các per-group giá dương tính giả là thấp hơn hoặc tương đương với 2%.

Tuy nhiên, đào tạo về các minibatch với các ràng buộc cho mỗi nhóm có thể là một thách thức đối với tập dữ liệu này, vì các nhóm mà chúng tôi muốn ràng buộc đều có kích thước nhỏ và có khả năng các minibatch riêng lẻ chứa rất ít ví dụ từ mỗi nhóm. Do đó, các gradient mà chúng tôi tính toán trong quá trình đào tạo sẽ bị nhiễu và dẫn đến mô hình hội tụ rất chậm.

Để giảm thiểu vấn đề này, chúng tôi khuyên bạn nên sử dụng hai luồng minibatch, với luồng đầu tiên được tạo như trước đây từ toàn bộ tập huấn luyện và luồng thứ hai được hình thành chỉ từ các ví dụ nhóm nhạy cảm. Chúng tôi sẽ tính toán mục tiêu bằng cách sử dụng các minibatch từ luồng đầu tiên và các ràng buộc cho mỗi nhóm bằng cách sử dụng các minibatch từ luồng thứ hai. Bởi vì các lô từ luồng thứ hai có khả năng chứa một số lượng lớn hơn các ví dụ từ mỗi nhóm, chúng tôi hy vọng các bản cập nhật của mình sẽ ít ồn ào hơn.

Chúng tôi tạo các tính năng, nhãn và bộ căng nhóm riêng biệt để giữ các minibatch từ hai luồng.

# Set random seed.

# Features tensors.
batch_shape = (hparams["batch_size"], hparams['max_sequence_length'])
features_tensor = tf.Variable(np.zeros(batch_shape, dtype='int32'), name='x')
features_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='int32'), name='x_sen')

# Labels tensors.
batch_shape = (hparams["batch_size"], 1)
labels_tensor = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='labels')
labels_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='labels_sen')

# Groups tensors.
batch_shape = (hparams["batch_size"], num_groups)
groups_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='groups_sen')

Chúng tôi khởi tạo một mô hình mới và tính toán các dự đoán cho các minibatch từ hai luồng.

# Create model, and separate prediction functions for the two streams. 
# For the predictions, we use a nullary function returning a Tensor to support eager mode.
model_constrained = create_model()

def predictions():
  return model_constrained(features_tensor)

def predictions_sen():
  return model_constrained(features_tensor_sen)

Sau đó, chúng tôi thiết lập một vấn đề tối ưu hóa có ràng buộc với tỷ lệ lỗi là mục tiêu và với các ràng buộc về tỷ lệ dương tính giả trên mỗi nhóm.

epsilon = 0.02  # Desired false-positive rate threshold.

# Set up separate contexts for the two minibatch streams.
context = tfco.rate_context(predictions, lambda:labels_tensor)
context_sen = tfco.rate_context(predictions_sen, lambda:labels_tensor_sen)

# Compute the objective using the first stream.
objective = tfco.error_rate(context)

# Compute the constraint using the second stream.
# Subset the examples belonging to the "sexuality" group from the second stream 
# and add a constraint on the group's false positive rate.
context_sen_subset = context_sen.subset(lambda: groups_tensor_sen[:, 0] > 0)
constraint = [tfco.false_positive_rate(context_sen_subset) <= epsilon]

# Create a rate minimization problem.
problem = tfco.RateMinimizationProblem(objective, constraint)

# Set up a constrained optimizer.
optimizer = tfco.ProxyLagrangianOptimizerV2(

# List of variables to optimize include the model weights, 
# and the trainable variables from the rate minimization problem and 
# the constrained optimizer.
var_list = (model_constrained.trainable_weights + problem.trainable_variables +

Chúng tôi sẵn sàng đào tạo người mẫu. Chúng tôi duy trì một bộ đếm riêng cho hai luồng minibatch. Mỗi lần chúng tôi thực hiện một bản cập nhật gradient, chúng ta sẽ phải sao chép nội dung minibatch từ dòng đầu tiên đến tensors features_tensorlabels_tensor , và các nội dung minibatch từ dòng thứ hai để các tensors features_tensor_sen , labels_tensor_sengroups_tensor_sen .

# Indices of sensitive group members.
protected_group_indices = np.nonzero(groups_train.sum(axis=1))[0]

num_examples = text_train.shape[0]
num_examples_sen = protected_group_indices.shape[0]
batch_size = hparams["batch_size"]

# Number of steps needed for one epoch over the training sample.
num_steps = int(num_examples / batch_size)

start_time = time.time()

# Loop over minibatches.
for batch_index in range(num_steps):
    # Indices for current minibatch in the first stream.
    batch_indices = np.arange(
        batch_index * batch_size, (batch_index + 1) * batch_size)
    batch_indices = [ind % num_examples for ind in batch_indices]

    # Indices for current minibatch in the second stream.
    batch_indices_sen = np.arange(
        batch_index * batch_size, (batch_index + 1) * batch_size)
    batch_indices_sen = [protected_group_indices[ind % num_examples_sen]
                         for ind in batch_indices_sen]

    # Assign features, labels, groups from the minibatches to the respective tensors.
    features_tensor.assign(text_train[batch_indices, :])

    features_tensor_sen.assign(text_train[batch_indices_sen, :])
    groups_tensor_sen.assign(groups_train[batch_indices_sen, :])

    # Gradient update.
    optimizer.minimize(problem, var_list=var_list)

    # Record and print batch training stats every 10 steps.
    if (batch_index + 1) % 10 == 0 or batch_index in (0, num_steps - 1):
      hinge_loss = problem.objective()
      max_violation = max(problem.constraints())

      elapsed_time = time.time() - start_time
          "\rStep %d / %d: Elapsed time = %ds, Loss = %.3f, Violation = %.3f" % 
          (batch_index + 1, num_steps, elapsed_time, hinge_loss, max_violation))
Step 747 / 747: Elapsed time = 180s, Loss = 0.068, Violation = -0.020

Sau khi đào tạo mô hình bị ràng buộc, chúng tôi vẽ các số liệu đánh giá khác nhau cho mô hình trên tập thử nghiệm.

scores_constrained_test = model_constrained.predict(text_test)
eval_result_constrained = evaluate_results(
    labels_test, scores_constrained_test, groups_test, group_names)
Như lần trước, hãy nhớ chọn false_positive_rate.

plot_fairness_indicators(eval_result_constrained, "Constrained")
multi_results = {

Như chúng ta có thể thấy từ Các chỉ số công bằng, so với mô hình không bị ràng buộc, mô hình bị ràng buộc mang lại tỷ lệ dương tính giả thấp hơn đáng kể cho các nhận xét liên quan đến tình dục và làm như vậy chỉ giảm một chút về độ chính xác tổng thể.