Индикаторы честности при встраивании текста в TF-Hub

В этом уроке вы узнаете , как использовать СПРАВЕДЛИВОСТИ индикаторов для оценки вложений с TF Hub . Этот ноутбук использует Гражданско Комментарии набора данных .


Установите необходимые библиотеки.

!pip install -q -U pip==20.2

!pip install fairness-indicators \
  "absl-py==0.12.0" \
  "pyarrow==2.0.0" \
  "apache-beam==2.34.0" \

Импортируйте другие необходимые библиотеки.

import os
import tempfile
import apache_beam as beam
from datetime import datetime
import tensorflow as tf
import tensorflow_hub as hub
import tensorflow_model_analysis as tfma
from tensorflow_model_analysis.addons.fairness.view import widget_view
from tensorflow_model_analysis.addons.fairness.post_export_metrics import fairness_indicators
from fairness_indicators import example_model
from fairness_indicators.tutorial_utils import util
Набор данных

В этом ноутбуке, вы работаете с Гражданско Комментариями набора данных , который содержит около 2000000 комментариев общественности общественности по гражданским Комментариям платформы в 2017 году для текущих исследований. Это усилие спонсировалось Jigsaw, который организовал соревнования на Kaggle, чтобы помочь классифицировать токсичные комментарии, а также минимизировать непреднамеренное смещение модели.

Каждый отдельный текстовый комментарий в наборе данных имеет метку токсичности, причем метка равна 1, если комментарий токсичен, и 0, если комментарий нетоксичен. Внутри данных подмножество комментариев помечено различными атрибутами идентичности, включая категории по полу, сексуальной ориентации, религии, расе или этнической принадлежности.

Подготовьте данные

TensorFlow разбирает особенности из данных с использованием tf.io.FixedLenFeature и tf.io.VarLenFeature . Нанесите на карту входной элемент, выходной элемент и все другие интересующие элементы нарезки.

BASE_DIR = tempfile.gettempdir()

# The input and output features of the classifier
TEXT_FEATURE = 'comment_text'
LABEL = 'toxicity'

    # input and output features
    LABEL: tf.io.FixedLenFeature([], tf.float32),
    TEXT_FEATURE: tf.io.FixedLenFeature([], tf.string),

    # slicing features
    'sexual_orientation': tf.io.VarLenFeature(tf.string),
    'gender': tf.io.VarLenFeature(tf.string),
    'religion': tf.io.VarLenFeature(tf.string),
    'race': tf.io.VarLenFeature(tf.string),
    'disability': tf.io.VarLenFeature(tf.string)

IDENTITY_TERMS = ['gender', 'sexual_orientation', 'race', 'religion', 'disability']

По умолчанию записная книжка загружает предварительно обработанную версию этого набора данных, но вы можете использовать исходный набор данных и при желании повторно запустить шаги обработки.

В исходном наборе данных каждый комментарий помечен процентом оценщиков, которые считали, что комментарий соответствует определенной идентичности. Например, комментарий может быть помечен со следующим: { male: 0.3, female: 1.0, transgender: 0.0, heterosexual: 0.8, homosexual_gay_or_lesbian: 1.0 } .

На этапе обработки личности группируются по категориям (пол, сексуальная_ориентация и т. Д.) И удаляются личности с оценкой менее 0,5. Таким образом, приведенный выше пример будет преобразован в следующий: об оценках, считающих, что комментарий соответствует определенной личности. Например, комментарий выше будет помечен следующим: { gender: [female], sexual_orientation: [heterosexual, homosexual_gay_or_lesbian] }

Загрузите набор данных.

download_original_data = False

if download_original_data:
  train_tf_file = tf.keras.utils.get_file('train_tf.tfrecord',
  validate_tf_file = tf.keras.utils.get_file('validate_tf.tfrecord',

  # The identity terms list will be grouped together by their categories
  # (see 'IDENTITY_COLUMNS') on threshold 0.5. Only the identity term column,
  # text column and label column will be kept after processing.
  train_tf_file = util.convert_comments_data(train_tf_file)
  validate_tf_file = util.convert_comments_data(validate_tf_file)

  train_tf_file = tf.keras.utils.get_file('train_tf_processed.tfrecord',
  validate_tf_file = tf.keras.utils.get_file('validate_tf_processed.tfrecord',
Downloading data from https://storage.googleapis.com/civil_comments_dataset/train_tf_processed.tfrecord
488161280/488153424 [==============================] - 2s 0us/step
488169472/488153424 [==============================] - 2s 0us/step
Downloading data from https://storage.googleapis.com/civil_comments_dataset/validate_tf_processed.tfrecord
324943872/324941336 [==============================] - 9s 0us/step
324952064/324941336 [==============================] - 9s 0us/step

Создание конвейера анализа модели TensorFlow

Библиотека Справедливость Индикаторы работает на TensorFlow модели анализа (TFMA) моделей . Модели TFMA объединяют модели TensorFlow с дополнительными функциями для оценки и визуализации их результатов. Фактическая оценка происходит внутри из трубопровода Апач луча .

Для создания конвейера TFMA необходимо выполнить следующие шаги:

  1. Построить модель TensorFlow
  2. Создайте модель TFMA поверх модели TensorFlow.
  3. Запустите анализ модели в оркестраторе. В примере модели в этой записной книжке в качестве оркестратора используется Apache Beam.
def embedding_fairness_result(embedding, identity_term='gender'):

  model_dir = os.path.join(BASE_DIR, 'train',

  print("Training classifier for " + embedding)
  classifier = example_model.train_model(model_dir,

  # Create a unique path to store the results for this embedding.
  embedding_name = embedding.split('/')[-2]
  eval_result_path = os.path.join(BASE_DIR, 'eval_result', embedding_name)

  return tfma.load_eval_result(output_path=eval_result_path)

Запустите TFMA и индикаторы справедливости

Показатели справедливости

Некоторые из показателей, доступных с индикаторами справедливости:

Вложения текста

TF-концентратор обеспечивает несколько текстовых вложений. Эти вложения будут служить столбцом характеристик для различных моделей. В этом руководстве используются следующие вложения:

Результаты индикатора справедливости

Вычислить показатели равнодоступности с embedding_fairness_result трубопроводом, а затем вынести результаты в справедливости индикатор UI виджет с widget_view.render_fairness_indicator для всех указанных выше вложений.

Случайный NNLM

FairnessIndicatorViewer(slicingMetrics=[{'sliceValue': 'Overall', 'slice': 'Overall', 'metrics': {'post_export…


FairnessIndicatorViewer(slicingMetrics=[{'sliceValue': 'Overall', 'slice': 'Overall', 'metrics': {'label/mean'…

Универсальный кодировщик предложений

Сравнение вложений

Вы также можете использовать индикаторы справедливости для прямого сравнения вложений. Например, сравните модели, сгенерированные из вложений NNLM и USE.

widget_view.render_fairness_indicator(multi_eval_results={'nnlm': eval_result_nnlm, 'use': eval_result_use})
FairnessIndicatorViewer(evalName='nnlm', evalNameCompare='use', slicingMetrics=[{'sliceValue': 'Overall', 'sli…