En este ejemplo, consideramos la tarea de predecir si un comentario de discusión publicado en una página de discusión Wiki contiene contenido tóxico (es decir, contiene contenido que es "grosero, irrespetuoso o irrazonable"). Utilizamos un público conjunto de datos dado a conocer por la AI Conversación proyecto, que contiene más de 100 mil los comentarios de la Wikipedia en Inglés que están anotados por los trabajadores de la multitud (ver documento de metodología de etiquetado).

Uno de los desafíos con este conjunto de datos es que una proporción muy pequeña de los comentarios cubre temas delicados como la sexualidad o la religión. Como tal, entrenar un modelo de red neuronal en este conjunto de datos conduce a un rendimiento dispar en los temas sensibles más pequeños. Esto puede significar que las declaraciones inofensivas sobre esos temas pueden marcarse incorrectamente como "tóxicas" a tasas más altas, lo que hace que el discurso sea censurado injustamente.

Mediante la imposición de restricciones durante el entrenamiento, podemos entrenar un modelo más justo que realiza más equitativa entre los diferentes grupos de temas.

Usaremos la biblioteca TFCO para optimizar nuestro objetivo de equidad durante el entrenamiento.


Primero instalemos e importemos las bibliotecas relevantes. Tenga en cuenta que es posible que deba reiniciar su colab una vez después de ejecutar la primera celda debido a paquetes obsoletos en el tiempo de ejecución. Después de hacerlo, no debería haber más problemas con las importaciones.

Tenga en cuenta que, dependiendo de cuándo ejecute la siguiente celda, es posible que reciba una advertencia sobre la versión predeterminada de TensorFlow en Colab que cambiará pronto a TensorFlow 2.X. Puede ignorar esa advertencia con seguridad, ya que este portátil fue diseñado para ser compatible con TensorFlow 1.X y 2.X.

Importar módulos

Aunque TFCO es compatible con la ejecución ansiosa y gráfica, este portátil asume que la ejecución ansiosa está habilitada de forma predeterminada. Para asegurarse de que nada se rompa, la ejecución ansiosa se habilitará en la celda a continuación.

Habilitar la ejecución ansiosa y las versiones de impresión

Primero, establecemos algunos hiperparámetros necesarios para el preprocesamiento de datos y el entrenamiento del modelo.

hparams = {
    "batch_size": 128,
    "cnn_filter_sizes": [128, 128, 128],
    "cnn_kernel_sizes": [5, 5, 5],
    "cnn_pooling_sizes": [5, 5, 40],
    "constraint_learning_rate": 0.01,
    "embedding_dim": 100,
    "embedding_trainable": False,
    "learning_rate": 0.005,
    "max_num_words": 10000,
    "max_sequence_length": 250

Cargar y preprocesar conjuntos de datos

A continuación, descargamos el conjunto de datos y lo preprocesamos. Los conjuntos de entrenamiento, prueba y validación se proporcionan como archivos CSV separados.

toxicity_data_url = (""

data_train = pd.read_csv(toxicity_data_url + "wiki_train.csv")
data_test = pd.read_csv(toxicity_data_url + "wiki_test.csv")
data_vali = pd.read_csv(toxicity_data_url + "wiki_dev.csv")


El comment columna contiene los comentarios de discusión y is_toxic columna indica si un comentario es anotado como tóxicos.

En lo siguiente, nosotros:

  1. Separa las etiquetas
  2. Tokenizar los comentarios de texto
  3. Identificar comentarios que contienen términos de temas sensibles

Primero, separamos las etiquetas de los conjuntos de tren, prueba y validación. Las etiquetas son todas binarias (0 o 1).

labels_train = data_train["is_toxic"].values.reshape(-1, 1) * 1.0
labels_test = data_test["is_toxic"].values.reshape(-1, 1) * 1.0
labels_vali = data_vali["is_toxic"].values.reshape(-1, 1) * 1.0

A continuación, tokenize los comentarios de texto utilizando el Tokenizer proporcionada por Keras . Usamos los comentarios del conjunto de entrenamiento solo para construir un vocabulario de tokens y los usamos para convertir todos los comentarios en una secuencia (rellenada) de tokens de la misma longitud.

tokenizer = text.Tokenizer(num_words=hparams["max_num_words"])

def prep_text(texts, tokenizer, max_sequence_length):
    # Turns text into into padded sequences.
    text_sequences = tokenizer.texts_to_sequences(texts)
    return sequence.pad_sequences(text_sequences, maxlen=max_sequence_length)

text_train = prep_text(data_train["comment"], tokenizer, hparams["max_sequence_length"])
text_test = prep_text(data_test["comment"], tokenizer, hparams["max_sequence_length"])
text_vali = prep_text(data_vali["comment"], tokenizer, hparams["max_sequence_length"])

Finalmente, identificamos comentarios relacionados con ciertos grupos de temas sensibles. Consideramos un subconjunto de los términos de identidad proporcionados con el conjunto de datos y agruparlos en cuatro grupos de temas generales: la sexualidad, la identidad de género, religión y raza.

terms = {
    'sexuality': ['gay', 'lesbian', 'bisexual', 'homosexual', 'straight', 'heterosexual'], 
    'gender identity': ['trans', 'transgender', 'cis', 'nonbinary'],
    'religion': ['christian', 'muslim', 'jewish', 'buddhist', 'catholic', 'protestant', 'sikh', 'taoist'],
    'race': ['african', 'african american', 'black', 'white', 'european', 'hispanic', 'latino', 'latina', 
             'latinx', 'mexican', 'canadian', 'american', 'asian', 'indian', 'middle eastern', 'chinese', 

group_names = list(terms.keys())
num_groups = len(group_names)

Luego, creamos matrices de membresía de grupo separadas para los conjuntos de entrenamiento, prueba y validación, donde las filas corresponden a comentarios, las columnas corresponden a los cuatro grupos confidenciales y cada entrada es un valor booleano que indica si el comentario contiene un término del grupo de temas.

def get_groups(text):
    # Returns a boolean NumPy array of shape (n, k), where n is the number of comments, 
    # and k is the number of groups. Each entry (i, j) indicates if the i-th comment 
    # contains a term from the j-th group.
    groups = np.zeros((text.shape[0], num_groups))
    for ii in range(num_groups):
        groups[:, ii] = text.str.contains('|'.join(terms[group_names[ii]]), case=False)
    return groups

groups_train = get_groups(data_train["comment"])
groups_test = get_groups(data_test["comment"])
groups_vali = get_groups(data_vali["comment"])

Como se muestra a continuación, los cuatro grupos de temas constituyen solo una pequeña fracción del conjunto de datos general y tienen proporciones variables de comentarios tóxicos.

print("Overall label proportion = %.1f%%" % (labels_train.mean() * 100))

group_stats = []
for ii in range(num_groups):
    group_proportion = groups_train[:, ii].mean()
    group_pos_proportion = labels_train[groups_train[:, ii] == 1].mean()
                        "%.2f%%" % (group_proportion * 100), 
                        "%.1f%%" % (group_pos_proportion * 100)])
group_stats = pd.DataFrame(group_stats, 
                           columns=["Topic group", "Group proportion", "Label proportion"])
Overall label proportion = 9.7%

Vemos que solo el 1,3% del conjunto de datos contiene comentarios relacionados con la sexualidad. Entre ellos, el 37% de los comentarios han sido anotados como tóxicos. Tenga en cuenta que esto es significativamente mayor que la proporción general de comentarios anotados como tóxicos. Esto podría deberse a que los pocos comentarios que usaron esos términos de identidad lo hicieron en contextos peyorativos. Como se mencionó anteriormente, esto podría causar que nuestro modelo clasifique erróneamente de manera desproporcionada los comentarios como tóxicos cuando incluyen esos términos. Dado que esta es la preocupación, nos aseguraremos de que mirar el falso tasa positiva cuando evaluamos el rendimiento del modelo.

Cree un modelo de predicción de toxicidad de CNN

Después de haber preparado el conjunto de datos, que ahora construimos un Keras modelo para la predicción de la toxicidad. El modelo que utilizamos es una red neuronal convolucional (CNN) con la misma arquitectura utilizada por el proyecto Conversation AI para su análisis de eliminación de sesgo. Adaptamos código proporcionado por ellos para construir los modelos de capas.

El modelo utiliza una capa de incrustación para convertir los tokens de texto en vectores de longitud fija. Esta capa convierte la secuencia de texto de entrada en una secuencia de vectores y los pasa a través de varias capas de operaciones de convolución y agrupación, seguidas de una capa final totalmente conectada.

Hacemos uso de incrustaciones de vectores de palabras GloVe preentrenadas, que descargamos a continuación. Esto puede tardar unos minutos en completarse.

zip_file_url = ""
zip_file = urllib.request.urlopen(zip_file_url)
archive = zipfile.ZipFile(io.BytesIO(

Utilizamos las incrustaciones Guante descargados para crear una matriz de incrustación, donde las filas contienen la palabra incrustaciones para las fichas en el Tokenizer vocabulario 's.

embeddings_index = {}
glove_file = "glove.6B.100d.txt"

with as f:
    for line in f:
        values = line.split()
        word = values[0].decode("utf-8") 
        coefs = np.asarray(values[1:], dtype="float32")
        embeddings_index[word] = coefs

embedding_matrix = np.zeros((len(tokenizer.word_index) + 1, hparams["embedding_dim"]))
num_words_in_embedding = 0
for word, i in tokenizer.word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        num_words_in_embedding += 1
        embedding_matrix[i] = embedding_vector

Ahora estamos listos para especificar los Keras capas. Escribimos una función para crear un nuevo modelo, que invocaremos cada vez que deseemos entrenar un nuevo modelo.

def create_model():
    model = keras.Sequential()

    # Embedding layer.
    embedding_layer = layers.Embedding(

    # Convolution layers.
    for filter_size, kernel_size, pool_size in zip(
        hparams['cnn_filter_sizes'], hparams['cnn_kernel_sizes'],

        conv_layer = layers.Conv1D(
            filter_size, kernel_size, activation='relu', padding='same')

        pooled_layer = layers.MaxPooling1D(pool_size, padding='same')

    # Add a flatten layer, a fully-connected layer and an output layer.
    model.add(layers.Dense(128, activation='relu'))

    return model

También definimos un método para establecer semillas aleatorias. Esto se hace para asegurar resultados reproducibles.

def set_seeds():

Indicadores de equidad

También escribimos funciones para trazar indicadores de equidad.

def create_examples(labels, predictions, groups, group_names):
  # Returns tf.examples with given labels, predictions, and group information.  
  examples = []
  sigmoid = lambda x: 1/(1 + np.exp(-x)) 
  for ii in range(labels.shape[0]):
    example = tf.train.Example()
        sigmoid(predictions[ii]))  # predictions need to be in [0, 1].
    for jj in range(groups.shape[1]):
          b'Yes' if groups[ii, jj] else b'No')
  return examples
def evaluate_results(labels, predictions, groups, group_names):
  # Evaluates fairness indicators for given labels, predictions and group
  # membership info.
  examples = create_examples(labels, predictions, groups, group_names)

  # Create feature map for labels, predictions and each group.
  feature_map = {
      'prediction':[], tf.float32),
      'toxicity':[], tf.float32),
  for group in group_names:
    feature_map[group] =[], tf.string)

  # Serialize the examples.
  serialized_examples = [e.SerializeToString() for e in examples]

  BASE_DIR = tempfile.gettempdir()
  OUTPUT_DIR = os.path.join(BASE_DIR, 'output')

  with beam.Pipeline() as pipeline:
    model_agnostic_config = agnostic_predict.ModelAgnosticConfig(

    slices = [tfma.slicer.SingleSliceSpec()]
    for group in group_names:

    extractors = [

    metrics_callbacks = [

    # Create a model agnostic aggregator.
    eval_shared_model = tfma.types.EvalSharedModel(

    # Run Model Agnostic Eval.
    _ = (
        | beam.Create(serialized_examples)
        | 'ExtractEvaluateAndWriteResults' >>

  fairness_ind_result = tfma.load_eval_result(output_path=OUTPUT_DIR)

  # Also evaluate accuracy of the model.
  accuracy = np.mean(labels == (predictions > 0.0))

  return fairness_ind_result, accuracy
def plot_fairness_indicators(eval_result, title):
  fairness_ind_result, accuracy = eval_result
  display(HTML("<center><h2>" + title + 
               " (Accuracy = %.2f%%)" % (accuracy * 100) + "</h2></center>"))
def plot_multi_fairness_indicators(multi_eval_results):

  multi_results = {}
  multi_accuracy = {}
  for title, (fairness_ind_result, accuracy) in multi_eval_results.items():
    multi_results[title] = fairness_ind_result
    multi_accuracy[title] = accuracy

  title_str = "<center><h2>"
  for title in multi_eval_results.keys():
      title_str+=title + " (Accuracy = %.2f%%)" % (multi_accuracy[title] * 100) + "; "
  # fairness_ind_result, accuracy = eval_result

Entrenar modelo sin restricciones

Para el primer modelo de tren que, optimizamos una pérdida de entropía cruzada simple, sin ninguna restricción ..

# Set random seed for reproducible results.
# Optimizer and loss.
optimizer = tf.keras.optimizers.Adam(learning_rate=hparams["learning_rate"])
loss = lambda y_true, y_pred: tf.keras.losses.binary_crossentropy(
    y_true, y_pred, from_logits=True)

# Create, compile and fit model.
model_unconstrained = create_model()
model_unconstrained.compile(optimizer=optimizer, loss=loss)
    x=text_train, y=labels_train, batch_size=hparams["batch_size"], epochs=2)
Habiendo entrenado el modelo sin restricciones, trazamos varias métricas de evaluación para el modelo en el conjunto de prueba.

scores_unconstrained_test = model_unconstrained.predict(text_test)
eval_result_unconstrained = evaluate_results(
    labels_test, scores_unconstrained_test, groups_test, group_names)
Como se explicó anteriormente, nos estamos concentrando en la tasa de falsos positivos. En su versión actual (0.1.2), los indicadores de equidad seleccionan la tasa de falsos negativos de forma predeterminada. Después de ejecutar la línea a continuación, anule la selección de false_negative_rate y seleccione false_positive_rate para ver la métrica que nos interesa.

plot_fairness_indicators(eval_result_unconstrained, "Unconstrained")

Si bien la tasa general de falsos positivos es inferior al 2%, la tasa de falsos positivos en los comentarios relacionados con la sexualidad es significativamente mayor. Esto se debe a que el grupo de sexualidad es muy pequeño y tiene una fracción desproporcionadamente mayor de comentarios anotados como tóxicos. Por lo tanto, entrenar un modelo sin restricciones da como resultado que el modelo crea que los términos relacionados con la sexualidad son un fuerte indicador de toxicidad.

Entrene con restricciones en las tasas de falsos positivos

Para evitar grandes diferencias en las tasas de falsos positivos entre diferentes grupos, luego entrenamos un modelo restringiendo las tasas de falsos positivos para que cada grupo esté dentro de un límite deseado. En este caso, vamos a optimizar la tasa de error del modelo sujeto a la por grupo tasas de falsos positivos de ser menor o igual a 2%.

Sin embargo, el entrenamiento en minilotes con restricciones por grupo puede ser un desafío para este conjunto de datos, ya que los grupos que deseamos restringir son pequeños y es probable que los minilotes individuales contengan muy pocos ejemplos de cada grupo. Por lo tanto, los gradientes que calculamos durante el entrenamiento serán ruidosos y darán como resultado que el modelo converja muy lentamente.

Para mitigar este problema, recomendamos usar dos flujos de minilotes, con el primer flujo formado como antes a partir de todo el conjunto de entrenamiento y el segundo flujo formado únicamente a partir de los ejemplos de grupos sensibles. Calcularemos el objetivo utilizando minilotes de la primera secuencia y las restricciones por grupo utilizando minilotes de la segunda secuencia. Debido a que es probable que los lotes de la segunda transmisión contengan una mayor cantidad de ejemplos de cada grupo, esperamos que nuestras actualizaciones sean menos ruidosas.

Creamos características separadas, etiquetas y tensores de grupos para contener los minilotes de los dos flujos.

# Set random seed.

# Features tensors.
batch_shape = (hparams["batch_size"], hparams['max_sequence_length'])
features_tensor = tf.Variable(np.zeros(batch_shape, dtype='int32'), name='x')
features_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='int32'), name='x_sen')

# Labels tensors.
batch_shape = (hparams["batch_size"], 1)
labels_tensor = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='labels')
labels_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='labels_sen')

# Groups tensors.
batch_shape = (hparams["batch_size"], num_groups)
groups_tensor_sen = tf.Variable(np.zeros(batch_shape, dtype='float32'), name='groups_sen')

Instanciamos un nuevo modelo y calculamos predicciones para minilotes de las dos corrientes.

# Create model, and separate prediction functions for the two streams. 
# For the predictions, we use a nullary function returning a Tensor to support eager mode.
model_constrained = create_model()

def predictions():
  return model_constrained(features_tensor)

def predictions_sen():
  return model_constrained(features_tensor_sen)

Luego configuramos un problema de optimización con restricciones con la tasa de error como objetivo y con restricciones en la tasa de falsos positivos por grupo.

epsilon = 0.02  # Desired false-positive rate threshold.

# Set up separate contexts for the two minibatch streams.
context = tfco.rate_context(predictions, lambda:labels_tensor)
context_sen = tfco.rate_context(predictions_sen, lambda:labels_tensor_sen)

# Compute the objective using the first stream.
objective = tfco.error_rate(context)

# Compute the constraint using the second stream.
# Subset the examples belonging to the "sexuality" group from the second stream 
# and add a constraint on the group's false positive rate.
context_sen_subset = context_sen.subset(lambda: groups_tensor_sen[:, 0] > 0)
constraint = [tfco.false_positive_rate(context_sen_subset) <= epsilon]

# Create a rate minimization problem.
problem = tfco.RateMinimizationProblem(objective, constraint)

# Set up a constrained optimizer.
optimizer = tfco.ProxyLagrangianOptimizerV2(

# List of variables to optimize include the model weights, 
# and the trainable variables from the rate minimization problem and 
# the constrained optimizer.
var_list = (model_constrained.trainable_weights + problem.trainable_variables +

Estamos listos para entrenar al modelo. Mantenemos un contador separado para los dos flujos de minilotes. Cada vez que realice una actualización de gradiente, que tendrá que copiar el contenido minibatch de la primera corriente de los tensores features_tensor y labels_tensor , y el contenido minibatch de la segunda corriente a los tensores features_tensor_sen , labels_tensor_sen y groups_tensor_sen .

# Indices of sensitive group members.
protected_group_indices = np.nonzero(groups_train.sum(axis=1))[0]

num_examples = text_train.shape[0]
num_examples_sen = protected_group_indices.shape[0]
batch_size = hparams["batch_size"]

# Number of steps needed for one epoch over the training sample.
num_steps = int(num_examples / batch_size)

start_time = time.time()

# Loop over minibatches.
for batch_index in range(num_steps):
    # Indices for current minibatch in the first stream.
    batch_indices = np.arange(
        batch_index * batch_size, (batch_index + 1) * batch_size)
    batch_indices = [ind % num_examples for ind in batch_indices]

    # Indices for current minibatch in the second stream.
    batch_indices_sen = np.arange(
        batch_index * batch_size, (batch_index + 1) * batch_size)
    batch_indices_sen = [protected_group_indices[ind % num_examples_sen]
                         for ind in batch_indices_sen]

    # Assign features, labels, groups from the minibatches to the respective tensors.
    features_tensor.assign(text_train[batch_indices, :])

    features_tensor_sen.assign(text_train[batch_indices_sen, :])
    groups_tensor_sen.assign(groups_train[batch_indices_sen, :])

    # Gradient update.
    optimizer.minimize(problem, var_list=var_list)

    # Record and print batch training stats every 10 steps.
    if (batch_index + 1) % 10 == 0 or batch_index in (0, num_steps - 1):
      hinge_loss = problem.objective()
      max_violation = max(problem.constraints())

      elapsed_time = time.time() - start_time
          "\rStep %d / %d: Elapsed time = %ds, Loss = %.3f, Violation = %.3f" % 
          (batch_index + 1, num_steps, elapsed_time, hinge_loss, max_violation))
Step 747 / 747: Elapsed time = 180s, Loss = 0.068, Violation = -0.020

Habiendo entrenado el modelo restringido, trazamos varias métricas de evaluación para el modelo en el conjunto de prueba.

scores_constrained_test = model_constrained.predict(text_test)
eval_result_constrained = evaluate_results(
    labels_test, scores_constrained_test, groups_test, group_names)
Al igual que la última vez, recuerde seleccionar tasa_falsa_positiva.

plot_fairness_indicators(eval_result_constrained, "Constrained")
multi_results = {

Como podemos ver en los Indicadores de imparcialidad, en comparación con el modelo sin restricciones, el modelo con restricciones produce tasas de falsos positivos significativamente más bajas para los comentarios relacionados con la sexualidad, y lo hace con solo una ligera disminución en la precisión general.