Ajuste de un modelo BERT

Ver en TensorFlow.org Ejecutar en Google Colab Ver fuente en GitHub Descargar cuaderno Ver modelo TF Hub

En este ejemplo, trabajaremos mediante el ajuste fino de un modelo BERT utilizando el paquete PIP de tensorflow-models.

El modelo BERT previamente entrenado en el que se basa este tutorial también está disponible en TensorFlow Hub . Para ver cómo usarlo, consulte el Apéndice de Hub.

Configuración

Instale el paquete de pip de TensorFlow Model Garden

  • tf-models-official es el paquete estable de Model Garden. Tenga en cuenta que es posible que no incluya los últimos cambios en el repositorio de tensorflow_models tensorflow_models. Para incluir los últimos cambios, puede instalar tf-models-nightly , que es el paquete nocturno Model Garden que se crea automáticamente a diario.
  • pip instalará todos los modelos y dependencias automáticamente.
pip install -q tf-models-official==2.4.0

Importaciones

import os

import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf

import tensorflow_hub as hub
import tensorflow_datasets as tfds
tfds.disable_progress_bar()

from official.modeling import tf_utils
from official import nlp
from official.nlp import bert

# Load the required submodules
import official.nlp.optimization
import official.nlp.bert.bert_models
import official.nlp.bert.configs
import official.nlp.bert.run_classifier
import official.nlp.bert.tokenization
import official.nlp.data.classifier_data_lib
import official.nlp.modeling.losses
import official.nlp.modeling.models
import official.nlp.modeling.networks

Recursos

Este directorio contiene la configuración, el vocabulario y un punto de control previamente entrenado que se usa en este tutorial:

gs_folder_bert = "gs://cloud-tpu-checkpoints/bert/v3/uncased_L-12_H-768_A-12"
tf.io.gfile.listdir(gs_folder_bert)
['bert_config.json',
 'bert_model.ckpt.data-00000-of-00001',
 'bert_model.ckpt.index',
 'vocab.txt']

Puede obtener un codificador BERT previamente entrenado de TensorFlow Hub :

hub_url_bert = "https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/3"

Los datos

Para este ejemplo utilizamos el conjunto de datos GLUE MRPC de TFDS .

Este conjunto de datos no está configurado para que se pueda introducir directamente en el modelo BERT, por lo que esta sección también se ocupa del preprocesamiento necesario.

Obtén el conjunto de datos de TensorFlow Datasets

El Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) es un corpus de pares de oraciones extraídas automáticamente de fuentes de noticias en línea, con anotaciones humanas para determinar si las oraciones del par son semánticamente equivalentes.

  • Número de etiquetas: 2.
  • Tamaño del conjunto de datos de entrenamiento: 3668.
  • Tamaño del conjunto de datos de evaluación: 408.
  • Longitud máxima de secuencia del conjunto de datos de entrenamiento y evaluación: 128.
glue, info = tfds.load('glue/mrpc', with_info=True,
                       # It's small, load the whole dataset
                       batch_size=-1)
list(glue.keys())
['test', 'train', 'validation']

El objeto de info describe el conjunto de datos y sus características:

info.features
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})

Las dos clases son:

info.features['label'].names
['not_equivalent', 'equivalent']

Aquí hay un ejemplo del conjunto de entrenamiento:

glue_train = glue['train']

for key, value in glue_train.items():
  print(f"{key:9s}: {value[0].numpy()}")
idx      : 1680
label    : 0
sentence1: b'The identical rovers will act as robotic geologists , searching for evidence of past water .'
sentence2: b'The rovers act as robotic geologists , moving on six wheels .'

El tokenizador BERT

Para ajustar un modelo previamente entrenado, debe asegurarse de que está utilizando exactamente la misma tokenización, vocabulario y mapeo de índices que utilizó durante el entrenamiento.

El tokenizador BERT que se usa en este tutorial está escrito en Python puro (no está construido a partir de operaciones de TensorFlow). Por lo tanto, no puede simplemente conectarlo a su modelo como keras.layer como puede keras.layer con preprocessing.TextVectorization .

El siguiente código reconstruye el tokenizador que utilizó el modelo base:

# Set up tokenizer to generate Tensorflow dataset
tokenizer = bert.tokenization.FullTokenizer(
    vocab_file=os.path.join(gs_folder_bert, "vocab.txt"),
     do_lower_case=True)

print("Vocab size:", len(tokenizer.vocab))
Vocab size: 30522

Tokeniza una oración:

tokens = tokenizer.tokenize("Hello TensorFlow!")
print(tokens)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)
['hello', 'tensor', '##flow', '!']
[7592, 23435, 12314, 999]

Preprocesar los datos

La sección preprocesó manualmente el conjunto de datos en el formato esperado por el modelo.

Este conjunto de datos es pequeño, por lo que el preprocesamiento se puede realizar rápida y fácilmente en la memoria. Para conjuntos de datos más grandes, la biblioteca tf_models incluye algunas herramientas para preprocesar y volver a serializar un conjunto de datos. Consulte el Apéndice: Recodificación de un conjunto de datos grande para obtener más detalles.

Codificar las oraciones

El modelo espera que sus dos oraciones de entrada se concatenen juntas. Se espera que esta entrada comience con un símbolo [CLS] "Este es un problema de clasificación", y cada oración debe terminar con un símbolo [SEP] "Separador":

tokenizer.convert_tokens_to_ids(['[CLS]', '[SEP]'])
[101, 102]

Comience codificando todas las oraciones mientras agrega un token [SEP] y empaquételas en tensores irregulares:

def encode_sentence(s):
   tokens = list(tokenizer.tokenize(s.numpy()))
   tokens.append('[SEP]')
   return tokenizer.convert_tokens_to_ids(tokens)

sentence1 = tf.ragged.constant([
    encode_sentence(s) for s in glue_train["sentence1"]])
sentence2 = tf.ragged.constant([
    encode_sentence(s) for s in glue_train["sentence2"]])
print("Sentence1 shape:", sentence1.shape.as_list())
print("Sentence2 shape:", sentence2.shape.as_list())
Sentence1 shape: [3668, None]
Sentence2 shape: [3668, None]

Ahora anteponga un token [CLS] y concatene los tensores irregulares para formar un solo tensor input_word_ids para cada ejemplo. RaggedTensor.to_tensor() cero a la secuencia más larga.

cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)
_ = plt.pcolormesh(input_word_ids.to_tensor())

png

Máscara y tipo de entrada

El modelo espera dos entradas adicionales:

  • La máscara de entrada
  • El tipo de entrada

La máscara permite al modelo diferenciar limpiamente entre el contenido y el acolchado. La máscara tiene la misma forma que input_word_ids y contiene un 1 cualquier lugar en el que input_word_ids no esté relleno.

input_mask = tf.ones_like(input_word_ids).to_tensor()

plt.pcolormesh(input_mask)
<matplotlib.collections.QuadMesh at 0x7fe3401a68d0>

png

El "tipo de entrada" también tiene la misma forma, pero dentro de la región sin relleno, contiene un 0 o un 1 que indica de qué oración forma parte el token.

type_cls = tf.zeros_like(cls)
type_s1 = tf.zeros_like(sentence1)
type_s2 = tf.ones_like(sentence2)
input_type_ids = tf.concat([type_cls, type_s1, type_s2], axis=-1).to_tensor()

plt.pcolormesh(input_type_ids)
<matplotlib.collections.QuadMesh at 0x7fe3400d82b0>

png

Ponlo todo junto

Recopile el código de análisis de texto anterior en una sola función y aplíquelo a cada división del conjunto de datos de glue/mrpc .

def encode_sentence(s, tokenizer):
   tokens = list(tokenizer.tokenize(s))
   tokens.append('[SEP]')
   return tokenizer.convert_tokens_to_ids(tokens)

def bert_encode(glue_dict, tokenizer):
  num_examples = len(glue_dict["sentence1"])

  sentence1 = tf.ragged.constant([
      encode_sentence(s, tokenizer)
      for s in np.array(glue_dict["sentence1"])])
  sentence2 = tf.ragged.constant([
      encode_sentence(s, tokenizer)
       for s in np.array(glue_dict["sentence2"])])

  cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
  input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)

  input_mask = tf.ones_like(input_word_ids).to_tensor()

  type_cls = tf.zeros_like(cls)
  type_s1 = tf.zeros_like(sentence1)
  type_s2 = tf.ones_like(sentence2)
  input_type_ids = tf.concat(
      [type_cls, type_s1, type_s2], axis=-1).to_tensor()

  inputs = {
      'input_word_ids': input_word_ids.to_tensor(),
      'input_mask': input_mask,
      'input_type_ids': input_type_ids}

  return inputs
glue_train = bert_encode(glue['train'], tokenizer)
glue_train_labels = glue['train']['label']

glue_validation = bert_encode(glue['validation'], tokenizer)
glue_validation_labels = glue['validation']['label']

glue_test = bert_encode(glue['test'], tokenizer)
glue_test_labels  = glue['test']['label']

Cada subconjunto de datos se ha convertido en un diccionario de características y un conjunto de etiquetas. Cada función del diccionario de entrada tiene la misma forma y el número de etiquetas debe coincidir:

for key, value in glue_train.items():
  print(f'{key:15s} shape: {value.shape}')

print(f'glue_train_labels shape: {glue_train_labels.shape}')
input_word_ids  shape: (3668, 103)
input_mask      shape: (3668, 103)
input_type_ids  shape: (3668, 103)
glue_train_labels shape: (3668,)

El modelo

Construye el modelo

El primer paso es descargar la configuración del modelo previamente entrenado.

import json

bert_config_file = os.path.join(gs_folder_bert, "bert_config.json")
config_dict = json.loads(tf.io.gfile.GFile(bert_config_file).read())

bert_config = bert.configs.BertConfig.from_dict(config_dict)

config_dict
{'attention_probs_dropout_prob': 0.1,
 'hidden_act': 'gelu',
 'hidden_dropout_prob': 0.1,
 'hidden_size': 768,
 'initializer_range': 0.02,
 'intermediate_size': 3072,
 'max_position_embeddings': 512,
 'num_attention_heads': 12,
 'num_hidden_layers': 12,
 'type_vocab_size': 2,
 'vocab_size': 30522}

La config define el modelo BERT central, que es un modelo de Keras para predecir las salidas de num_classes de las entradas con la longitud de secuencia máxima max_seq_length .

Esta función devuelve tanto el codificador como el clasificador.

bert_classifier, bert_encoder = bert.bert_models.classifier_model(
    bert_config, num_labels=2)

El clasificador tiene tres entradas y una salida:

tf.keras.utils.plot_model(bert_classifier, show_shapes=True, dpi=48)

png

Ejecútelo en un lote de prueba de datos 10 ejemplos del conjunto de entrenamiento. La salida son los logits para las dos clases:

glue_batch = {key: val[:10] for key, val in glue_train.items()}

bert_classifier(
    glue_batch, training=True
).numpy()
array([[-0.3999117 ,  0.19228943],
       [-0.48039404,  0.49550664],
       [-0.4205317 ,  0.4514861 ],
       [-0.46268317,  0.24971014],
       [-0.24856849,  0.29781285],
       [-0.20492092,  0.33435237],
       [-0.16171221,  0.12575442],
       [-0.17115599,  0.40965632],
       [-0.23386969,  0.41947454],
       [-0.5728958 ,  0.40995434]], dtype=float32)

El TransformerEncoder en el centro del clasificador de arriba es el bert_encoder .

Al inspeccionar el codificador, vemos su pila de capas de Transformer conectadas a esas mismas tres entradas:

tf.keras.utils.plot_model(bert_encoder, show_shapes=True, dpi=48)

png

Restaurar los pesos del codificador

Cuando se construye, el codificador se inicializa aleatoriamente. Restaure los pesos del codificador desde el punto de control:

checkpoint = tf.train.Checkpoint(encoder=bert_encoder)
checkpoint.read(
    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7fe2e00765f8>

Configurar el optimizador

BERT adopta el optimizador de Adam con reducción de peso (también conocido como " AdamW "). También emplea un programa de velocidad de aprendizaje que primero se calienta desde 0 y luego decae a 0.

# Set up epochs and steps
epochs = 3
batch_size = 32
eval_batch_size = 32

train_data_size = len(glue_train_labels)
steps_per_epoch = int(train_data_size / batch_size)
num_train_steps = steps_per_epoch * epochs
warmup_steps = int(epochs * train_data_size * 0.1 / batch_size)

# creates an optimizer with learning rate schedule
optimizer = nlp.optimization.create_optimizer(
    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps)

Esto devuelve un optimizador AdamWeightDecay con el programa de velocidad de aprendizaje establecido:

type(optimizer)
official.nlp.optimization.AdamWeightDecay

Para ver un ejemplo de cómo personalizar el optimizador y su programación, consulte el apéndice de programación del Optimizador .

Entrena el modelo

La métrica es la precisión y usamos la entropía cruzada categórica dispersa como pérdida.

metrics = [tf.keras.metrics.SparseCategoricalAccuracy('accuracy', dtype=tf.float32)]
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

bert_classifier.compile(
    optimizer=optimizer,
    loss=loss,
    metrics=metrics)

bert_classifier.fit(
      glue_train, glue_train_labels,
      validation_data=(glue_validation, glue_validation_labels),
      batch_size=32,
      epochs=epochs)
Epoch 1/3
115/115 [==============================] - 38s 229ms/step - loss: 0.6175 - accuracy: 0.6844 - val_loss: 0.4610 - val_accuracy: 0.7892
Epoch 2/3
115/115 [==============================] - 25s 215ms/step - loss: 0.4207 - accuracy: 0.8125 - val_loss: 0.3859 - val_accuracy: 0.8211
Epoch 3/3
115/115 [==============================] - 25s 215ms/step - loss: 0.2990 - accuracy: 0.8867 - val_loss: 0.3759 - val_accuracy: 0.8407

<tensorflow.python.keras.callbacks.History at 0x7fe2e03ba0f0>

Ahora ejecute el modelo ajustado en un ejemplo personalizado para ver que funciona.

Comience codificando algunos pares de oraciones:

my_examples = bert_encode(
    glue_dict = {
        'sentence1':[
            'The rain in Spain falls mainly on the plain.',
            'Look I fine tuned BERT.'],
        'sentence2':[
            'It mostly rains on the flat lands of Spain.',
            'Is it working? This does not match.']
    },
    tokenizer=tokenizer)

El modelo debe informar la clase 1 "coincidencia" para el primer ejemplo y la clase 0 "no coincidente" para el segundo:

result = bert_classifier(my_examples, training=False)

result = tf.argmax(result).numpy()
result
array([1, 0])
np.array(info.features['label'].names)[result]
array(['equivalent', 'not_equivalent'], dtype='<U14')

Guardar el modelo

A menudo, el objetivo de entrenar un modelo es usarlo para algo, así que exporta el modelo y luego restaurálo para asegurarte de que funciona.

export_dir='./saved_model'
tf.saved_model.save(bert_classifier, export_dir=export_dir)
WARNING:absl:Found untraced functions such as self_attention_layer_call_fn, self_attention_layer_call_and_return_conditional_losses, dropout_layer_call_fn, dropout_layer_call_and_return_conditional_losses, self_attention_layer_norm_layer_call_fn while saving (showing 5 of 900). These functions will not be directly callable after loading.
WARNING:absl:Found untraced functions such as self_attention_layer_call_fn, self_attention_layer_call_and_return_conditional_losses, dropout_layer_call_fn, dropout_layer_call_and_return_conditional_losses, self_attention_layer_norm_layer_call_fn while saving (showing 5 of 900). These functions will not be directly callable after loading.

INFO:tensorflow:Assets written to: ./saved_model/assets

INFO:tensorflow:Assets written to: ./saved_model/assets

reloaded = tf.saved_model.load(export_dir)
reloaded_result = reloaded([my_examples['input_word_ids'],
                            my_examples['input_mask'],
                            my_examples['input_type_ids']], training=False)

original_result = bert_classifier(my_examples, training=False)

# The results are (nearly) identical:
print(original_result.numpy())
print()
print(reloaded_result.numpy())
[[-1.5500499   1.4857253 ]
 [ 0.72138155 -0.6029598 ]]

[[-1.5500501   1.4857253 ]
 [ 0.72138053 -0.6029588 ]]

Apéndice

Recodificar un gran conjunto de datos

Este tutorial recodificó el conjunto de datos en la memoria, para mayor claridad.

Esto solo fue posible porque glue/mrpc es un conjunto de datos muy pequeño. Para tratar con conjuntos de datos más tf_models biblioteca tf_models incluye algunas herramientas para procesar y recodificar un conjunto de datos para un entrenamiento eficiente.

El primer paso es describir qué características del conjunto de datos deben transformarse:

processor = nlp.data.classifier_data_lib.TfdsProcessor(
    tfds_params="dataset=glue/mrpc,text_key=sentence1,text_b_key=sentence2",
    process_text_fn=bert.tokenization.convert_to_unicode)

Luego aplique la transformación para generar nuevos archivos TFRecord.

# Set up output of training and evaluation Tensorflow dataset
train_data_output_path="./mrpc_train.tf_record"
eval_data_output_path="./mrpc_eval.tf_record"

max_seq_length = 128
batch_size = 32
eval_batch_size = 32

# Generate and save training data into a tf record file
input_meta_data = (
    nlp.data.classifier_data_lib.generate_tf_record_from_data_file(
      processor=processor,
      data_dir=None,  # It is `None` because data is from tfds, not local dir.
      tokenizer=tokenizer,
      train_data_output_path=train_data_output_path,
      eval_data_output_path=eval_data_output_path,
      max_seq_length=max_seq_length))

Finalmente, cree tf.data entrada tf.data partir de esos archivos TFRecord:

training_dataset = bert.run_classifier.get_dataset_fn(
    train_data_output_path,
    max_seq_length,
    batch_size,
    is_training=True)()

evaluation_dataset = bert.run_classifier.get_dataset_fn(
    eval_data_output_path,
    max_seq_length,
    eval_batch_size,
    is_training=False)()

Los tf.data.Datasets resultantes devuelven tf.data.Datasets (features, labels) , como esperaba keras.Model.fit :

training_dataset.element_spec
({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None)},
 TensorSpec(shape=(32,), dtype=tf.int32, name=None))

Cree tf.data.Dataset para capacitación y evaluación

Si necesita modificar la carga de datos, aquí hay un código para comenzar:

def create_classifier_dataset(file_path, seq_length, batch_size, is_training):
  """Creates input dataset from (tf)records files for train/eval."""
  dataset = tf.data.TFRecordDataset(file_path)
  if is_training:
    dataset = dataset.shuffle(100)
    dataset = dataset.repeat()

  def decode_record(record):
    name_to_features = {
      'input_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
      'input_mask': tf.io.FixedLenFeature([seq_length], tf.int64),
      'segment_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
      'label_ids': tf.io.FixedLenFeature([], tf.int64),
    }
    return tf.io.parse_single_example(record, name_to_features)

  def _select_data_from_record(record):
    x = {
        'input_word_ids': record['input_ids'],
        'input_mask': record['input_mask'],
        'input_type_ids': record['segment_ids']
    }
    y = record['label_ids']
    return (x, y)

  dataset = dataset.map(decode_record,
                        num_parallel_calls=tf.data.experimental.AUTOTUNE)
  dataset = dataset.map(
      _select_data_from_record,
      num_parallel_calls=tf.data.experimental.AUTOTUNE)
  dataset = dataset.batch(batch_size, drop_remainder=is_training)
  dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
  return dataset
# Set up batch sizes
batch_size = 32
eval_batch_size = 32

# Return Tensorflow dataset
training_dataset = create_classifier_dataset(
    train_data_output_path,
    input_meta_data['max_seq_length'],
    batch_size,
    is_training=True)

evaluation_dataset = create_classifier_dataset(
    eval_data_output_path,
    input_meta_data['max_seq_length'],
    eval_batch_size,
    is_training=False)
training_dataset.element_spec
({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None)},
 TensorSpec(shape=(32,), dtype=tf.int64, name=None))

TFModels BERT en TFHub

Puede obtener el modelo BERT del estante de TFHub . No sería difícil agregar un encabezado de clasificación en la parte superior de este hub.KerasLayer

# Note: 350MB download.
import tensorflow_hub as hub

hub_encoder = hub.KerasLayer(f"https://tfhub.dev/tensorflow/{hub_model_name}/3",
                             trainable=True)

print(f"The Hub encoder has {len(hub_encoder.trainable_variables)} trainable variables")
The Hub encoder has 199 trainable variables

Pruébelo en un lote de datos:

result = hub_encoder(
    inputs=dict(
        input_word_ids=glue_train['input_word_ids'][:10],
        input_mask=glue_train['input_mask'][:10],
        input_type_ids=glue_train['input_type_ids'][:10],),
    training=False,
)

print("Pooled output shape:", result['pooled_output'].shape)
print("Sequence output shape:", result['sequence_output'].shape)
Pooled output shape: (10, 768)
Sequence output shape: (10, 103, 768)

En este punto, sería sencillo agregar usted mismo un encabezado de clasificación.

La función bert_models.classifier_model también puede compilar un clasificador en el codificador de TensorFlow Hub:

hub_classifier = nlp.modeling.models.BertClassifier(
    bert_encoder,
    num_classes=2,
    dropout_rate=0.1,
    initializer=tf.keras.initializers.TruncatedNormal(
        stddev=0.02))

La única desventaja de cargar este modelo desde TFHub es que la estructura de las capas internas de keras no se restaura. Por eso es más difícil inspeccionar o modificar el modelo. El modelo BertEncoder ahora es una capa única:

tf.keras.utils.plot_model(hub_classifier, show_shapes=True, dpi=64)

png

try:
  tf.keras.utils.plot_model(hub_encoder, show_shapes=True, dpi=64)
  assert False
except Exception as e:
  print(f"{type(e).__name__}: {e}")
AttributeError: 'KerasLayer' object has no attribute 'layers'

Construcción de modelos de bajo nivel

Si necesita un mayor control sobre la construcción del modelo, vale la pena señalar que la función classifier_model utilizada anteriormente es en realidad solo un contenedor delgado sobre las clases nlp.modeling.networks.BertEncoder y nlp.modeling.models.BertClassifier . Solo recuerde que si comienza a modificar la arquitectura, es posible que no sea correcto o no sea posible volver a cargar el punto de control entrenado previamente, por lo que deberá volver a capacitarse desde cero.

Construye el codificador:

bert_encoder_config = config_dict.copy()

# You need to rename a few fields to make this work:
bert_encoder_config['attention_dropout_rate'] = bert_encoder_config.pop('attention_probs_dropout_prob')
bert_encoder_config['activation'] = tf_utils.get_activation(bert_encoder_config.pop('hidden_act'))
bert_encoder_config['dropout_rate'] = bert_encoder_config.pop('hidden_dropout_prob')
bert_encoder_config['initializer'] = tf.keras.initializers.TruncatedNormal(
          stddev=bert_encoder_config.pop('initializer_range'))
bert_encoder_config['max_sequence_length'] = bert_encoder_config.pop('max_position_embeddings')
bert_encoder_config['num_layers'] = bert_encoder_config.pop('num_hidden_layers')

bert_encoder_config
{'hidden_size': 768,
 'intermediate_size': 3072,
 'num_attention_heads': 12,
 'type_vocab_size': 2,
 'vocab_size': 30522,
 'attention_dropout_rate': 0.1,
 'activation': <function official.modeling.activations.gelu.gelu(x)>,
 'dropout_rate': 0.1,
 'initializer': <tensorflow.python.keras.initializers.initializers_v2.TruncatedNormal at 0x7fe203c32d68>,
 'max_sequence_length': 512,
 'num_layers': 12}
manual_encoder = nlp.modeling.networks.BertEncoder(**bert_encoder_config)

Restaurar los pesos:

checkpoint = tf.train.Checkpoint(encoder=manual_encoder)
checkpoint.read(
    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7fe20392a198>

Prueba ejecutarlo:

result = manual_encoder(my_examples, training=True)

print("Sequence output shape:", result[0].shape)
print("Pooled output shape:", result[1].shape)
Sequence output shape: (2, 23, 768)
Pooled output shape: (2, 768)

Envuélvalo en un clasificador:

manual_classifier = nlp.modeling.models.BertClassifier(
        bert_encoder,
        num_classes=2,
        dropout_rate=bert_encoder_config['dropout_rate'],
        initializer=bert_encoder_config['initializer'])
manual_classifier(my_examples, training=True).numpy()
array([[ 0.1309041 , -0.20986415],
       [-0.09952673,  0.05040173]], dtype=float32)

Optimizadores y horarios

El optimizador usado para entrenar el modelo fue creado usando la función nlp.optimization.create_optimizer :

optimizer = nlp.optimization.create_optimizer(
    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps)

Ese contenedor de alto nivel configura los programas de tasas de aprendizaje y el optimizador.

El programa de tasa de aprendizaje base que se usa aquí es una disminución lineal a cero durante la ejecución de entrenamiento:

epochs = 3
batch_size = 32
eval_batch_size = 32

train_data_size = len(glue_train_labels)
steps_per_epoch = int(train_data_size / batch_size)
num_train_steps = steps_per_epoch * epochs
decay_schedule = tf.keras.optimizers.schedules.PolynomialDecay(
      initial_learning_rate=2e-5,
      decay_steps=num_train_steps,
      end_learning_rate=0)

plt.plot([decay_schedule(n) for n in range(num_train_steps)])
[<matplotlib.lines.Line2D at 0x7fe203c1ac50>]

png

Esto, a su vez, está envuelto en un programa de WarmUp que aumenta linealmente la tasa de aprendizaje hasta el valor objetivo durante el primer 10% del entrenamiento:

warmup_steps = num_train_steps * 0.1

warmup_schedule = nlp.optimization.WarmUp(
        initial_learning_rate=2e-5,
        decay_schedule_fn=decay_schedule,
        warmup_steps=warmup_steps)

# The warmup overshoots, because it warms up to the `initial_learning_rate`
# following the original implementation. You can set
# `initial_learning_rate=decay_schedule(warmup_steps)` if you don't like the
# overshoot.
plt.plot([warmup_schedule(n) for n in range(num_train_steps)])
[<matplotlib.lines.Line2D at 0x7fe20397bfd0>]

png

Luego cree el nlp.optimization.AdamWeightDecay usando ese horario, configurado para el modelo BERT:

optimizer = nlp.optimization.AdamWeightDecay(
        learning_rate=warmup_schedule,
        weight_decay_rate=0.01,
        epsilon=1e-6,
        exclude_from_weight_decay=['LayerNorm', 'layer_norm', 'bias'])