หน้านี้ได้รับการแปลโดย Cloud Translation API
Switch to English

การปรับเปลี่ยนรูปแบบการ BERT

ดูบน TensorFlow.org เรียกใช้ใน Google Colab ดูโค้ดบน GitHub ดาวน์โหลดโน๊ตบุ๊ค

ในตัวอย่างนี้เราจะทำงานผ่านการปรับแต่งรูปแบบเบิร์ตโดยใช้แพคเกจ PIP tensorflow-รุ่น

รุ่น BERT pretrained กวดวิชานี้จะขึ้นอยู่กับยังมีอยู่บน TensorFlow Hub เพื่อดูวิธีการใช้งานดูที่ Hub ภาคผนวก

ติดตั้ง

ติดตั้งแพคเก pip TensorFlow รุ่นการ์เด้น

  • tf-models-nightly เป็นคืนแพคเกจรุ่นการ์เด้นสร้างขึ้นทุกวันโดยอัตโนมัติ
  • pip จะติดตั้งทุกรูปแบบและการอ้างอิงโดยอัตโนมัติ
pip install -q tf-nightly
pip install -q tf-models-nightly

นำเข้า

 import os

import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf

import tensorflow_hub as hub
import tensorflow_datasets as tfds
tfds.disable_progress_bar()

from official.modeling import tf_utils
from official import nlp
from official.nlp import bert

# Load the required submodules
import official.nlp.optimization
import official.nlp.bert.bert_models
import official.nlp.bert.configs
import official.nlp.bert.run_classifier
import official.nlp.bert.tokenization
import official.nlp.data.classifier_data_lib
import official.nlp.modeling.losses
import official.nlp.modeling.models
import official.nlp.modeling.networks
 
/tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_addons/utils/ensure_tf_install.py:44: UserWarning: You are currently using a nightly version of TensorFlow (2.3.0-dev20200623). 
TensorFlow Addons offers no support for the nightly versions of TensorFlow. Some things might work, some other might not. 
If you encounter a bug, do not file an issue on GitHub.
  UserWarning,

ทรัพยากร

ไดเรกทอรีนี้มีการกำหนดค่าคำศัพท์และด่านก่อนได้รับการฝึกฝนมาใช้ในการกวดวิชานี้:

 gs_folder_bert = "gs://cloud-tpu-checkpoints/bert/keras_bert/uncased_L-12_H-768_A-12"
tf.io.gfile.listdir(gs_folder_bert)
 
['bert_config.json',
 'bert_model.ckpt.data-00000-of-00001',
 'bert_model.ckpt.index',
 'vocab.txt']

คุณจะได้รับการฝึกอบรมก่อนการเข้ารหัส BERT จาก TensorFlow Hub ที่นี่:

 hub_url_bert = "https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/2"
 

ข้อมูล

สำหรับตัวอย่างนี้เราใช้ ชุดกาว MRPC จาก TFDS

ชุดนี้ไม่ได้ตั้งขึ้นเพื่อที่จะสามารถเลี้ยงโดยตรงในรูปแบบ BERT ดังนั้นส่วนนี้ยังจัดการประมวลผลเบื้องต้นที่จำเป็น

รับชุดข้อมูลจาก TensorFlow ชุดข้อมูล

ไมโครซอฟท์คอร์ปัสแปลความหมายการวิจัย (Dolan และ Brockett 2005) เป็นคลังคู่ประโยคสกัดโดยอัตโนมัติจากแหล่งข่าวออนไลน์ที่มีคำอธิบายประกอบของมนุษย์ไม่ว่าจะเป็นประโยคในคู่ที่มีความหมายเทียบเท่า

  • จำนวนป้าย: 2
  • ขนาดของชุดการฝึกอบรม: 3668
  • ขนาดของชุดข้อมูลการประเมินผล: 408
  • ระยะเวลาในลำดับสูงสุดของการฝึกอบรมและการประเมินผลชุด: 128
 glue, info = tfds.load('glue/mrpc', with_info=True,
                       # It's small, load the whole dataset
                       batch_size=-1)
 
Downloading and preparing dataset glue/mrpc/1.0.0 (download: 1.43 MiB, generated: Unknown size, total: 1.43 MiB) to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0...

/usr/lib/python3/dist-packages/urllib3/connectionpool.py:860: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
/usr/lib/python3/dist-packages/urllib3/connectionpool.py:860: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
/usr/lib/python3/dist-packages/urllib3/connectionpool.py:860: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)

Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incomplete1RTRDK/glue-train.tfrecord
Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incomplete1RTRDK/glue-validation.tfrecord
Shuffling and writing examples to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0.incomplete1RTRDK/glue-test.tfrecord
Dataset glue downloaded and prepared to /home/kbuilder/tensorflow_datasets/glue/mrpc/1.0.0. Subsequent calls will reuse this data.

 list(glue.keys())
 
['test', 'train', 'validation']

info วัตถุอธิบายชุดและเป็นคุณสมบัติ:

 info.features
 
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})

สองชั้นคือ:

 info.features['label'].names
 
['not_equivalent', 'equivalent']

นี่คือตัวอย่างหนึ่งจากชุดการฝึกอบรม:

 glue_train = glue['train']

for key, value in glue_train.items():
  print(f"{key:9s}: {value[0].numpy()}")
 
idx      : 1680
label    : 0
sentence1: b'The identical rovers will act as robotic geologists , searching for evidence of past water .'
sentence2: b'The rovers act as robotic geologists , moving on six wheels .'

tokenizer BERT

การปรับรูปแบบการฝึกอบรมก่อนที่คุณจะต้องแน่ใจว่าคุณกำลังใช้ตรง tokenization เดียวกันคำศัพท์และการทำแผนที่ดัชนีที่คุณใช้ในระหว่างการฝึกอบรม

tokenizer BERT ใช้ในการกวดวิชานี้ถูกเขียนในหลามบริสุทธิ์ (มันไม่ได้สร้างขึ้นจาก Ops TensorFlow) ดังนั้นคุณจึงไม่สามารถเพียงแค่เสียบเข้ากับรูปแบบของคุณเป็น keras.layer เช่นคุณสามารถมี preprocessing.TextVectorization

รหัสต่อไปนี้จะสร้าง tokenizer ที่ถูกใช้โดยฐานแบบจำลอง:

 # Set up tokenizer to generate Tensorflow dataset
tokenizer = bert.tokenization.FullTokenizer(
    vocab_file=os.path.join(gs_folder_bert, "vocab.txt"),
     do_lower_case=True)

print("Vocab size:", len(tokenizer.vocab))
 
Vocab size: 30522

tokenize ประโยค:

 tokens = tokenizer.tokenize("Hello TensorFlow!")
print(tokens)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)
 
['hello', 'tensor', '##flow', '!']
[7592, 23435, 12314, 999]

preprocess ข้อมูล

ส่วนตนเอง preprocessed ชุดข้อมูลในรูปแบบที่คาดหวังโดยรูปแบบ

ชุดนี้มีขนาดเล็กเพื่อประมวลผลเบื้องต้นสามารถทำได้อย่างรวดเร็วและง่ายดายในหน่วยความจำ สำหรับชุดข้อมูลขนาดใหญ่ tf_models ห้องสมุดมีเครื่องมือบางอย่างสำหรับ preprocessing และอีก serializing ชุดข้อมูล ดู ภาคผนวก: Re-เข้ารหัสชุดข้อมูลที่มีขนาดใหญ่ เพื่อดูรายละเอียด

เข้ารหัสประโยค

รูปแบบที่คาดว่าประโยคสองปัจจัยการผลิตที่จะได้รับการตัดแบ่งกัน การป้อนข้อมูลนี้คาดว่าจะเริ่มต้นด้วย [CLS] "นี่คือปัญหาการจัดหมวดหมู่" โทเค็นและแต่ละประโยคที่ควรจะจบด้วย [SEP] "แยก" โทเค็น:

 tokenizer.convert_tokens_to_ids(['[CLS]', '[SEP]'])
 
[101, 102]

เริ่มต้นด้วยการเข้ารหัสประโยคทั้งหมดในขณะที่ท้าย [SEP] โทเค็นและการบรรจุในขาด-เทนเซอร์:

 def encode_sentence(s):
   tokens = list(tokenizer.tokenize(s.numpy()))
   tokens.append('[SEP]')
   return tokenizer.convert_tokens_to_ids(tokens)

sentence1 = tf.ragged.constant([
    encode_sentence(s) for s in glue_train["sentence1"]])
sentence2 = tf.ragged.constant([
    encode_sentence(s) for s in glue_train["sentence2"]])
 
 print("Sentence1 shape:", sentence1.shape.as_list())
print("Sentence2 shape:", sentence2.shape.as_list())
 
Sentence1 shape: [3668, None]
Sentence2 shape: [3668, None]

ตอนนี้ย่อหน้า [CLS] โทเค็นและเชื่อมเทนเซอร์มอมแมมในรูปแบบเดียว input_word_ids เมตริกซ์สำหรับแต่ละตัวอย่าง RaggedTensor.to_tensor() ศูนย์แผ่นลำดับที่ยาวที่สุด

 cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)
_ = plt.pcolormesh(input_word_ids.to_tensor())
 

PNG

หน้ากากและใส่ชนิด

รูปแบบที่คาดว่าทั้งสองปัจจัยการผลิตเพิ่มเติม:

  • หน้ากากการป้อนข้อมูล
  • ประเภทการป้อนข้อมูล

หน้ากากช่วยให้รูปแบบที่แตกต่างหมดจดระหว่างเนื้อหาและช่องว่างที่ หน้ากากมีรูปร่างเช่นเดียวกับ input_word_ids และมี 1 ทุกที่ input_word_ids ไม่ได้รอง

 input_mask = tf.ones_like(input_word_ids).to_tensor()

plt.pcolormesh(input_mask)
 
<matplotlib.collections.QuadMesh at 0x7f82246c0cf8>

PNG

"ประเภทการป้อนข้อมูล" นอกจากนี้ยังมีรูปร่างเหมือนกัน แต่ภายในภูมิภาคที่ไม่ใช่เบาะมี 0 หรือ 1 ระบุว่าประโยคโทเค็นเป็นส่วนหนึ่งของ

 type_cls = tf.zeros_like(cls)
type_s1 = tf.zeros_like(sentence1)
type_s2 = tf.ones_like(sentence2)
input_type_ids = tf.concat([type_cls, type_s1, type_s2], axis=-1).to_tensor()

plt.pcolormesh(input_type_ids)
 
<matplotlib.collections.QuadMesh at 0x7f8224668438>

PNG

วางไว้ด้วยกัน

เก็บรหัสการแยกข้อความข้างต้นเป็นฟังก์ชั่นเดียวและนำมันไปใช้แยกของแต่ละ glue/mrpc ชุด

 def encode_sentence(s, tokenizer):
   tokens = list(tokenizer.tokenize(s))
   tokens.append('[SEP]')
   return tokenizer.convert_tokens_to_ids(tokens)

def bert_encode(glue_dict, tokenizer):
  num_examples = len(glue_dict["sentence1"])
  
  sentence1 = tf.ragged.constant([
      encode_sentence(s, tokenizer)
      for s in np.array(glue_dict["sentence1"])])
  sentence2 = tf.ragged.constant([
      encode_sentence(s, tokenizer)
       for s in np.array(glue_dict["sentence2"])])

  cls = [tokenizer.convert_tokens_to_ids(['[CLS]'])]*sentence1.shape[0]
  input_word_ids = tf.concat([cls, sentence1, sentence2], axis=-1)

  input_mask = tf.ones_like(input_word_ids).to_tensor()

  type_cls = tf.zeros_like(cls)
  type_s1 = tf.zeros_like(sentence1)
  type_s2 = tf.ones_like(sentence2)
  input_type_ids = tf.concat(
      [type_cls, type_s1, type_s2], axis=-1).to_tensor()

  inputs = {
      'input_word_ids': input_word_ids.to_tensor(),
      'input_mask': input_mask,
      'input_type_ids': input_type_ids}

  return inputs
 
 glue_train = bert_encode(glue['train'], tokenizer)
glue_train_labels = glue['train']['label']

glue_validation = bert_encode(glue['validation'], tokenizer)
glue_validation_labels = glue['validation']['label']

glue_test = bert_encode(glue['test'], tokenizer)
glue_test_labels  = glue['test']['label']
 

ย่อยของข้อมูลแต่ละคนได้รับการแปลงพจนานุกรมของคุณสมบัติและชุดของฉลาก คุณลักษณะในพจนานุกรมการป้อนข้อมูลที่แต่ละคนมีรูปร่างเหมือนกันและจำนวนของป้ายควรจะตรงกับ:

 for key, value in glue_train.items():
  print(f'{key:15s} shape: {value.shape}')

print(f'glue_train_labels shape: {glue_train_labels.shape}')
 
input_word_ids  shape: (3668, 103)
input_mask      shape: (3668, 103)
input_type_ids  shape: (3668, 103)
glue_train_labels shape: (3668,)

นางแบบ

สร้างแบบจำลอง

ขั้นตอนแรกคือการดาวน์โหลดการกำหนดค่าสำหรับรุ่นก่อนผ่านการฝึกอบรม

 import json

bert_config_file = os.path.join(gs_folder_bert, "bert_config.json")
config_dict = json.loads(tf.io.gfile.GFile(bert_config_file).read())

bert_config = bert.configs.BertConfig.from_dict(config_dict)

config_dict
 
{'attention_probs_dropout_prob': 0.1,
 'hidden_act': 'gelu',
 'hidden_dropout_prob': 0.1,
 'hidden_size': 768,
 'initializer_range': 0.02,
 'intermediate_size': 3072,
 'max_position_embeddings': 512,
 'num_attention_heads': 12,
 'num_hidden_layers': 12,
 'type_vocab_size': 2,
 'vocab_size': 30522}

config กำหนดหลัก BERT รุ่นซึ่งเป็นรูปแบบ Keras ในการทำนายผลของ num_classes จากปัจจัยการผลิตที่มีความยาวสูงสุดลำดับ max_seq_length

ฟังก์ชั่นนี้ผลตอบแทนทั้งการเข้ารหัสและลักษณนาม

 bert_classifier, bert_encoder = bert.bert_models.classifier_model(
    bert_config, num_labels=2)
 

ลักษณนามมีสามปัจจัยการผลิตและการส่งออกที่หนึ่ง:

 tf.keras.utils.plot_model(bert_classifier, show_shapes=True, dpi=48)
 

PNG

รันบนชุดทดสอบของข้อมูล 10 ตัวอย่างจากชุดการฝึกอบรม เอาท์พุทเป็น logits สำหรับสองชั้นเรียน:

 glue_batch = {key: val[:10] for key, val in glue_train.items()}

bert_classifier(
    glue_batch, training=True
).numpy()
 
array([[ 0.05488977, -0.26042116],
       [ 0.11358108, -0.09727937],
       [ 0.14350253, -0.2465629 ],
       [ 0.2775127 , -0.09028438],
       [ 0.3606584 , -0.17138724],
       [ 0.3287397 , -0.14672714],
       [ 0.18621178, -0.13080403],
       [ 0.21898738,  0.10716071],
       [ 0.18413854, -0.13491377],
       [ 0.20307963, -0.05396855]], dtype=float32)

TransformerEncoder ในใจกลางของลักษณนามดังกล่าวข้างต้นเป็น bert_encoder

การตรวจสอบการเข้ารหัสเราจะเห็นสแต็คของ Transformer ชั้นเชื่อมต่อกับผู้ที่สามปัจจัยการผลิต:

 tf.keras.utils.plot_model(bert_encoder, show_shapes=True, dpi=48)
 

PNG

การคืนค่าน้ำหนักเข้ารหัส

เมื่อสร้างการเข้ารหัสจะเริ่มต้นการสุ่ม การคืนค่าน้ำหนักเข้ารหัสจากด่าน:

 checkpoint = tf.train.Checkpoint(model=bert_encoder)
checkpoint.restore(
    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
 
<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7f8242dadc88>

ตั้งค่าการเพิ่มประสิทธิภาพ

BERT adopts เพิ่มประสิทธิภาพอดัมที่มีน้ำหนักสลาย (aka " AdamW ") นอกจากนี้ยังมีพนักงานกำหนดการอัตราการเรียนรู้ที่แรกอุ่นขึ้นจาก 0 แล้วสลายตัวไปที่ 0

 # Set up epochs and steps
epochs = 3
batch_size = 32
eval_batch_size = 32

train_data_size = len(glue_train_labels)
steps_per_epoch = int(train_data_size / batch_size)
num_train_steps = steps_per_epoch * epochs
warmup_steps = int(epochs * train_data_size * 0.1 / batch_size)

# creates an optimizer with learning rate schedule
optimizer = nlp.optimization.create_optimizer(
    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps)
 

ผลตอบแทนนี้ AdamWeightDecay เพิ่มประสิทธิภาพด้วยชุดอัตราตารางเวลาการเรียนรู้:

 type(optimizer)
 
official.nlp.optimization.AdamWeightDecay

หากต้องการดูตัวอย่างของวิธีการปรับแต่งเพิ่มประสิทธิภาพและกำหนดเวลาของมันให้ดู ตารางการเพิ่มประสิทธิภาพภาคผนวก

รูปแบบการฝึกอบรม

ตัวชี้วัดความถูกต้องและเราจะใช้เด็ดขาดเบาบางข้ามเอนโทรปีของการสูญเสีย

 metrics = [tf.keras.metrics.SparseCategoricalAccuracy('accuracy', dtype=tf.float32)]
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

bert_classifier.compile(
    optimizer=optimizer,
    loss=loss,
    metrics=metrics)

bert_classifier.fit(
      glue_train, glue_train_labels,
      validation_data=(glue_validation, glue_validation_labels),
      batch_size=32,
      epochs=epochs)
 
Epoch 1/3
115/115 [==============================] - 25s 218ms/step - loss: 0.7047 - accuracy: 0.6101 - val_loss: 0.5219 - val_accuracy: 0.7181
Epoch 2/3
115/115 [==============================] - 24s 210ms/step - loss: 0.5068 - accuracy: 0.7560 - val_loss: 0.5047 - val_accuracy: 0.7794
Epoch 3/3
115/115 [==============================] - 24s 209ms/step - loss: 0.3812 - accuracy: 0.8332 - val_loss: 0.4839 - val_accuracy: 0.8137

<tensorflow.python.keras.callbacks.History at 0x7f82107c8cf8>

ตอนนี้ใช้รูปแบบการปรับแต่งในตัวอย่างที่กำหนดเองจะเห็นว่ามันทำงาน

เริ่มต้นด้วยการเข้ารหัสคู่ประโยคบางส่วน:

 my_examples = bert_encode(
    glue_dict = {
        'sentence1':[
            'The rain in Spain falls mainly on the plain.',
            'Look I fine tuned BERT.'],
        'sentence2':[
            'It mostly rains on the flat lands of Spain.',
            'Is it working? This does not match.']
    },
    tokenizer=tokenizer)
 

รูปแบบที่ควรจะรายงานระดับ 1 "จับคู่" สำหรับตัวอย่างแรกและชั้น 0 "ไม่มีการแข่งขัน" เป็นครั้งที่สอง:

 result = bert_classifier(my_examples, training=False)

result = tf.argmax(result).numpy()
result
 
array([1, 0])
 np.array(info.features['label'].names)[result]
 
array(['equivalent', 'not_equivalent'], dtype='<U14')

บันทึกรูปแบบ

บ่อยครั้งที่เป้าหมายของการฝึกอบรมรูปแบบคือการใช้มันสำหรับบางสิ่งบางอย่างเพื่อให้การส่งออกรูปแบบแล้วเรียกคืนเพื่อให้แน่ใจว่าการทำงาน

 export_dir='./saved_model'
tf.saved_model.save(bert_classifier, export_dir=export_dir)
 
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
Instructions for updating:
This property should not be used in TensorFlow 2.0, as updates are applied automatically.

Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Model.state_updates (from tensorflow.python.keras.engine.training) is deprecated and will be removed in a future version.
Instructions for updating:
This property should not be used in TensorFlow 2.0, as updates are applied automatically.

Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
Instructions for updating:
This property should not be used in TensorFlow 2.0, as updates are applied automatically.

Warning:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/tracking/tracking.py:111: Layer.updates (from tensorflow.python.keras.engine.base_layer) is deprecated and will be removed in a future version.
Instructions for updating:
This property should not be used in TensorFlow 2.0, as updates are applied automatically.

INFO:tensorflow:Assets written to: ./saved_model/assets

INFO:tensorflow:Assets written to: ./saved_model/assets

 reloaded = tf.saved_model.load(export_dir)
reloaded_result = reloaded([my_examples['input_word_ids'],
                            my_examples['input_mask'],
                            my_examples['input_type_ids']], training=False)

original_result = bert_classifier(my_examples, training=False)

# The results are (nearly) identical:
print(original_result.numpy())
print()
print(reloaded_result.numpy())
 
[[-1.1238481   0.92107666]
 [ 0.35722053 -0.4061358 ]]

[[-1.1238478   0.9210764 ]
 [ 0.35722044 -0.40613574]]

ภาคผนวก

Re-เข้ารหัสชุดข้อมูลที่มีขนาดใหญ่

กวดวิชานี้คุณกำลังเข้ารหัสชุดข้อมูลในหน่วยความจำเพื่อความชัดเจน

นี่อาจเป็นเพียงเพราะ glue/mrpc เป็นชุดข้อมูลที่มีขนาดเล็กมาก เพื่อจัดการกับชุดข้อมูลขนาดใหญ่ tf_models ห้องสมุดรวมถึงเครื่องมือบางอย่างสำหรับการประมวลผลและการเข้ารหัสชุดข้อมูลสำหรับการฝึกอบรมที่มีประสิทธิภาพ

ขั้นตอนแรกคือการอธิบายคุณลักษณะของชุดข้อมูลที่ควรจะเปลี่ยน:

 processor = nlp.data.classifier_data_lib.TfdsProcessor(
    tfds_params="dataset=glue/mrpc,text_key=sentence1,text_b_key=sentence2",
    process_text_fn=bert.tokenization.convert_to_unicode)
 

จากนั้นให้ใช้การเปลี่ยนแปลงในการสร้างไฟล์ใหม่ TFRecord

 # Set up output of training and evaluation Tensorflow dataset
train_data_output_path="./mrpc_train.tf_record"
eval_data_output_path="./mrpc_eval.tf_record"

max_seq_length = 128
batch_size = 32
eval_batch_size = 32

# Generate and save training data into a tf record file
input_meta_data = (
    nlp.data.classifier_data_lib.generate_tf_record_from_data_file(
      processor=processor,
      data_dir=None,  # It is `None` because data is from tfds, not local dir.
      tokenizer=tokenizer,
      train_data_output_path=train_data_output_path,
      eval_data_output_path=eval_data_output_path,
      max_seq_length=max_seq_length))
 

สุดท้ายสร้าง tf.data ท่อป้อนข้อมูลจากไฟล์ที่ TFRecord:

 training_dataset = bert.run_classifier.get_dataset_fn(
    train_data_output_path,
    max_seq_length,
    batch_size,
    is_training=True)()

evaluation_dataset = bert.run_classifier.get_dataset_fn(
    eval_data_output_path,
    max_seq_length,
    eval_batch_size,
    is_training=False)()

 

ส่งผลให้ tf.data.Datasets ผลตอบแทน (features, labels) คู่เป็นไปตามคาดโดย keras.Model.fit :

 training_dataset.element_spec
 
({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None),
  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int32, name=None)},
 TensorSpec(shape=(32,), dtype=tf.int32, name=None))

สร้าง tf.data.Dataset สำหรับการฝึกอบรมและการประเมินผล

หากคุณจำเป็นต้องปรับเปลี่ยนการโหลดข้อมูลที่นี่เป็นรหัสบางอย่างเพื่อให้คุณเริ่มต้น:

 def create_classifier_dataset(file_path, seq_length, batch_size, is_training):
  """Creates input dataset from (tf)records files for train/eval."""
  dataset = tf.data.TFRecordDataset(file_path)
  if is_training:
    dataset = dataset.shuffle(100)
    dataset = dataset.repeat()

  def decode_record(record):
    name_to_features = {
      'input_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
      'input_mask': tf.io.FixedLenFeature([seq_length], tf.int64),
      'segment_ids': tf.io.FixedLenFeature([seq_length], tf.int64),
      'label_ids': tf.io.FixedLenFeature([], tf.int64),
    }
    return tf.io.parse_single_example(record, name_to_features)

  def _select_data_from_record(record):
    x = {
        'input_word_ids': record['input_ids'],
        'input_mask': record['input_mask'],
        'input_type_ids': record['segment_ids']
    }
    y = record['label_ids']
    return (x, y)

  dataset = dataset.map(decode_record,
                        num_parallel_calls=tf.data.experimental.AUTOTUNE)
  dataset = dataset.map(
      _select_data_from_record,
      num_parallel_calls=tf.data.experimental.AUTOTUNE)
  dataset = dataset.batch(batch_size, drop_remainder=is_training)
  dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
  return dataset
 
 # Set up batch sizes
batch_size = 32
eval_batch_size = 32

# Return Tensorflow dataset
training_dataset = create_classifier_dataset(
    train_data_output_path,
    input_meta_data['max_seq_length'],
    batch_size,
    is_training=True)

evaluation_dataset = create_classifier_dataset(
    eval_data_output_path,
    input_meta_data['max_seq_length'],
    eval_batch_size,
    is_training=False)
 
 training_dataset.element_spec
 
({'input_word_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
  'input_mask': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None),
  'input_type_ids': TensorSpec(shape=(32, 128), dtype=tf.int64, name=None)},
 TensorSpec(shape=(32,), dtype=tf.int64, name=None))

TFModels เบิร์ตบน TFHub

คุณจะได้รับ รูปแบบ BERT ปิดการเก็บรักษาจาก TFHub มันจะไม่เป็นเรื่องยากที่จะเพิ่มหัวจำแนกบนนี้ hub.KerasLayer

 # Note: 350MB download.
import tensorflow_hub as hub
hub_encoder = hub.KerasLayer(hub_url_bert, trainable=True)

print(f"The Hub encoder has {len(hub_encoder.trainable_variables)} trainable variables")
 
The Hub encoder has 199 trainable variables

ทดสอบรันบนชุดของข้อมูล:

 result = hub_encoder(
    inputs=[glue_train['input_word_ids'][:10],
            glue_train['input_mask'][:10],
            glue_train['input_type_ids'][:10],],
    training=False,
)

print("Pooled output shape:", result[0].shape)
print("Sequence output shape:", result[1].shape)
 
Pooled output shape: (10, 768)
Sequence output shape: (10, 103, 768)

ณ จุดนี้มันจะเป็นเรื่องง่ายที่จะเพิ่มตัวเองหัวการจัดหมวดหมู่

bert_models.classifier_model ฟังก์ชั่นยังสามารถสร้างลักษณนามบนเข้ารหัสจาก TensorFlow Hub ไปนี้:

 hub_classifier, hub_encoder = bert.bert_models.classifier_model(
    # Caution: Most of `bert_config` is ignored if you pass a hub url.
    bert_config=bert_config, hub_module_url=hub_url_bert, num_labels=2)
 

ข้อเสียหนึ่งในการโหลดแบบนี้จาก TFHub คือว่าโครงสร้างของชั้น keras ภายในไม่ได้คืน ดังนั้นจึงเป็นเรื่องยากมากขึ้นในการตรวจสอบหรือปรับเปลี่ยนรูปแบบ TransformerEncoder รุ่นในขณะนี้คือชั้นเดียว:

 tf.keras.utils.plot_model(hub_classifier, show_shapes=True, dpi=64)
 

PNG

 try:
  tf.keras.utils.plot_model(hub_encoder, show_shapes=True, dpi=64)
  assert False
except Exception as e:
  print(f"{type(e).__name__}: {e}")
 
AttributeError: 'KerasLayer' object has no attribute 'layers'

อาคารรูปแบบในระดับต่ำ

หากคุณจำเป็นต้องมีการควบคุมที่มากกว่าการก่อสร้างของรูปแบบของมันเป็นที่น่าสังเกตว่า classifier_model ฟังก์ชั่นใช้ก่อนหน้านี้เป็นจริงเพียงเสื้อคลุมบาง ๆ มากกว่า nlp.modeling.networks.TransformerEncoder และ nlp.modeling.models.BertClassifier ชั้นเรียน เพียงจำไว้ว่าถ้าคุณเริ่มต้นการปรับเปลี่ยนสถาปัตยกรรมมันอาจจะไม่ถูกต้องหรือเป็นไปได้ที่จะโหลดด่านก่อนการฝึกอบรมเพื่อให้คุณจะต้องฝึกจากรอยขีดข่วน

สร้างเข้ารหัส:

 transformer_config = config_dict.copy()

# You need to rename a few fields to make this work:
transformer_config['attention_dropout_rate'] = transformer_config.pop('attention_probs_dropout_prob')
transformer_config['activation'] = tf_utils.get_activation(transformer_config.pop('hidden_act'))
transformer_config['dropout_rate'] = transformer_config.pop('hidden_dropout_prob')
transformer_config['initializer'] = tf.keras.initializers.TruncatedNormal(
          stddev=transformer_config.pop('initializer_range'))
transformer_config['max_sequence_length'] = transformer_config.pop('max_position_embeddings')
transformer_config['num_layers'] = transformer_config.pop('num_hidden_layers')

transformer_config
 
{'hidden_size': 768,
 'intermediate_size': 3072,
 'num_attention_heads': 12,
 'type_vocab_size': 2,
 'vocab_size': 30522,
 'attention_dropout_rate': 0.1,
 'activation': <function official.modeling.activations.gelu.gelu(x)>,
 'dropout_rate': 0.1,
 'initializer': <tensorflow.python.keras.initializers.initializers_v2.TruncatedNormal at 0x7f81145cb3c8>,
 'max_sequence_length': 512,
 'num_layers': 12}
 manual_encoder = nlp.modeling.networks.TransformerEncoder(**transformer_config)
 

Restore น้ำหนัก:

 checkpoint = tf.train.Checkpoint(model=manual_encoder)
checkpoint.restore(
    os.path.join(gs_folder_bert, 'bert_model.ckpt')).assert_consumed()
 
<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x7f813c336fd0>

ทดสอบเรียกใช้:

 result = manual_encoder(my_examples, training=True)

print("Sequence output shape:", result[0].shape)
print("Pooled output shape:", result[1].shape)
 
Sequence output shape: (2, 23, 768)
Pooled output shape: (2, 768)

ห่อไว้ในลักษณนาม:

 manual_classifier = nlp.modeling.models.BertClassifier(
        bert_encoder,
        num_classes=2,
        dropout_rate=transformer_config['dropout_rate'],
        initializer=tf.keras.initializers.TruncatedNormal(
          stddev=bert_config.initializer_range))
 
 manual_classifier(my_examples, training=True).numpy()
 
array([[-0.22512403,  0.07213479],
       [-0.21233292,  0.1311737 ]], dtype=float32)

เพิ่มประสิทธิภาพและตารางเวลา

เพิ่มประสิทธิภาพที่ใช้ในการฝึกอบรมรุ่นที่ถูกสร้างขึ้นโดยใช้ nlp.optimization.create_optimizer ฟังก์ชั่น:

 optimizer = nlp.optimization.create_optimizer(
    2e-5, num_train_steps=num_train_steps, num_warmup_steps=warmup_steps)
 

ที่ระดับสูงชุดเสื้อคลุมขึ้นตารางอัตราการเรียนรู้และเพิ่มประสิทธิภาพ

กำหนดการอัตราการเรียนรู้ฐานใช้ที่นี่เป็นผุเชิงเส้นให้เป็นศูนย์ในช่วงระยะการฝึกอบรม:

 epochs = 3
batch_size = 32
eval_batch_size = 32

train_data_size = len(glue_train_labels)
steps_per_epoch = int(train_data_size / batch_size)
num_train_steps = steps_per_epoch * epochs
 
 decay_schedule = tf.keras.optimizers.schedules.PolynomialDecay(
      initial_learning_rate=2e-5,
      decay_steps=num_train_steps,
      end_learning_rate=0)

plt.plot([decay_schedule(n) for n in range(num_train_steps)])
 
[<matplotlib.lines.Line2D at 0x7f8115ab5320>]

PNG

นี้ในการเปิดเป็นห่อ WarmUp ตารางเวลาที่เป็นเส้นตรงเพิ่มอัตราการเรียนรู้เพื่อให้มีค่าเป้าหมายในช่วงแรก 10% ของการฝึกอบรม:

 warmup_steps = num_train_steps * 0.1

warmup_schedule = nlp.optimization.WarmUp(
        initial_learning_rate=2e-5,
        decay_schedule_fn=decay_schedule,
        warmup_steps=warmup_steps)

# The warmup overshoots, because it warms up to the `initial_learning_rate`
# following the original implementation. You can set
# `initial_learning_rate=decay_schedule(warmup_steps)` if you don't like the
# overshoot.
plt.plot([warmup_schedule(n) for n in range(num_train_steps)])
 
[<matplotlib.lines.Line2D at 0x7f81150c27f0>]

PNG

จากนั้นสร้าง nlp.optimization.AdamWeightDecay ใช้ตารางเวลาที่กำหนดค่าสำหรับรุ่น BERT นี้:

 optimizer = nlp.optimization.AdamWeightDecay(
        learning_rate=warmup_schedule,
        weight_decay_rate=0.01,
        epsilon=1e-6,
        exclude_from_weight_decay=['LayerNorm', 'layer_norm', 'bias'])