ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

การสร้างข้อความด้วย RNN

ดูบน TensorFlow.org ทำงานใน Google Colab ดูแหล่งที่มาบน GitHub ดาวน์โหลดโน๊ตบุ๊ค

บทช่วยสอนนี้สาธิตวิธีสร้างข้อความโดยใช้ RNN แบบอักขระ คุณจะทำงานร่วมกับชุดของการเขียนเช็คสเปียร์จาก Andrej Karpathy เป็น ประสิทธิผลไม่มีเหตุผลของโครงข่ายประสาทกำเริบ เมื่อกำหนดลำดับของอักขระจากข้อมูลนี้ ("เชคสเปียร์") ให้ฝึกแบบจำลองเพื่อทำนายอักขระตัวถัดไปในลำดับ ("e") สามารถสร้างลำดับข้อความที่ยาวขึ้นได้โดยการเรียกแบบจำลองซ้ำๆ

กวดวิชานี้จะมีรหัสที่ทำงานได้ดำเนินการโดยใช้ tf.keras และ การดำเนินการกระตือรือร้น ต่อไปนี้คือเอาต์พุตตัวอย่างเมื่อโมเดลในบทช่วยสอนนี้ฝึกฝนเป็นเวลา 30 ยุค และเริ่มต้นด้วยข้อความแจ้ง "Q":

QUEENE:
I had thought thou hadst a Roman; for the oracle,
Thus by All bids the man against the word,
Which are so weak of care, by old care done;
Your children were in your holy love,
And the precipitation through the bleeding throne.

BISHOP OF ELY:
Marry, and will, my lord, to weep in such a one were prettiest;
Yet now I was adopted heir
Of the world's lamentable day,
To watch the next way with his father with his face?

ESCALUS:
The cause why then we are all resolved more sons.

VOLUMNIA:
O, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, it is no sin it should be dead,
And love and pale as any will to that word.

QUEEN ELIZABETH:
But how long have I heard the soul for this world,
And show his hands of life be proved to stand.

PETRUCHIO:
I say he look'd on, if I must be content
To stay him from the fatal of our country's bliss.
His lordship pluck'd from this sentence then for prey,
And then let us twain, being the moon,
were she such a case as fills m

แม้ว่าประโยคบางประโยคจะเป็นไวยกรณ์ แต่ส่วนใหญ่ก็ไม่สมเหตุสมผล โมเดลไม่ได้เรียนรู้ความหมายของคำ แต่ให้พิจารณา:

  • โมเดลเป็นแบบอิงตามอักขระ เมื่อเริ่มฝึก นางแบบไม่รู้วิธีสะกดคำภาษาอังกฤษ หรือคำนั้นคือหน่วยของข้อความ

  • โครงสร้างของผลลัพธ์คล้ายกับการเล่น—บล็อกของข้อความโดยทั่วไปจะเริ่มต้นด้วยชื่อผู้พูด เป็นตัวพิมพ์ใหญ่ทั้งหมดที่คล้ายกับชุดข้อมูล

  • ดังที่แสดงด้านล่าง โมเดลนี้ได้รับการฝึกอบรมเกี่ยวกับข้อความกลุ่มเล็กๆ (แต่ละ 100 อักขระ) และยังคงสามารถสร้างลำดับข้อความที่ยาวขึ้นด้วยโครงสร้างที่สอดคล้องกัน

ติดตั้ง

นำเข้า TensorFlow และไลบรารีอื่นๆ

import tensorflow as tf

import numpy as np
import os
import time

ดาวน์โหลดชุดข้อมูลเช็คสเปียร์

เปลี่ยนบรรทัดต่อไปนี้เพื่อเรียกใช้รหัสนี้กับข้อมูลของคุณเอง

path_to_file = tf.keras.utils.get_file('shakespeare.txt', 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt')
Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt
1122304/1115394 [==============================] - 0s 0us/step
1130496/1115394 [==============================] - 0s 0us/step

อ่านข้อมูล

ก่อนอื่น ดูในข้อความ:

# Read, then decode for py2 compat.
text = open(path_to_file, 'rb').read().decode(encoding='utf-8')
# length of text is the number of characters in it
print(f'Length of text: {len(text)} characters')
Length of text: 1115394 characters
# Take a look at the first 250 characters in text
print(text[:250])
First Citizen:
Before we proceed any further, hear me speak.

All:
Speak, speak.

First Citizen:
You are all resolved rather to die than to famish?

All:
Resolved. resolved.

First Citizen:
First, you know Caius Marcius is chief enemy to the people.
# The unique characters in the file
vocab = sorted(set(text))
print(f'{len(vocab)} unique characters')
65 unique characters

ประมวลผลข้อความ

เวกเตอร์ข้อความ

ก่อนการฝึก คุณต้องแปลงสตริงเป็นการแสดงตัวเลข

tf.keras.layers.StringLookup ชั้นสามารถแปลงตัวละครแต่ละตัวเป็นรหัสตัวเลข เพียงแค่ต้องการแยกข้อความออกเป็นโทเค็นก่อน

example_texts = ['abcdefg', 'xyz']

chars = tf.strings.unicode_split(example_texts, input_encoding='UTF-8')
chars
<tf.RaggedTensor [[b'a', b'b', b'c', b'd', b'e', b'f', b'g'], [b'x', b'y', b'z']]>

ตอนนี้สร้าง tf.keras.layers.StringLookup ชั้น:

ids_from_chars = tf.keras.layers.StringLookup(
    vocabulary=list(vocab), mask_token=None)

มันแปลงจากโทเค็นเป็นรหัสอักขระ:

ids = ids_from_chars(chars)
ids
<tf.RaggedTensor [[40, 41, 42, 43, 44, 45, 46], [63, 64, 65]]>

เนื่องจากเป้าหมายของบทช่วยสอนนี้คือการสร้างข้อความ จึงเป็นสิ่งสำคัญที่จะพลิกการแสดงนี้และกู้คืนสตริงที่มนุษย์อ่านได้ สำหรับนี้คุณสามารถใช้ tf.keras.layers.StringLookup(..., invert=True)

chars_from_ids = tf.keras.layers.StringLookup(
    vocabulary=ids_from_chars.get_vocabulary(), invert=True, mask_token=None)

ชั้นนี้กู้ตัวละครจากพาหะของรหัสและผลตอบแทนที่พวกเขาเป็น tf.RaggedTensor ของตัวอักษร:

chars = chars_from_ids(ids)
chars
<tf.RaggedTensor [[b'a', b'b', b'c', b'd', b'e', b'f', b'g'], [b'x', b'y', b'z']]>

คุณสามารถ tf.strings.reduce_join ที่จะเข้าร่วมตัวอักษรที่กลับเข้ามาในสาย

tf.strings.reduce_join(chars, axis=-1).numpy()
array([b'abcdefg', b'xyz'], dtype=object)
def text_from_ids(ids):
  return tf.strings.reduce_join(chars_from_ids(ids), axis=-1)

งานทำนาย

จากอักขระหรือลำดับของอักขระ อักขระตัวถัดไปที่น่าจะเป็นไปได้มากที่สุดคืออะไร นี่คืองานที่คุณกำลังฝึกให้โมเดลดำเนินการ อินพุตไปยังโมเดลจะเป็นลำดับของอักขระ และคุณฝึกโมเดลเพื่อคาดการณ์เอาต์พุต ซึ่งเป็นอักขระต่อไปนี้ในแต่ละขั้นตอนของเวลา

เนื่องจาก RNN รักษาสถานะภายในที่ขึ้นอยู่กับองค์ประกอบที่เห็นก่อนหน้านี้ เมื่อพิจารณาจากอักขระทั้งหมดที่คำนวณมาจนถึงขณะนี้ อักขระตัวต่อไปคืออะไร

สร้างตัวอย่างและเป้าหมายการฝึกอบรม

ถัดไปแบ่งข้อความเป็นลำดับตัวอย่าง ลำดับการป้อนข้อมูลแต่ละคนจะมี seq_length ตัวละครจากข้อความ

สำหรับแต่ละลำดับอินพุต เป้าหมายที่เกี่ยวข้องจะมีความยาวข้อความเท่ากัน ยกเว้นการเลื่อนอักขระหนึ่งตัวไปทางขวา

ดังนั้นทำลายข้อความลงในชิ้น seq_length+1 1 ตัวอย่างเช่นสมมติว่า seq_length คือ 4 และข้อความของเราคือ "ฮัลโหล" ลำดับอินพุตจะเป็น "นรก" และลำดับเป้าหมาย "ello"

การทำเช่นนี้ใช้งานครั้งแรก tf.data.Dataset.from_tensor_slices ทำงานการแปลงเวกเตอร์ข้อความเข้าสู่กระแสของดัชนีตัวอักษร

all_ids = ids_from_chars(tf.strings.unicode_split(text, 'UTF-8'))
all_ids
<tf.Tensor: shape=(1115394,), dtype=int64, numpy=array([19, 48, 57, ..., 46,  9,  1])>
ids_dataset = tf.data.Dataset.from_tensor_slices(all_ids)
for ids in ids_dataset.take(10):
    print(chars_from_ids(ids).numpy().decode('utf-8'))
F
i
r
s
t
 
C
i
t
i
seq_length = 100
examples_per_epoch = len(text)//(seq_length+1)

batch วิธีช่วยให้คุณสามารถแปลงตัวบุคคลเหล่านี้เพื่อลำดับของขนาดที่ต้องการ

sequences = ids_dataset.batch(seq_length+1, drop_remainder=True)

for seq in sequences.take(1):
  print(chars_from_ids(seq))
tf.Tensor(
[b'F' b'i' b'r' b's' b't' b' ' b'C' b'i' b't' b'i' b'z' b'e' b'n' b':'
 b'\n' b'B' b'e' b'f' b'o' b'r' b'e' b' ' b'w' b'e' b' ' b'p' b'r' b'o'
 b'c' b'e' b'e' b'd' b' ' b'a' b'n' b'y' b' ' b'f' b'u' b'r' b't' b'h'
 b'e' b'r' b',' b' ' b'h' b'e' b'a' b'r' b' ' b'm' b'e' b' ' b's' b'p'
 b'e' b'a' b'k' b'.' b'\n' b'\n' b'A' b'l' b'l' b':' b'\n' b'S' b'p' b'e'
 b'a' b'k' b',' b' ' b's' b'p' b'e' b'a' b'k' b'.' b'\n' b'\n' b'F' b'i'
 b'r' b's' b't' b' ' b'C' b'i' b't' b'i' b'z' b'e' b'n' b':' b'\n' b'Y'
 b'o' b'u' b' '], shape=(101,), dtype=string)
2022-01-14 12:12:45.336250: W tensorflow/core/data/root_dataset.cc:200] Optimization loop failed: CANCELLED: Operation was cancelled

ง่ายกว่าที่จะเห็นว่าสิ่งนี้กำลังทำอะไรอยู่ หากคุณรวมโทเค็นกลับเป็นสตริง:

for seq in sequences.take(5):
  print(text_from_ids(seq).numpy())
b'First Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou '
b'are all resolved rather to die than to famish?\n\nAll:\nResolved. resolved.\n\nFirst Citizen:\nFirst, you k'
b"now Caius Marcius is chief enemy to the people.\n\nAll:\nWe know't, we know't.\n\nFirst Citizen:\nLet us ki"
b"ll him, and we'll have corn at our own price.\nIs't a verdict?\n\nAll:\nNo more talking on't; let it be d"
b'one: away, away!\n\nSecond Citizen:\nOne word, good citizens.\n\nFirst Citizen:\nWe are accounted poor citi'

สำหรับการฝึกอบรมคุณจะต้องชุดของ (input, label) คู่ ในกรณีที่ input และ label เป็นลำดับ ในแต่ละขั้นตอน อินพุตคืออักขระปัจจุบัน และป้ายกำกับคืออักขระถัดไป

ต่อไปนี้คือฟังก์ชันที่ใช้ลำดับเป็นอินพุต ทำซ้ำ และเลื่อนเพื่อจัดแนวอินพุตและป้ายกำกับสำหรับแต่ละขั้นตอนของเวลา:

def split_input_target(sequence):
    input_text = sequence[:-1]
    target_text = sequence[1:]
    return input_text, target_text
split_input_target(list("Tensorflow"))
(['T', 'e', 'n', 's', 'o', 'r', 'f', 'l', 'o'],
 ['e', 'n', 's', 'o', 'r', 'f', 'l', 'o', 'w'])
dataset = sequences.map(split_input_target)
for input_example, target_example in dataset.take(1):
    print("Input :", text_from_ids(input_example).numpy())
    print("Target:", text_from_ids(target_example).numpy())
Input : b'First Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou'
Target: b'irst Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou '

สร้างชุดการฝึก

คุณใช้ tf.data การแยกข้อความลงในลำดับที่สามารถจัดการ แต่ก่อนที่จะป้อนข้อมูลนี้ลงในแบบจำลอง คุณต้องสับเปลี่ยนข้อมูลและแพ็คเป็นแบทช์

# Batch size
BATCH_SIZE = 64

# Buffer size to shuffle the dataset
# (TF data is designed to work with possibly infinite sequences,
# so it doesn't attempt to shuffle the entire sequence in memory. Instead,
# it maintains a buffer in which it shuffles elements).
BUFFER_SIZE = 10000

dataset = (
    dataset
    .shuffle(BUFFER_SIZE)
    .batch(BATCH_SIZE, drop_remainder=True)
    .prefetch(tf.data.experimental.AUTOTUNE))

dataset
<PrefetchDataset element_spec=(TensorSpec(shape=(64, 100), dtype=tf.int64, name=None), TensorSpec(shape=(64, 100), dtype=tf.int64, name=None))>

สร้างแบบจำลอง

ในส่วนนี้จะกำหนดรูปแบบเป็น keras.Model subclass (สำหรับรายละเอียดดู สร้างเลเยอร์ใหม่และรุ่นผ่าน subclassing )

โมเดลนี้มีสามชั้น:

  • tf.keras.layers.Embedding : ชั้นอินพุต ตารางการค้นหาสุวินัยที่จะ map ตัวละครแต่ละตัว-ID เวกเตอร์กับ embedding_dim มิติ
  • tf.keras.layers.GRU : ประเภทของ RNN มีขนาด units=rnn_units (คุณยังสามารถใช้ชั้น LSTM ที่นี่.)
  • tf.keras.layers.Dense : ชั้นเอาท์พุทมี vocab_size เอาท์พุท มันส่งออกหนึ่ง logit สำหรับอักขระแต่ละตัวในคำศัพท์ นี่คือโอกาสที่บันทึกของอักขระแต่ละตัวตามแบบจำลอง
# Length of the vocabulary in chars
vocab_size = len(vocab)

# The embedding dimension
embedding_dim = 256

# Number of RNN units
rnn_units = 1024
class MyModel(tf.keras.Model):
  def __init__(self, vocab_size, embedding_dim, rnn_units):
    super().__init__(self)
    self.embedding = tf.keras.layers.Embedding(vocab_size, embedding_dim)
    self.gru = tf.keras.layers.GRU(rnn_units,
                                   return_sequences=True,
                                   return_state=True)
    self.dense = tf.keras.layers.Dense(vocab_size)

  def call(self, inputs, states=None, return_state=False, training=False):
    x = inputs
    x = self.embedding(x, training=training)
    if states is None:
      states = self.gru.get_initial_state(x)
    x, states = self.gru(x, initial_state=states, training=training)
    x = self.dense(x, training=training)

    if return_state:
      return x, states
    else:
      return x
model = MyModel(
    # Be sure the vocabulary size matches the `StringLookup` layers.
    vocab_size=len(ids_from_chars.get_vocabulary()),
    embedding_dim=embedding_dim,
    rnn_units=rnn_units)

สำหรับอักขระแต่ละตัว โมเดลจะค้นหาการฝัง รัน GRU หนึ่งขั้นตอนด้วยการฝังเป็นอินพุต และใช้เลเยอร์หนาแน่นเพื่อสร้างบันทึกที่คาดการณ์ความเป็นไปได้ของบันทึกของอักขระถัดไป:

รูปวาดของข้อมูลที่ส่งผ่านโมเดล

ลองรุ่น

ตอนนี้รันโมเดลเพื่อดูว่ามันทำงานตามที่คาดไว้

ตรวจสอบรูปร่างของผลลัพธ์ก่อน:

for input_example_batch, target_example_batch in dataset.take(1):
    example_batch_predictions = model(input_example_batch)
    print(example_batch_predictions.shape, "# (batch_size, sequence_length, vocab_size)")
(64, 100, 66) # (batch_size, sequence_length, vocab_size)

ในตัวอย่างข้างต้นความยาวลำดับของการเข้าเป็น 100 แต่รูปแบบที่สามารถทำงานบนปัจจัยการผลิตยาว ๆ :

model.summary()
Model: "my_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 embedding (Embedding)       multiple                  16896     
                                                                 
 gru (GRU)                   multiple                  3938304   
                                                                 
 dense (Dense)               multiple                  67650     
                                                                 
=================================================================
Total params: 4,022,850
Trainable params: 4,022,850
Non-trainable params: 0
_________________________________________________________________

ในการรับการคาดการณ์จริงจากแบบจำลอง คุณต้องสุ่มตัวอย่างจากการกระจายเอาต์พุต เพื่อรับดัชนีอักขระจริง การกระจายนี้ถูกกำหนดโดยบันทึกเหนือคำศัพท์ของตัวละคร

ลองใช้ตัวอย่างแรกในชุดงาน:

sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
sampled_indices = tf.squeeze(sampled_indices, axis=-1).numpy()

สิ่งนี้ทำให้เราคาดการณ์ดัชนีอักขระตัวต่อไปในแต่ละช่วงเวลา:

sampled_indices
array([ 3, 64, 58, 50, 52, 54,  5, 65, 44, 52, 11, 17, 16, 22, 62, 14, 19,
       26, 63,  2, 39, 19, 21, 14, 39, 46, 26, 53,  4, 16, 49, 43, 15, 53,
       31, 45,  2,  9, 43, 53,  6,  0, 43, 30, 24,  2, 35, 22, 23,  3, 17,
       15, 10, 30, 42, 48, 22,  1, 27, 52, 36, 51, 51, 43, 65, 39, 43, 38,
       39,  0,  2, 56, 49, 48, 31, 42, 51, 48,  7, 24, 33, 56, 58, 31, 51,
       61, 59, 61,  3, 65, 44, 14, 34, 30, 44, 27, 47, 18, 42, 15])

ถอดรหัสสิ่งเหล่านี้เพื่อดูข้อความที่คาดการณ์โดยโมเดลที่ไม่ได้รับการฝึกฝนนี้:

print("Input:\n", text_from_ids(input_example_batch[0]).numpy())
print()
print("Next Char Predictions:\n", text_from_ids(sampled_indices).numpy())
Input:
 b'genet.\nEdward for Edward pays a dying debt.\n\nQUEEN ELIZABETH:\nWilt thou, O God, fly from such gentle'

Next Char Predictions:
 b"!yskmo&zem:DCIwAFMx ZFHAZgMn$CjdBnRf .dn'[UNK]dQK VIJ!DB3QciI\nNmWlldzZdYZ[UNK] qjiRcli,KTqsRlvtv!zeAUQeNhEcB"

ฝึกโมเดล

ณ จุดนี้ ปัญหาสามารถถือเป็นปัญหาการจำแนกประเภทมาตรฐานได้ กำหนดสถานะ RNN ก่อนหน้า และอินพุตของขั้นตอนนี้ ทำนายคลาสของอักขระถัดไป

แนบเครื่องมือเพิ่มประสิทธิภาพและฟังก์ชันการสูญเสีย

มาตรฐาน tf.keras.losses.sparse_categorical_crossentropy ฟังก์ชั่นการสูญเสียการทำงานในกรณีนี้เพราะมันถูกนำไปใช้ทั่วมิติสุดท้ายของการคาดการณ์

เพราะรูปแบบของคุณส่งกลับ logits คุณจะต้องตั้งค่า from_logits ธง

loss = tf.losses.SparseCategoricalCrossentropy(from_logits=True)
example_batch_loss = loss(target_example_batch, example_batch_predictions)
mean_loss = example_batch_loss.numpy().mean()
print("Prediction shape: ", example_batch_predictions.shape, " # (batch_size, sequence_length, vocab_size)")
print("Mean loss:        ", mean_loss)
Prediction shape:  (64, 100, 66)  # (batch_size, sequence_length, vocab_size)
Mean loss:         4.1900826

โมเดลที่เริ่มต้นใหม่ไม่ควรมั่นใจในตัวเองเกินไป บันทึกเอาต์พุตทั้งหมดควรมีขนาดใกล้เคียงกัน เพื่อยืนยันสิ่งนี้ คุณสามารถตรวจสอบได้ว่าเลขชี้กำลังของค่าเฉลี่ยการสูญเสียนั้นประมาณเท่ากับขนาดของคำศัพท์ การสูญเสียที่สูงขึ้นมากหมายความว่าแบบจำลองมั่นใจว่าคำตอบที่ผิดและเริ่มต้นได้ไม่ดี:

tf.exp(mean_loss).numpy()
66.028244

กำหนดค่าขั้นตอนการฝึกอบรมโดยใช้ tf.keras.Model.compile วิธี ใช้ tf.keras.optimizers.Adam มีข้อโต้แย้งค่าเริ่มต้นและฟังก์ชั่นการสูญเสีย

model.compile(optimizer='adam', loss=loss)

กำหนดค่าจุดตรวจ

ใช้ tf.keras.callbacks.ModelCheckpoint เพื่อให้มั่นใจว่าด่านจะถูกบันทึกไว้ในระหว่างการฝึก:

# Directory where the checkpoints will be saved
checkpoint_dir = './training_checkpoints'
# Name of the checkpoint files
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_{epoch}")

checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_prefix,
    save_weights_only=True)

ดำเนินการฝึกอบรม

เพื่อให้เวลาการฝึกอบรมเหมาะสม ให้ใช้ 10 ยุคเพื่อฝึกแบบจำลอง ใน Colab ให้ตั้งค่ารันไทม์เป็น GPU เพื่อการฝึกที่เร็วขึ้น

EPOCHS = 20
history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])
Epoch 1/20
172/172 [==============================] - 7s 25ms/step - loss: 2.7056
Epoch 2/20
172/172 [==============================] - 5s 24ms/step - loss: 1.9838
Epoch 3/20
172/172 [==============================] - 5s 24ms/step - loss: 1.7074
Epoch 4/20
172/172 [==============================] - 5s 24ms/step - loss: 1.5489
Epoch 5/20
172/172 [==============================] - 5s 24ms/step - loss: 1.4498
Epoch 6/20
172/172 [==============================] - 5s 24ms/step - loss: 1.3825
Epoch 7/20
172/172 [==============================] - 5s 24ms/step - loss: 1.3300
Epoch 8/20
172/172 [==============================] - 5s 24ms/step - loss: 1.2846
Epoch 9/20
172/172 [==============================] - 5s 24ms/step - loss: 1.2441
Epoch 10/20
172/172 [==============================] - 5s 24ms/step - loss: 1.2030
Epoch 11/20
172/172 [==============================] - 5s 24ms/step - loss: 1.1641
Epoch 12/20
172/172 [==============================] - 5s 24ms/step - loss: 1.1223
Epoch 13/20
172/172 [==============================] - 6s 24ms/step - loss: 1.0786
Epoch 14/20
172/172 [==============================] - 5s 24ms/step - loss: 1.0316
Epoch 15/20
172/172 [==============================] - 6s 24ms/step - loss: 0.9826
Epoch 16/20
172/172 [==============================] - 5s 24ms/step - loss: 0.9326
Epoch 17/20
172/172 [==============================] - 5s 24ms/step - loss: 0.8790
Epoch 18/20
172/172 [==============================] - 5s 24ms/step - loss: 0.8260
Epoch 19/20
172/172 [==============================] - 5s 24ms/step - loss: 0.7759
Epoch 20/20
172/172 [==============================] - 5s 24ms/step - loss: 0.7256

สร้างข้อความ

วิธีที่ง่ายที่สุดในการสร้างข้อความด้วยโมเดลนี้คือรันในลูป และติดตามสถานะภายในของโมเดลในขณะที่คุณดำเนินการ

ในการสร้างข้อความเอาต์พุตของโมเดลจะถูกป้อนกลับไปยังอินพุต

ทุกครั้งที่คุณเรียกใช้โมเดล คุณจะส่งผ่านข้อความและสถานะภายใน โมเดลจะส่งกลับการทำนายสำหรับตัวละครตัวถัดไปและสถานะใหม่ ส่งการคาดคะเนและสถานะกลับเข้าไปเพื่อสร้างข้อความต่อไป

ต่อไปนี้ทำให้การทำนายขั้นตอนเดียว:

class OneStep(tf.keras.Model):
  def __init__(self, model, chars_from_ids, ids_from_chars, temperature=1.0):
    super().__init__()
    self.temperature = temperature
    self.model = model
    self.chars_from_ids = chars_from_ids
    self.ids_from_chars = ids_from_chars

    # Create a mask to prevent "[UNK]" from being generated.
    skip_ids = self.ids_from_chars(['[UNK]'])[:, None]
    sparse_mask = tf.SparseTensor(
        # Put a -inf at each bad index.
        values=[-float('inf')]*len(skip_ids),
        indices=skip_ids,
        # Match the shape to the vocabulary
        dense_shape=[len(ids_from_chars.get_vocabulary())])
    self.prediction_mask = tf.sparse.to_dense(sparse_mask)

  @tf.function
  def generate_one_step(self, inputs, states=None):
    # Convert strings to token IDs.
    input_chars = tf.strings.unicode_split(inputs, 'UTF-8')
    input_ids = self.ids_from_chars(input_chars).to_tensor()

    # Run the model.
    # predicted_logits.shape is [batch, char, next_char_logits]
    predicted_logits, states = self.model(inputs=input_ids, states=states,
                                          return_state=True)
    # Only use the last prediction.
    predicted_logits = predicted_logits[:, -1, :]
    predicted_logits = predicted_logits/self.temperature
    # Apply the prediction mask: prevent "[UNK]" from being generated.
    predicted_logits = predicted_logits + self.prediction_mask

    # Sample the output logits to generate token IDs.
    predicted_ids = tf.random.categorical(predicted_logits, num_samples=1)
    predicted_ids = tf.squeeze(predicted_ids, axis=-1)

    # Convert from token ids to characters
    predicted_chars = self.chars_from_ids(predicted_ids)

    # Return the characters and model state.
    return predicted_chars, states
one_step_model = OneStep(model, chars_from_ids, ids_from_chars)

เรียกใช้ในลูปเพื่อสร้างข้อความ เมื่อดูข้อความที่สร้างขึ้น คุณจะเห็นนางแบบรู้ว่าเมื่อใดควรใช้ตัวพิมพ์ใหญ่ สร้างย่อหน้า และเลียนแบบคำศัพท์การเขียนที่เหมือนของเช็คสเปียร์ ด้วยยุคการฝึกอบรมจำนวนน้อย ยังไม่มีการเรียนรู้ที่จะสร้างประโยคที่สอดคล้องกัน

start = time.time()
states = None
next_char = tf.constant(['ROMEO:'])
result = [next_char]

for n in range(1000):
  next_char, states = one_step_model.generate_one_step(next_char, states=states)
  result.append(next_char)

result = tf.strings.join(result)
end = time.time()
print(result[0].numpy().decode('utf-8'), '\n\n' + '_'*80)
print('\nRun time:', end - start)
ROMEO:
But I do lose his land, and get a summer ruin.

SICINIUS:
That's your beave.

BIONDELLO:
Ha? Rucher that dost thou art again to provide,
In thy right injurious princely number.
Dear resembrance at this Antium, York as a man
That 'leven your steel pedlars mounted.
Sad, he hath privilege with the causer.

NORTHUMBERLAND:
The lords o'clock my sovereign slay;
You say do so young master. Come, let's go
Avoid with brittle fifteen years; therefore I wail, for he
is your before, sir, I will deep thing and rich my steal father.
Then, till he be that must be done: Henry, such a peast,
Our doings were free,' quoth he that Clifford say so himself.
If I be here to make thee jardon, 'milis,
And cannot but better wed this withded; but,
I'll pawn the platts, to France Henry's forward come?

BENVOLIO:
Twice one defend,
Or wail not be; this last of endless creatures
We may title out above to due, a feast.

Tailor:
Such a more mortal to your death
Taking this forward injury, that did, but hears
Bearing  

________________________________________________________________________________

Run time: 2.630192518234253

สิ่งที่ง่ายที่สุดที่คุณสามารถทำได้เพื่อปรับปรุงผลคือการฝึกอบรมมันอีกต่อไป (ลอง EPOCHS = 30 )

คุณยังสามารถทดลองกับสตริงเริ่มต้นอื่น ลองเพิ่มเลเยอร์ RNN อื่นเพื่อปรับปรุงความแม่นยำของโมเดล หรือปรับพารามิเตอร์อุณหภูมิเพื่อสร้างการคาดคะเนแบบสุ่มมากหรือน้อย

หากคุณต้องการรูปแบบในการสร้างข้อความเร็วขึ้นสิ่งที่ง่ายที่สุดที่คุณสามารถทำได้คือชุดรุ่นข้อความ ในตัวอย่างด้านล่าง โมเดลสร้าง 5 เอาต์พุตในเวลาใกล้เคียงกันเพื่อสร้าง 1 ด้านบน

start = time.time()
states = None
next_char = tf.constant(['ROMEO:', 'ROMEO:', 'ROMEO:', 'ROMEO:', 'ROMEO:'])
result = [next_char]

for n in range(1000):
  next_char, states = one_step_model.generate_one_step(next_char, states=states)
  result.append(next_char)

result = tf.strings.join(result)
end = time.time()
print(result, '\n\n' + '_'*80)
print('\nRun time:', end - start)
tf.Tensor(
[b"ROMEO:\nThe Duke of Norfolk, when ang low-hingded is a\ndangerous tongue; thou hast never in our tale\n'side, and talk of wine and me. Leave me, and\nI wish thy breathing: he hath had no poison\nMust call Edward's faces, and that sends the roan drowning tears.\nThe sum our lovers bride, or bid me speak.\n\nBUCKINGHAM:\nWelcome, great bring our contents.\n\nCAMILLO:\nThe kings of Coriolanus!\n\nVOLUMNIA:\nAnd, by a dish, sort words in person.\n\nBRUTUS:\nGo ask.\n\nMARIANA:\nThen with a grains what thine eyes say\nWill you done free speech lies?\n\nLADY CAPULET:\nI know not what to be proud?\nFow, I do bit speak a worthy feast; but tweit me\nForbid-hearken more deeds do that presently to't in no\nmore mad off, what a subjected\nregion and the devil serve my name world's dead,\nAnd till the portier rare my brows, not with this fable,\nnurse, for he is come to swear and spee himself and France:\nClarence hath all postery of the marriage\nBoth have but a rather.\n\nDUKE VINCENTIO:\nYou have lats in the charm? the two brittle gale\n"
 b"ROMEO:\nThey are but foolish tox, that you rogues!\n\nARCHIDAMUS:\nWell, why lie yon ege you for that name; for forward of the father\nWoeed out me in the invited suffer: if\nThe Volsces have by me with twenty thousand men?\nBut he, my lord, with honourable forfeit,\nWhich ebbles your partiest, will do you\nTo make the measure of a weal Lord Hastings;\nI will not judger in Bohemia.\n\nCOMINIUS:\nGo, be gone, let's he for her success.\n\nMIRANDA:\nYou have told something only poored?\nWhere then Ramentione hath wrong'd himself.\n\nKING RICHARD III:\nHe was not may be, do not bellay. Here comest thou not:\nWhat a medler sticks your daughter and my slave,\nAs if thy words may talk for love, thy knee\nCitsand in't, for fair lady's husband,\nTo entail yield Lohe Becomes your bosom's side;\ncannot hold out alone. Farewell: my swift is several tone,\nThat rests more cause to go walk by to her hearing a trabe,\nOr ever eished him that walk'd you, whiles he yields\nSmiles as easy ansien and be true.\n\nDUCHESS OF YORK:\nAll men, I"
 b"ROMEO:\nBut rather we have eved the ground\nbelieve thee, horse! what has left in the city butchers.\n\nDUKE VINCENTIO:\nA goddess helprous Derby, and yet no parley, complet\nThe valiant part Campish. Tell me, mark I commine\nYour changet over-little.\n\nPOMPEY:\nI would fail sir, and here I leave you, sir.\n\nVINCENTIO:\nLet a mark to-morrow to be ta'en true; be gone.\n\nShepherd:\nNo, he doth no daughter to part.\n\nPAULINA:\nWhere is my lord Ged breed!\nO go, no visage, and fear:\nYou are school'd, methinks, and finds enough.\nWhat, are you heep? when valiant Bilond, owe hour,\nSince presently the lording jewels each part\nThe honour's emilia. A scurcely, which are\nthey are, which Hasby Buckingham deposed?\n\nRome:\nAy, to thy child is frame of death,\nBut death to part of satisffiting.\n\nNORTHUMBERLAND:\nNay, but sad, I'ld not be so troop;\nShow me them speak. This way, let's hand thy pride.\n\nHENRY BOLINGBROKE:\nHe did, my ladying and dig friend,\nNor to thy heart were god, that I have seen in\ntwenty humours live. For j"
 b"ROMEO:\nThe mayor alieas! no senses of spleen,\nWhile I am come to Padua and gallows Claudio; we is there\nA shimble witness to this father's death\n'seep lusty to Covents, alive,\nSend by the father bear themselves; for I am law,\nAnd there not mine is no other beauteous days!\n\nJOHN OF GAUNT:\nO, but O, the account I would content\na boain-to bed; there as good news will it purge;\nFor then the unstable's accept of teet, and aged\nThan one but follow'd that he did the house\nto make a papse tread on to dispatch his power to bid\nOf the tribunes of ut my sweet revolting.\n\nVOLUMNIA:\nMy husband come I heard you as from an\nangry and a father before him\nTo be so boundly, as affairs\nShall rest by back from grief and fortune shall be talk.\n\nGLOUCESTER:\nLook, horse! Viseria feet us on the child,\nVerily, and tell him heap of brief.\nFor I woo'll so it is.\n\nPOMPEY:\nBut can you not forgot your hends are pack'd?\n\nBIONDELLO:\nO, what a spenat lay be born ta'll fim,\nHave a burthen and a second Kate of France,\nAnd call"
 b"ROMEO:\nBut I do defend my lotgern any in the county.\n\nJULIET:\nI would the duke way dog! This vullain and all his\nfriends, nature bids thy pinish whom, by, boshing rewards.\nCome, my Lord Northumberland.\n\nPRINCE EDWARD:\nWatch this follows many more than this! O ho!\n\nNORFOLK:\nSpurs, praise I seal of trial. Hadst thou wilt amender:\nGood Poase and thy voice indeeds as year.\n\nKING RICHARD III:\nAnd do, my lord. Lord Angelo, have I pronound\nMy swinter saust and jegla.\n\nPRINCE:\nLet's fit how thy peace hath been bring me to my life.\nBut now I am a lover and that grace to her tears.\nAh, for like deep dead, and I then live.\nAlack, he'll prove you the king's side,\nI poison, think you, on what a fed afford a hearted faults\nAs I else hand of secret.\n\nLODSE:\nStopp'd in such a slanderous coward!\n\nDUCHESS OF YORK:\nGive me my boon, I'll rust, but that I did for the\nnoble priest let mall in Coriol whipping news,\nSwarn hurts in every purged further;\nLooks wink,--for shame, this lark doth among these wars,\nHis ac"], shape=(5,), dtype=string) 

________________________________________________________________________________

Run time: 2.452502489089966

ส่งออกเครื่องกำเนิดไฟฟ้า

รูปแบบขั้นตอนเดียวนี้สามารถ บันทึกและเรียกคืน ช่วยให้คุณสามารถใช้งานได้ทุกที่ tf.saved_model เป็นที่ยอมรับ

tf.saved_model.save(one_step_model, 'one_step')
one_step_reloaded = tf.saved_model.load('one_step')
WARNING:tensorflow:Skipping full serialization of Keras layer <__main__.OneStep object at 0x7f2dec122490>, because it is not built.
2022-01-14 12:14:46.156693: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.
WARNING:absl:Found untraced functions such as gru_cell_layer_call_fn, gru_cell_layer_call_and_return_conditional_losses while saving (showing 2 of 2). These functions will not be directly callable after loading.
INFO:tensorflow:Assets written to: one_step/assets
INFO:tensorflow:Assets written to: one_step/assets
states = None
next_char = tf.constant(['ROMEO:'])
result = [next_char]

for n in range(100):
  next_char, states = one_step_reloaded.generate_one_step(next_char, states=states)
  result.append(next_char)

print(tf.strings.join(result)[0].numpy().decode("utf-8"))
ROMEO:
Why dost thou dissemble.

BRUTUS:
But, O, prite, hath becall'd it;
And so, have patience:
'Tis like

ขั้นสูง: การฝึกอบรมที่กำหนดเอง

ขั้นตอนการฝึกอบรมข้างต้นนั้นเรียบง่าย แต่ไม่ได้ให้การควบคุมมากนัก มันใช้การบังคับของครูซึ่งป้องกันไม่ให้การคาดคะเนที่ไม่ดีถูกส่งกลับไปยังแบบจำลอง ดังนั้นแบบจำลองจะไม่เรียนรู้ที่จะกู้คืนจากความผิดพลาด

ตอนนี้คุณได้เห็นวิธีการรันโมเดลด้วยตนเองแล้ว ต่อไปคุณจะต้องใช้ลูปการฝึก นี้จะช่วยให้จุดเริ่มต้นตัวอย่างเช่นถ้าคุณต้องการที่จะใช้การเรียนรู้หลักสูตรที่จะช่วยสร้างความมั่นคงเอาท์พุทวงเปิดรูปแบบของ

ส่วนที่สำคัญที่สุดของลูปการฝึกแบบกำหนดเองคือฟังก์ชันสเต็ปของรถไฟ

ใช้ tf.GradientTape เพื่อติดตามไล่ระดับสี คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการนี้โดยการอ่าน คู่มือการดำเนินการกระตือรือร้น

ขั้นตอนพื้นฐานคือ:

  1. ดำเนินการรูปแบบและการคำนวณการสูญเสียภายใต้ tf.GradientTape
  2. คำนวณการอัปเดตและนำไปใช้กับโมเดลโดยใช้เครื่องมือเพิ่มประสิทธิภาพ
class CustomTraining(MyModel):
  @tf.function
  def train_step(self, inputs):
      inputs, labels = inputs
      with tf.GradientTape() as tape:
          predictions = self(inputs, training=True)
          loss = self.loss(labels, predictions)
      grads = tape.gradient(loss, model.trainable_variables)
      self.optimizer.apply_gradients(zip(grads, model.trainable_variables))

      return {'loss': loss}

การดำเนินการดังกล่าวข้างต้นของ train_step วิธีการดังต่อไปนี้ Keras' train_step ประชุม นี้เป็นตัวเลือก แต่มันช่วยให้คุณสามารถเปลี่ยนพฤติกรรมของขั้นตอนที่รถไฟและยังคงใช้ keras' Model.compile และ Model.fit วิธี

model = CustomTraining(
    vocab_size=len(ids_from_chars.get_vocabulary()),
    embedding_dim=embedding_dim,
    rnn_units=rnn_units)
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True))
model.fit(dataset, epochs=1)
172/172 [==============================] - 7s 24ms/step - loss: 2.6896
<keras.callbacks.History at 0x7f2d98313ed0>

หรือหากคุณต้องการการควบคุมเพิ่มเติม คุณสามารถเขียนลูปการฝึกแบบกำหนดเองที่สมบูรณ์ได้:

EPOCHS = 10

mean = tf.metrics.Mean()

for epoch in range(EPOCHS):
    start = time.time()

    mean.reset_states()
    for (batch_n, (inp, target)) in enumerate(dataset):
        logs = model.train_step([inp, target])
        mean.update_state(logs['loss'])

        if batch_n % 50 == 0:
            template = f"Epoch {epoch+1} Batch {batch_n} Loss {logs['loss']:.4f}"
            print(template)

    # saving (checkpoint) the model every 5 epochs
    if (epoch + 1) % 5 == 0:
        model.save_weights(checkpoint_prefix.format(epoch=epoch))

    print()
    print(f'Epoch {epoch+1} Loss: {mean.result().numpy():.4f}')
    print(f'Time taken for 1 epoch {time.time() - start:.2f} sec')
    print("_"*80)

model.save_weights(checkpoint_prefix.format(epoch=epoch))
Epoch 1 Batch 0 Loss 2.1657
Epoch 1 Batch 50 Loss 2.0466
Epoch 1 Batch 100 Loss 1.9395
Epoch 1 Batch 150 Loss 1.8729

Epoch 1 Loss: 1.9635
Time taken for 1 epoch 6.03 sec
________________________________________________________________________________
Epoch 2 Batch 0 Loss 1.7759
Epoch 2 Batch 50 Loss 1.7126
Epoch 2 Batch 100 Loss 1.6657
Epoch 2 Batch 150 Loss 1.6516

Epoch 2 Loss: 1.6907
Time taken for 1 epoch 5.30 sec
________________________________________________________________________________
Epoch 3 Batch 0 Loss 1.5436
Epoch 3 Batch 50 Loss 1.5582
Epoch 3 Batch 100 Loss 1.5763
Epoch 3 Batch 150 Loss 1.5273

Epoch 3 Loss: 1.5359
Time taken for 1 epoch 5.21 sec
________________________________________________________________________________
Epoch 4 Batch 0 Loss 1.4566
Epoch 4 Batch 50 Loss 1.4341
Epoch 4 Batch 100 Loss 1.4065
Epoch 4 Batch 150 Loss 1.4215

Epoch 4 Loss: 1.4411
Time taken for 1 epoch 5.17 sec
________________________________________________________________________________
Epoch 5 Batch 0 Loss 1.3676
Epoch 5 Batch 50 Loss 1.3668
Epoch 5 Batch 100 Loss 1.3656
Epoch 5 Batch 150 Loss 1.3548

Epoch 5 Loss: 1.3761
Time taken for 1 epoch 5.42 sec
________________________________________________________________________________
Epoch 6 Batch 0 Loss 1.2972
Epoch 6 Batch 50 Loss 1.3501
Epoch 6 Batch 100 Loss 1.3261
Epoch 6 Batch 150 Loss 1.3215

Epoch 6 Loss: 1.3257
Time taken for 1 epoch 5.31 sec
________________________________________________________________________________
Epoch 7 Batch 0 Loss 1.2677
Epoch 7 Batch 50 Loss 1.2358
Epoch 7 Batch 100 Loss 1.2528
Epoch 7 Batch 150 Loss 1.2749

Epoch 7 Loss: 1.2818
Time taken for 1 epoch 5.46 sec
________________________________________________________________________________
Epoch 8 Batch 0 Loss 1.2007
Epoch 8 Batch 50 Loss 1.2336
Epoch 8 Batch 100 Loss 1.2466
Epoch 8 Batch 150 Loss 1.2282

Epoch 8 Loss: 1.2404
Time taken for 1 epoch 5.28 sec
________________________________________________________________________________
Epoch 9 Batch 0 Loss 1.1911
Epoch 9 Batch 50 Loss 1.1818
Epoch 9 Batch 100 Loss 1.1954
Epoch 9 Batch 150 Loss 1.2156

Epoch 9 Loss: 1.2019
Time taken for 1 epoch 5.27 sec
________________________________________________________________________________
Epoch 10 Batch 0 Loss 1.1061
Epoch 10 Batch 50 Loss 1.1386
Epoch 10 Batch 100 Loss 1.1444
Epoch 10 Batch 150 Loss 1.1587

Epoch 10 Loss: 1.1627
Time taken for 1 epoch 5.58 sec
________________________________________________________________________________