Trả lời cho sự kiện TensorFlow Everywhere tại địa phương của bạn ngay hôm nay!
Trang này được dịch bởi Cloud Translation API.
Switch to English

Đào tạo tùy chỉnh với tf.distribute.Strategy

Xem trên TensorFlow.org Chạy trong Google Colab Xem nguồn trên GitHub Tải xuống sổ tay

Hướng dẫn này trình bày cách sử dụng tf.distribute.Strategy với các vòng huấn luyện tùy chỉnh. Chúng tôi sẽ đào tạo một mô hình CNN đơn giản trên tập dữ liệu MNIST thời trang. Tập dữ liệu MNIST thời trang chứa 60000 hình ảnh đoàn tàu có kích thước 28 x 28 và 10000 hình ảnh thử nghiệm có kích thước 28 x 28.

Chúng tôi đang sử dụng các vòng huấn luyện tùy chỉnh để đào tạo mô hình của mình vì chúng mang lại cho chúng tôi sự linh hoạt và khả năng kiểm soát tốt hơn trong việc đào tạo. Hơn nữa, việc gỡ lỗi mô hình và vòng lặp đào tạo trở nên dễ dàng hơn.

# Import TensorFlow
import tensorflow as tf

# Helper libraries
import numpy as np
import os

print(tf.__version__)
2.3.0

Tải xuống tập dữ liệu MNIST thời trang

fashion_mnist = tf.keras.datasets.fashion_mnist

(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

# Adding a dimension to the array -> new shape == (28, 28, 1)
# We are doing this because the first layer in our model is a convolutional
# layer and it requires a 4D input (batch_size, height, width, channels).
# batch_size dimension will be added later on.
train_images = train_images[..., None]
test_images = test_images[..., None]

# Getting the images in [0, 1] range.
train_images = train_images / np.float32(255)
test_images = test_images / np.float32(255)
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
32768/29515 [=================================] - 0s 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
26427392/26421880 [==============================] - 1s 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
8192/5148 [===============================================] - 0s 0us/step
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
4423680/4422102 [==============================] - 1s 0us/step

Tạo chiến lược để phân phối các biến và biểu đồ

Chiến lược tf.distribute.MirroredStrategy hoạt động như thế nào?

  • Tất cả các biến và đồ thị mô hình được sao chép trên các bản sao.
  • Đầu vào được phân bổ đồng đều trên các bản sao.
  • Mỗi bản sao sẽ tính toán tổn thất và độ dốc cho đầu vào mà nó nhận được.
  • Các gradient được đồng bộ hóa trên tất cả các bản sao bằng cách tính tổng chúng.
  • Sau khi đồng bộ, cập nhật tương tự được thực hiện cho các bản sao của các biến trên mỗi bản sao.
# If the list of devices is not specified in the
# `tf.distribute.MirroredStrategy` constructor, it will be auto-detected.
strategy = tf.distribute.MirroredStrategy()
INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)

print ('Number of devices: {}'.format(strategy.num_replicas_in_sync))
Number of devices: 1

Thiết lập đường dẫn đầu vào

Xuất biểu đồ và các biến sang định dạng SavedModel bất khả tri nền tảng. Sau khi mô hình của bạn được lưu, bạn có thể tải nó có hoặc không có phạm vi.

BUFFER_SIZE = len(train_images)

BATCH_SIZE_PER_REPLICA = 64
GLOBAL_BATCH_SIZE = BATCH_SIZE_PER_REPLICA * strategy.num_replicas_in_sync

EPOCHS = 10

Tạo tập dữ liệu và phân phối chúng:

train_dataset = tf.data.Dataset.from_tensor_slices((train_images, train_labels)).shuffle(BUFFER_SIZE).batch(GLOBAL_BATCH_SIZE) 
test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE) 

train_dist_dataset = strategy.experimental_distribute_dataset(train_dataset)
test_dist_dataset = strategy.experimental_distribute_dataset(test_dataset)

Tạo mô hình

Tạo một mô hình bằng tf.keras.Sequential . Bạn cũng có thể sử dụng API phân lớp mô hình để thực hiện việc này.

def create_model():
  model = tf.keras.Sequential([
      tf.keras.layers.Conv2D(32, 3, activation='relu'),
      tf.keras.layers.MaxPooling2D(),
      tf.keras.layers.Conv2D(64, 3, activation='relu'),
      tf.keras.layers.MaxPooling2D(),
      tf.keras.layers.Flatten(),
      tf.keras.layers.Dense(64, activation='relu'),
      tf.keras.layers.Dense(10)
    ])

  return model
# Create a checkpoint directory to store the checkpoints.
checkpoint_dir = './training_checkpoints'
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")

Xác định hàm mất mát

Thông thường, trên một máy duy nhất có 1 GPU / CPU, tổn thất được chia cho số lượng ví dụ trong lô đầu vào.

Vì vậy, tổn thất nên được tính như thế nào khi sử dụng tf.distribute.Strategy ?

  • Ví dụ: giả sử bạn có 4 GPU và kích thước lô là 64. Một lô đầu vào được phân phối trên các bản sao (4 GPU), mỗi bản sao nhận được đầu vào có kích thước 16.

  • Mô hình trên mỗi bản sao thực hiện chuyển tiếp với đầu vào tương ứng và tính toán tổn thất. Bây giờ, thay vì chia tổn thất cho số lượng ví dụ trong đầu vào tương ứng (BATCH_SIZE_PER_REPLICA = 16), tổn thất nên được chia cho GLOBAL_BATCH_SIZE (64).

Tại sao làm điều này?

  • Điều này cần được thực hiện bởi vì sau khi các độ dốc được tính toán trên mỗi bản sao, chúng sẽ được đồng bộ hóa trên các bản sao bằng cách tổng hợp chúng.

Làm thế nào để làm điều này trong TensorFlow?

  • Nếu bạn đang viết một vòng lặp đào tạo tùy chỉnh, như trong hướng dẫn này, bạn nên tính tổng số lỗ theo ví dụ và chia tổng cho GLOBAL_BATCH_SIZE: scale_loss = tf.reduce_sum(loss) * (1. / GLOBAL_BATCH_SIZE) hoặc bạn có thể sử dụng tf.nn.compute_average_loss lấy tổn thất trên mỗi ví dụ, trọng số mẫu tùy chọn và GLOBAL_BATCH_SIZE làm đối số và trả về tổn thất theo tỷ lệ.

  • Nếu bạn đang sử dụng tổn thất chính quy trong mô hình của mình thì bạn cần chia tỷ lệ giá trị tổn thất theo số lượng bản sao. Bạn có thể thực hiện việc này bằng cách sử dụng hàm tf.nn.scale_regularization_loss .

  • Sử dụng tf.reduce_mean không được khuyến khích. Làm như vậy chia tổn thất theo kích thước thực tế của mỗi lô bản sao, có thể thay đổi theo từng bước.

  • Việc giảm và chia tỷ lệ này được thực hiện tự động trong keras model.compilemodel.fit

  • Nếu sử dụng các lớptf.keras.losses (như trong ví dụ bên dưới), mức giảm tổn thất cần được chỉ định rõ ràng là một trong các NONE hoặc SUM . AUTOSUM_OVER_BATCH_SIZE không được phép khi sử dụng với tf.distribute.Strategy . AUTO không được phép vì người dùng nên suy nghĩ rõ ràng về việc họ muốn giảm mức độ nào để đảm bảo nó là chính xác trong trường hợp phân tán. SUM_OVER_BATCH_SIZE không được phép vì hiện tại nó sẽ chỉ chia cho mỗi kích thước lô bản sao và để lại phép chia theo số lượng bản sao cho người dùng, điều này có thể dễ bỏ sót. Vì vậy, thay vào đó, chúng tôi yêu cầu người dùng tự giảm một cách rõ ràng.

  • Nếu labels là nhiều chiều, thì tính trung bình per_example_loss trên số lượng phần tử trong mỗi mẫu. Ví dụ, nếu hình dạng của predictions(batch_size, H, W, n_classes)labels(batch_size, H, W) , bạn sẽ cần phải cập nhật per_example_loss như: per_example_loss /= tf.cast(tf.reduce_prod(tf.shape(labels)[1:]), tf.float32)

with strategy.scope():
  # Set reduction to `none` so we can do the reduction afterwards and divide by
  # global batch size.
  loss_object = tf.keras.losses.SparseCategoricalCrossentropy(
      from_logits=True,
      reduction=tf.keras.losses.Reduction.NONE)
  def compute_loss(labels, predictions):
    per_example_loss = loss_object(labels, predictions)
    return tf.nn.compute_average_loss(per_example_loss, global_batch_size=GLOBAL_BATCH_SIZE)

Xác định các chỉ số để theo dõi tổn thất và độ chính xác

Các số liệu này theo dõi sự mất mát của thử nghiệm và đào tạo và độ chính xác của thử nghiệm. Bạn có thể sử dụng .result() để lấy số liệu thống kê tích lũy bất kỳ lúc nào.

with strategy.scope():
  test_loss = tf.keras.metrics.Mean(name='test_loss')

  train_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
      name='train_accuracy')
  test_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
      name='test_accuracy')

Vòng lặp đào tạo

# model, optimizer, and checkpoint must be created under `strategy.scope`.
with strategy.scope():
  model = create_model()

  optimizer = tf.keras.optimizers.Adam()

  checkpoint = tf.train.Checkpoint(optimizer=optimizer, model=model)
def train_step(inputs):
  images, labels = inputs

  with tf.GradientTape() as tape:
    predictions = model(images, training=True)
    loss = compute_loss(labels, predictions)

  gradients = tape.gradient(loss, model.trainable_variables)
  optimizer.apply_gradients(zip(gradients, model.trainable_variables))

  train_accuracy.update_state(labels, predictions)
  return loss 

def test_step(inputs):
  images, labels = inputs

  predictions = model(images, training=False)
  t_loss = loss_object(labels, predictions)

  test_loss.update_state(t_loss)
  test_accuracy.update_state(labels, predictions)
# `run` replicates the provided computation and runs it
# with the distributed input.
@tf.function
def distributed_train_step(dataset_inputs):
  per_replica_losses = strategy.run(train_step, args=(dataset_inputs,))
  return strategy.reduce(tf.distribute.ReduceOp.SUM, per_replica_losses,
                         axis=None)

@tf.function
def distributed_test_step(dataset_inputs):
  return strategy.run(test_step, args=(dataset_inputs,))

for epoch in range(EPOCHS):
  # TRAIN LOOP
  total_loss = 0.0
  num_batches = 0
  for x in train_dist_dataset:
    total_loss += distributed_train_step(x)
    num_batches += 1
  train_loss = total_loss / num_batches

  # TEST LOOP
  for x in test_dist_dataset:
    distributed_test_step(x)

  if epoch % 2 == 0:
    checkpoint.save(checkpoint_prefix)

  template = ("Epoch {}, Loss: {}, Accuracy: {}, Test Loss: {}, "
              "Test Accuracy: {}")
  print (template.format(epoch+1, train_loss,
                         train_accuracy.result()*100, test_loss.result(),
                         test_accuracy.result()*100))

  test_loss.reset_states()
  train_accuracy.reset_states()
  test_accuracy.reset_states()
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/data/ops/multi_device_iterator_ops.py:601: get_next_as_optional (from tensorflow.python.data.ops.iterator_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use `tf.data.Iterator.get_next_as_optional()` instead.
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
Epoch 1, Loss: 0.50295090675354, Accuracy: 82.1116714477539, Test Loss: 0.3852590322494507, Test Accuracy: 86.5999984741211
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
INFO:tensorflow:Reduce to /job:localhost/replica:0/task:0/device:CPU:0 then broadcast to ('/job:localhost/replica:0/task:0/device:CPU:0',).
Epoch 2, Loss: 0.32958829402923584, Accuracy: 88.20333862304688, Test Loss: 0.3391425311565399, Test Accuracy: 87.6500015258789
Epoch 3, Loss: 0.2872008979320526, Accuracy: 89.57167053222656, Test Loss: 0.2974696457386017, Test Accuracy: 89.31000518798828
Epoch 4, Loss: 0.255713552236557, Accuracy: 90.58499908447266, Test Loss: 0.2988712787628174, Test Accuracy: 89.31999969482422
Epoch 5, Loss: 0.23122134804725647, Accuracy: 91.41667175292969, Test Loss: 0.27742496132850647, Test Accuracy: 89.99000549316406
Epoch 6, Loss: 0.212575763463974, Accuracy: 92.17333221435547, Test Loss: 0.2573488652706146, Test Accuracy: 90.75
Epoch 7, Loss: 0.1963273137807846, Accuracy: 92.77166748046875, Test Loss: 0.2587501108646393, Test Accuracy: 90.66000366210938
Epoch 8, Loss: 0.1779220998287201, Accuracy: 93.46666717529297, Test Loss: 0.267805814743042, Test Accuracy: 90.55999755859375
Epoch 9, Loss: 0.16410504281520844, Accuracy: 93.91333770751953, Test Loss: 0.25632956624031067, Test Accuracy: 91.00999450683594
Epoch 10, Loss: 0.14829590916633606, Accuracy: 94.47833251953125, Test Loss: 0.25820475816726685, Test Accuracy: 91.00999450683594

Những điều cần lưu ý trong ví dụ trên:

Khôi phục điểm kiểm tra và kiểm tra mới nhất

Một mô hình được kiểm tra bằng tf.distribute.Strategy có thể được khôi phục có hoặc không có chiến lược.

eval_accuracy = tf.keras.metrics.SparseCategoricalAccuracy(
      name='eval_accuracy')

new_model = create_model()
new_optimizer = tf.keras.optimizers.Adam()

test_dataset = tf.data.Dataset.from_tensor_slices((test_images, test_labels)).batch(GLOBAL_BATCH_SIZE)
@tf.function
def eval_step(images, labels):
  predictions = new_model(images, training=False)
  eval_accuracy(labels, predictions)
checkpoint = tf.train.Checkpoint(optimizer=new_optimizer, model=new_model)
checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir))

for images, labels in test_dataset:
  eval_step(images, labels)

print ('Accuracy after restoring the saved model without strategy: {}'.format(
    eval_accuracy.result()*100))
Accuracy after restoring the saved model without strategy: 91.00999450683594

Các cách thay thế để lặp qua tập dữ liệu

Sử dụng trình lặp

Nếu bạn muốn lặp lại một số bước nhất định mà không phải qua toàn bộ tập dữ liệu, bạn có thể tạo một trình vòng lặp bằng cách sử dụng lệnh gọi iter và lệnh gọi iter next trên trình vòng lặp. Bạn có thể chọn lặp lại tập dữ liệu cả bên trong và bên ngoài chức năng tf. Đây là một đoạn mã nhỏ thể hiện sự lặp lại của tập dữ liệu bên ngoài chức năng tf. bằng cách sử dụng một trình vòng lặp.

for _ in range(EPOCHS):
  total_loss = 0.0
  num_batches = 0
  train_iter = iter(train_dist_dataset)

  for _ in range(10):
    total_loss += distributed_train_step(next(train_iter))
    num_batches += 1
  average_train_loss = total_loss / num_batches

  template = ("Epoch {}, Loss: {}, Accuracy: {}")
  print (template.format(epoch+1, average_train_loss, train_accuracy.result()*100))
  train_accuracy.reset_states()
Epoch 10, Loss: 0.12157603353261948, Accuracy: 95.0
Epoch 10, Loss: 0.1367541253566742, Accuracy: 94.6875
Epoch 10, Loss: 0.14902949333190918, Accuracy: 93.90625
Epoch 10, Loss: 0.12149540334939957, Accuracy: 95.625
Epoch 10, Loss: 0.13160167634487152, Accuracy: 94.6875
Epoch 10, Loss: 0.13297739624977112, Accuracy: 95.3125
Epoch 10, Loss: 0.16038034856319427, Accuracy: 94.53125
Epoch 10, Loss: 0.1035340279340744, Accuracy: 96.40625
Epoch 10, Loss: 0.11846740543842316, Accuracy: 95.625
Epoch 10, Loss: 0.09006750583648682, Accuracy: 96.71875

Lặp lại bên trong một chức năng tf.

Bạn cũng có thể lặp lại toàn bộ đầu vào train_dist_dataset bên trong một hàm tf. bằng cách sử dụng cấu trúc for x in ... hoặc bằng cách tạo các trình vòng lặp như chúng ta đã làm ở trên. Ví dụ dưới đây minh họa gói một kỷ nguyên huấn luyện trong một hàm tf. và lặp qua train_dist_dataset bên trong hàm.

@tf.function
def distributed_train_epoch(dataset):
  total_loss = 0.0
  num_batches = 0
  for x in dataset:
    per_replica_losses = strategy.run(train_step, args=(x,))
    total_loss += strategy.reduce(
      tf.distribute.ReduceOp.SUM, per_replica_losses, axis=None)
    num_batches += 1
  return total_loss / tf.cast(num_batches, dtype=tf.float32)

for epoch in range(EPOCHS):
  train_loss = distributed_train_epoch(train_dist_dataset)

  template = ("Epoch {}, Loss: {}, Accuracy: {}")
  print (template.format(epoch+1, train_loss, train_accuracy.result()*100))

  train_accuracy.reset_states()
Epoch 1, Loss: 0.13680464029312134, Accuracy: 94.90499877929688
Epoch 2, Loss: 0.12503673136234283, Accuracy: 95.33499908447266
Epoch 3, Loss: 0.11472766101360321, Accuracy: 95.71333312988281
Epoch 4, Loss: 0.10419528931379318, Accuracy: 96.13500213623047
Epoch 5, Loss: 0.09566374123096466, Accuracy: 96.44833374023438
Epoch 6, Loss: 0.08704081922769547, Accuracy: 96.82499694824219
Epoch 7, Loss: 0.08157625794410706, Accuracy: 96.96333312988281
Epoch 8, Loss: 0.07562965154647827, Accuracy: 97.11000061035156
Epoch 9, Loss: 0.0676642507314682, Accuracy: 97.47999572753906
Epoch 10, Loss: 0.06430575996637344, Accuracy: 97.58333587646484

Theo dõi mất đào tạo qua các bản sao

Chúng tôi khuyên bạn không nên sử dụng tf.metrics.Mean để theo dõi tổn thất đào tạo trên các bản sao khác nhau, vì tính toán tỷ lệ tổn thất được thực hiện.

Ví dụ: nếu bạn điều hành một công việc đào tạo với các đặc điểm sau:

  • Hai bản sao
  • Hai mẫu được xử lý trên mỗi bản sao
  • Giá trị mất mát kết quả: [2, 3] và [4, 5] trên mỗi bản sao
  • Kích thước lô toàn cầu = 4

Với chia tỷ lệ tổn thất, bạn tính toán giá trị tổn thất cho mỗi mẫu trên mỗi bản sao bằng cách cộng các giá trị tổn thất, sau đó chia cho kích thước lô toàn cầu. Trong trường hợp này: (2 + 3) / 4 = 1.25(4 + 5) / 4 = 2.25 .

Nếu bạn sử dụng tf.metrics.Mean để theo dõi tổn thất trên hai bản sao, kết quả là khác nhau. Trong ví dụ này, bạn có total là 3,50 và count là 2, dẫn đến total / count = 1,75 khi result() được gọi trên chỉ số. Tổn thất được tính toán bằng tf.keras.Metrics được chia tỷ lệ bằng một hệ số bổ sung bằng với số lượng bản sao đồng bộ.

Hướng dẫn và ví dụ

Dưới đây là một số ví dụ để sử dụng chiến lược phân phối với các vòng đào tạo tùy chỉnh:

  1. Hướng dẫn đào tạo phân tán
  2. Ví dụ về DenseNet sử dụng MirroredStrategy .
  3. Ví dụ BERT được đào tạo bằng MirroredStrategyTPUStrategy . Ví dụ này đặc biệt hữu ích để hiểu cách tải từ một điểm kiểm tra và tạo các điểm kiểm tra định kỳ trong quá trình đào tạo phân tán, v.v.
  4. Ví dụ về NCF được đào tạo bằng cách sử dụng MirroredStrategy có thể được bật bằng cờ keras_use_ctl .
  5. Ví dụ NMT được đào tạo bằng MirroredStrategy .

Các ví dụ khác được liệt kê trong Hướng dẫn chiến lược phân phối .

Bước tiếp theo

  • Hãy thử API tf.distribute.Strategy mới trên các mô hình của bạn.
  • Truy cập phần Hiệu suất trong hướng dẫn để tìm hiểu thêm về các chiến lược và công cụ khác mà bạn có thể sử dụng để tối ưu hóa hiệu suất của các mô hình TensorFlow của mình.