import numpy as np
import tensorflow as tf
from tensorflow import keras
- 以前にトレーニングされたモデルからレイヤーを取得します。
- 以降のトレーニングラウンドでそれらのレイヤーに含まれる情報が破損しないように凍結します。
- 凍結したレイヤーの上にトレーニング対象のレイヤーを新たに追加します。これらのレイヤーは古い特徴量を新しいデータセットの予測に変換することを学習します。
- データセットで新しいレイヤーをトレーニングします。
まずは、転移学習とファインチューニングのほとんどのワークフローの基礎である、Keras の trainable
API について詳しく見てみましょう。
次に、一般的なワークフローを説明します。ImageNet データセットで事前にトレーニングされたモデルを取得してそれを Kaggle の「犬と猫」分類データセットで再トレーニングしてみましょう。
これは、Deep Learning with Python および 2016 年のブログ記事「少ないデータで強力な画像分類モデルを構築する」を基にしています。
レイヤーの凍結: trainable
レイヤーとモデルには 3 つの重み属性があります。
例: Dense
レイヤーに、トレーニング対象の重みが 2 つ(カーネルとバイアス)がある
layer = keras.layers.Dense(3)
layer.build((None, 4)) # Create the weights
print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 2 trainable_weights: 2 non_trainable_weights: 0
例: BatchNormalization
レイヤーに 、トレーニング対象の重みとトレーニング対象外の重みが 2 つずつある
layer = keras.layers.BatchNormalization()
layer.build((None, 4)) # Create the weights
print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 4 trainable_weights: 2 non_trainable_weights: 2
レイヤーとモデルには、ブール属性の trainable
を False
例: trainable
を False
layer = keras.layers.Dense(3)
layer.build((None, 4)) # Create the weights
layer.trainable = False # Freeze the layer
print("weights:", len(layer.weights))
print("trainable_weights:", len(layer.trainable_weights))
print("non_trainable_weights:", len(layer.non_trainable_weights))
weights: 2 trainable_weights: 0 non_trainable_weights: 2
# Make a model with 2 layers
layer1 = keras.layers.Dense(3, activation="relu")
layer2 = keras.layers.Dense(3, activation="sigmoid")
model = keras.Sequential([keras.Input(shape=(3,)), layer1, layer2])
# Freeze the first layer
layer1.trainable = False
# Keep a copy of the weights of layer1 for later reference
initial_layer1_weights_values = layer1.get_weights()
# Train the model
model.compile(optimizer="adam", loss="mse")
model.fit(np.random.random((2, 3)), np.random.random((2, 3)))
# Check that the weights of layer1 have not changed during training
final_layer1_weights_values = layer1.get_weights()
initial_layer1_weights_values[0], final_layer1_weights_values[0]
initial_layer1_weights_values[1], final_layer1_weights_values[1]
1/1 [==============================] - 1s 990ms/step - loss: 0.0501
属性を layer.__call__()
の引数 training
と混同しないようにしてください(後者は、レイヤーがフォワードパスを推論モードで実行するか、トレーニングモードで実行するかを制御します)。詳細については、Keras よくある質問をご覧ください。
モデルや、サブレイヤーのあるレイヤーで trainable = False
inner_model = keras.Sequential(
keras.layers.Dense(3, activation="relu"),
keras.layers.Dense(3, activation="relu"),
model = keras.Sequential(
[keras.Input(shape=(3,)), inner_model, keras.layers.Dense(3, activation="sigmoid"),]
model.trainable = False # Freeze the outer model
assert inner_model.trainable == False # All layers in `model` are now frozen
assert inner_model.layers[0].trainable == False # `trainable` is propagated recursively
ここでは、典型的な転移学習のワークフローを Keras に実装する方法を示します。
- ベースモデルをインスタンス化し、それに事前トレーニング済みの重みを読み込みます。
trainable = False
を設定して、ベースモデルのすべてのレイヤーを凍結します。- ベースモデルの 1 つ以上のレイヤーの出力上に新しいモデルを作成します。
- 新しいデータセットで新しいモデルをトレーニングします。
- ベースモデルをインスタンス化し、それに事前トレーニング済みの重みを読み込みます。
- 新しいデータセットを実行して、ベースモデルの 1 つ以上のレイヤーの出力を記録します。特徴量抽出と呼ばれる作業です。
- その出力を新しい小さなモデルの入力データとして使用します。
この 2 番目のワークフローには、トレーニングのエポックごとに 1 回ではなく、データに対して 1 回だけベースモデルを実行するため、はるかに高速で安価になるというメリットがあります。
ただし、トレーニング中に新しいモデルの入力データを動的に変更することができないという問題があります。これはデータを拡張する際などに必要なことです。転移学習は通常、フルスケールでモデルを新規にトレーニングするには新しいデータセットのデータ量が少なすぎる場合に使用しますが、そのような場合、データの拡張が非常に重要になります。そこで以降では、1 番目のワークフローに焦点を当てます。
1 番目のワークフローは、Keras では以下のようになります。
base_model = keras.applications.Xception(
weights='imagenet', # Load weights pre-trained on ImageNet.
input_shape=(150, 150, 3),
include_top=False) # Do not include the ImageNet classifier at the top.
base_model.trainable = False
inputs = keras.Input(shape=(150, 150, 3))
# We make sure that the base_model is running in inference mode here,
# by passing `training=False`. This is important for fine-tuning, as you will
# learn in a few paragraphs.
x = base_model(inputs, training=False)
# Convert features of shape `base_model.output_shape[1:]` to vectors
x = keras.layers.GlobalAveragePooling2D()(x)
# A Dense classifier with a single unit (binary classification)
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)
model.fit(new_dataset, epochs=20, callbacks=..., validation_data=...)
また、この段階では学習率が非常に低いことも重要です。1 回目のトレーニングよりもはるかに大きなモデルを、非常に小さなデータセットでトレーニングするからです。その結果、大量の重みの更新を適用すると、あっという間に過適合が起きてしまう危険性があります。ここでは、事前トレーニング済みの重みを段階的に適応し直します。
# Unfreeze the base model
base_model.trainable = True
# It's important to recompile your model after you make any changes
# to the `trainable` attribute of any inner layer, so that your changes
# are take into account
model.compile(optimizer=keras.optimizers.Adam(1e-5), # Very low learning rate
# Train end-to-end. Be careful to stop before you overfit!
model.fit(new_dataset, epochs=10, callbacks=..., validation_data=...)
および trainable
モデルで compile()
を呼び出すと、そのモデルの動作が「凍結」されます。これは、モデルがコンパイルされたときの trainable
の値を変更した場合には、その内容が考慮されるように必ずモデルでもう一度 compile()
多くの画像モデルには BatchNormalization
には、トレーニング中に更新されるトレーニング対象外の重みが 2 つ含まれています。これらは入力の平均と分散を追跡する変数です。bn_layer.trainable = False
レイヤーは推論モードで実行されるため、その平均と分散の統計は更新されません。重みのトレーナビリティと推論/トレーニングモードは 2 つの直交する概念であるため、これは一般的には他のレイヤーには当てはまりませんが、BatchNormalization
レイヤーの場合は、この 2 つは関連しています。- ファインチューニングを行うために
レイヤーを含むモデルを解凍する場合、ベースモデルを呼び出す際にtraining = False
# Create base model
base_model = keras.applications.Xception(
input_shape=(150, 150, 3),
# Freeze base model
base_model.trainable = False
# Create new model on top.
inputs = keras.Input(shape=(150, 150, 3))
x = base_model(inputs, training=False)
x = keras.layers.GlobalAveragePooling2D()(x)
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)
loss_fn = keras.losses.BinaryCrossentropy(from_logits=True)
optimizer = keras.optimizers.Adam()
# Iterate over the batches of a dataset.
for inputs, targets in new_dataset:
# Open a GradientTape.
with tf.GradientTape() as tape:
# Forward pass.
predictions = model(inputs)
# Compute the loss value for this batch.
loss_value = loss_fn(targets, predictions)
# Get gradients of loss wrt the *trainable* weights.
gradients = tape.gradient(loss_value, model.trainable_weights)
# Update the weights of the model.
optimizer.apply_gradients(zip(gradients, model.trainable_weights))
エンドツーエンドの例: 猫と犬データセットの画像分類モデルのファインチューニング
この概念を固めるために、具体的なエンドツーエンドの転移学習とファインチューニングの例を見てみましょう。ImageNet で事前トレーニングされた Xception モデルを読み込み、Kaggleの 「犬と猫」分類データセットで使用します。
まず、TFDS を使用して犬と猫のデータセットを取得してみましょう。独自のデータセットをお持ちの場合は、tf.keras.preprocessing.image_dataset_from_directory
転移学習は、非常に小さなデータセットを扱う場合に最も有用です。データセットを小さく保つために、元のトレーニングデータ(画像 25,000 枚)の 40 %をトレーニングに、10 %を検証に、10 %をテストに使用します。
import tensorflow_datasets as tfds
train_ds, validation_ds, test_ds = tfds.load(
# Reserve 10% for validation and 10% for test
split=["train[:40%]", "train[40%:50%]", "train[50%:60%]"],
as_supervised=True, # Include labels
print("Number of training samples: %d" % tf.data.experimental.cardinality(train_ds))
"Number of validation samples: %d" % tf.data.experimental.cardinality(validation_ds)
print("Number of test samples: %d" % tf.data.experimental.cardinality(test_ds))
Number of training samples: 9305 Number of validation samples: 2326 Number of test samples: 2326
ここにトレーニングデータセットの最初の 9 枚の画像があります。ご覧の通り、サイズはバラバラです。
import matplotlib.pyplot as plt
plt.figure(figsize=(10, 10))
for i, (image, label) in enumerate(train_ds.take(9)):
ax = plt.subplot(3, 3, i + 1)
また、ラベル 1 が「犬」、ラベル 0 が「猫」であることもわかります。
生の画像には様々なサイズがあります。さらに、各ピクセルは 0 ~ 255 の 3 つの整数値(RGB レベル値)で構成されています。これは、ニューラルネットワークへの供給には適しません。次の 2 つを行う必要があります。
- 標準化して画像サイズを固定します。 150x150 を選択します。
- ピクセル値を -1 〜 1 に正規化します。これはモデル自体の一部として
画像を 150×150 にリサイズしてみましょう。
size = (150, 150)
train_ds = train_ds.map(lambda x, y: (tf.image.resize(x, size), y))
validation_ds = validation_ds.map(lambda x, y: (tf.image.resize(x, size), y))
test_ds = test_ds.map(lambda x, y: (tf.image.resize(x, size), y))
batch_size = 32
train_ds = train_ds.cache().batch(batch_size).prefetch(buffer_size=10)
validation_ds = validation_ds.cache().batch(batch_size).prefetch(buffer_size=10)
test_ds = test_ds.cache().batch(batch_size).prefetch(buffer_size=10)
from tensorflow import keras
from tensorflow.keras import layers
data_augmentation = keras.Sequential(
[layers.RandomFlip("horizontal"), layers.RandomRotation(0.1),]
import numpy as np
for images, labels in train_ds.take(1):
plt.figure(figsize=(10, 10))
first_image = images[0]
for i in range(9):
ax = plt.subplot(3, 3, i + 1)
augmented_image = data_augmentation(
tf.expand_dims(first_image, 0), training=True
レイヤーを追加して、入力値(最初の範囲は[0, 255]
)を[-1, 1]
の範囲にスケーリングします。- 正則化のために、分類レイヤーの前に
レイヤーを追加します。 - ベースモデルを呼び出す際に
を渡して推論モードで動作するようにし、ファインチューニングを実行するためにベースモデルを解凍した後でも BatchNorm の統計が更新されないようにします。
base_model = keras.applications.Xception(
weights="imagenet", # Load weights pre-trained on ImageNet.
input_shape=(150, 150, 3),
) # Do not include the ImageNet classifier at the top.
# Freeze the base_model
base_model.trainable = False
# Create new model on top
inputs = keras.Input(shape=(150, 150, 3))
x = data_augmentation(inputs) # Apply random data augmentation
# Pre-trained Xception weights requires that input be scaled
# from (0, 255) to a range of (-1., +1.), the rescaling layer
# outputs: `(inputs * scale) + offset`
scale_layer = keras.layers.Rescaling(scale=1 / 127.5, offset=-1)
x = scale_layer(x)
# The base model contains batchnorm layers. We want to keep them in inference mode
# when we unfreeze the base model for fine-tuning, so we make sure that the
# base_model is running in inference mode here.
x = base_model(x, training=False)
x = keras.layers.GlobalAveragePooling2D()(x)
x = keras.layers.Dropout(0.2)(x) # Regularize with dropout
outputs = keras.layers.Dense(1)(x)
model = keras.Model(inputs, outputs)
Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/xception/xception_weights_tf_dim_ordering_tf_kernels_notop.h5 83683744/83683744 [==============================] - 0s 0us/step
Model: "model" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_5 (InputLayer) [(None, 150, 150, 3)] 0 sequential_3 (Sequential) (None, 150, 150, 3) 0 rescaling (Rescaling) (None, 150, 150, 3) 0 xception (Functional) (None, 5, 5, 2048) 20861480 global_average_pooling2d (G (None, 2048) 0 lobalAveragePooling2D) dropout (Dropout) (None, 2048) 0 dense_7 (Dense) (None, 1) 2049 ================================================================= Total params: 20,863,529 Trainable params: 2,049 Non-trainable params: 20,861,480 _________________________________________________________________
epochs = 20
model.fit(train_ds, epochs=epochs, validation_data=validation_ds)
重要なのは、モデル構築時の呼び出しで training=False
# Unfreeze the base_model. Note that it keeps running in inference mode
# since we passed `training=False` when calling it. This means that
# the batchnorm layers will not update their batch statistics.
# This prevents the batchnorm layers from undoing all the training
# we've done so far.
base_model.trainable = True
optimizer=keras.optimizers.Adam(1e-5), # Low learning rate
epochs = 10
model.fit(train_ds, epochs=epochs, validation_data=validation_ds)
Model: "model" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= input_5 (InputLayer) [(None, 150, 150, 3)] 0 sequential_3 (Sequential) (None, 150, 150, 3) 0 rescaling (Rescaling) (None, 150, 150, 3) 0 xception (Functional) (None, 5, 5, 2048) 20861480 global_average_pooling2d (G (None, 2048) 0 lobalAveragePooling2D) dropout (Dropout) (None, 2048) 0 dense_7 (Dense) (None, 1) 2049 ================================================================= Total params: 20,863,529 Trainable params: 20,809,001 Non-trainable params: 54,528 _________________________________________________________________ Epoch 1/10
291/291 [==============================] - 79s 191ms/step - loss: 0.0844 - binary_accuracy: 0.9654 - val_loss: 0.0488 - val_binary_accuracy: 0.9815 Epoch 2/10 291/291 [==============================] - 55s 188ms/step - loss: 0.0542 - binary_accuracy: 0.9790 - val_loss: 0.0466 - val_binary_accuracy: 0.9789 Epoch 3/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0398 - binary_accuracy: 0.9855 - val_loss: 0.0484 - val_binary_accuracy: 0.9819 Epoch 4/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0343 - binary_accuracy: 0.9871 - val_loss: 0.0548 - val_binary_accuracy: 0.9802 Epoch 5/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0238 - binary_accuracy: 0.9916 - val_loss: 0.0556 - val_binary_accuracy: 0.9802 Epoch 6/10 291/291 [==============================] - 54s 186ms/step - loss: 0.0203 - binary_accuracy: 0.9929 - val_loss: 0.0516 - val_binary_accuracy: 0.9811 Epoch 7/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0135 - binary_accuracy: 0.9955 - val_loss: 0.0535 - val_binary_accuracy: 0.9841 Epoch 8/10 291/291 [==============================] - 55s 187ms/step - loss: 0.0118 - binary_accuracy: 0.9958 - val_loss: 0.0583 - val_binary_accuracy: 0.9841 Epoch 9/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0118 - binary_accuracy: 0.9959 - val_loss: 0.0612 - val_binary_accuracy: 0.9845 Epoch 10/10 291/291 [==============================] - 54s 187ms/step - loss: 0.0118 - binary_accuracy: 0.9958 - val_loss: 0.0770 - val_binary_accuracy: 0.9802 <keras.callbacks.History at 0x7efe74567610>