TensorFlow Hub での画像分類

この colab では、TensorFlow Hub からの複数の画像分類モデルを試して、ユースケースに最適なものを決定します。

TF Hub は画像で操作するモデルの一貫性のある入力変換 を推奨するため、ニーズに最適なものを見つけるためにさまざまなアーキテクチャで簡単に実験できます。

TensorFlow.org で表示 Google Colab で実行 GitHub でソースを表示 ノートブックをダウンロード TF Hub モデルを参照
import tensorflow as tf
import tensorflow_hub as hub

import requests
from PIL import Image
from io import BytesIO

import matplotlib.pyplot as plt
import numpy as np
2024-01-11 18:53:01.153599: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-01-11 18:53:01.153640: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-01-11 18:53:01.155225: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered

Helper functions for loading image (hidden)

画像分類モデルを選択します。その後、内部変数がいくつか設定され、ラベルファイルがダウンロードされ、使用するために準備されます。

異なる入力サイズ、モデルサイズ、精度、推論時間など、モデル間には技術的な違いがいくつかあります。ここでは、ユースケースに最適なものが見つかるまで、使用しているモデルを変更できます。

参考までに、モデルのハンドル (url) を表示しました。各モデルについての詳細な資料はハンドルで入手できます。

注: すべてのこれらのモデルは ImageNet データセットでトレーニングされました

Select an Image Classification model

Selected model: efficientnetv2-s : https://tfhub.dev/google/imagenet/efficientnet_v2_imagenet1k_s/classification/2
Images will be converted to 384x384

以下の画像のいずれかを選択するか、独自の画像を使用できます。モデルの入力サイズはさまざまで、ダイナミックな入力サイズ(スケールされていない画像の推論を可能にします)を使用するものもあることを覚えておいてください。そのため、メソッド load_image は画像サイズをすでに必要なフォーマットに調整しています。

Select an Input Image

png

モデルが選択されたため、TensorFlow Hub への読み込みは簡単です。

同様に、これはランダムな入力を持つモデルを「ウォームアップ」実行として呼び出します。後続の呼び出しは多くの場合より高速になります。これを以下のレイテンシと比較することができます。

注: ダイナミックなサイズを使用するモデルは、画像サイズごとにフレッシュな「ウォームアップ」実行を必要とする場合があります。

classifier = hub.load(model_handle)

input_shape = image.shape
warmup_input = tf.random.uniform(input_shape, 0, 1.0)
%time warmup_logits = classifier(warmup_input).numpy()
CPU times: user 2.84 s, sys: 181 ms, total: 3.02 s
Wall time: 3.08 s

推論のための準備ができました。ここに選択した画像モデルからの結果上位 5 件があります。

# Run model on image
%time probabilities = tf.nn.softmax(classifier(image)).numpy()

top_5 = tf.argsort(probabilities, axis=-1, direction="DESCENDING")[0][:5].numpy()
np_classes = np.array(classes)

# Some models include an additional 'background' class in the predictions, so
# we must account for this when reading the class labels.
includes_background_class = probabilities.shape[1] == 1001

for i, item in enumerate(top_5):
  class_index = item if includes_background_class else item + 1
  line = f'({i+1}) {class_index:4} - {classes[class_index]}: {probabilities[0][top_5][i]}'
  print(line)

show_image(image, '')
CPU times: user 16.1 ms, sys: 4.03 ms, total: 20.1 ms
Wall time: 19.9 ms
(1)   35 - blowing glass: 0.7747844457626343
(2)   34 - blowing bubble gum: 0.10644064843654633
(3)   37 - blowing nose: 0.005874691065400839
(4)  148 - drinking shots: 0.002594528254121542
(5)   36 - blowing leaves: 0.002559840679168701

png

詳細情報

これらのモデルを使用した転移学習の詳細情報と使用方法については、こちらのチュートリアル、画像分類のための転移学習をお試しください。

画像モデルの詳細については、tfhub.dev でご確認ください。