TensorFlow Hub オブジェクト検出 Colab へようこそ!このノートブックでは、「すぐに使える」画像用オブジェクト検出モデルを実行する手順を説明します。


このコレクションには、COCO 2017 データセットでトレーニングされた TF 2 オブジェクト検出モデルが含まれています。ここから、現在 tfhub.dev がホストしているすべてのオブジェクト検出モデルを見つけることができます。



# This Colab requires a recent numpy version.
pip install numpy==1.24.3
pip install protobuf==3.20.3
import os
import pathlib

import matplotlib
import matplotlib.pyplot as plt

import io
import scipy.misc
import numpy as np
from six import BytesIO
from PIL import Image, ImageDraw, ImageFont
from six.moves.urllib.request import urlopen

import tensorflow as tf
import tensorflow_hub as hub

  • 画像を読み込むためのヘルパーメソッド
  • モデル名から TF Hub ハンドルへのマップ
  • COCO 2017 データセットの人物のキーポイントを持つタプルの一覧。キーポイントを持つモデルに必要


適切に検出されたボックス、キーポイント、セグメンテーションで画像を視覚化するには、TensorFlow Object Detection API を使用します。リポジトリをクローンしてインストールします。

# Clone the tensorflow models repository
git clone --depth 1 https://github.com/tensorflow/models
オブジェクト検出 API をインストールします。

sudo apt install -y protobuf-compiler
cd models/research/
protoc object_detection/protos/*.proto --python_out=.
cp object_detection/packages/tf2/setup.py .
python -m pip install .
from object_detection.utils import label_map_util
from object_detection.utils import visualization_utils as viz_utils
from object_detection.utils import ops as utils_ops

%matplotlib inline


ラベルマップはインデックス番号とカテゴリ名に対応しているため、畳み込みネットワークが5を予測した場合、これは airplane に対応していることが分かります。ここでは内部のユーティリティ関数を使用していますが、適切な文字列ラベルに整数をマッピングしたディクショナリを返すものであれば何でも構いません。

ここでは簡単にするため、オブジェクト検出 API コードを読み込んだリポジトリから読み込みます。

PATH_TO_LABELS = './models/research/object_detection/data/mscoco_label_map.pbtxt'
category_index = label_map_util.create_category_index_from_labelmap(PATH_TO_LABELS, use_display_name=True)



ヒント: 選択したモデルの詳細については、リンク(モデルのハンドル)を辿り、TF Hub の追加ドキュメントを読むことができます。特定のモデルを選択した後で、ハンドルを出力すると簡単です。

Model Selection

Selected model:CenterNet HourGlass104 Keypoints 512x512
Model Handle at TensorFlow Hub: https://tfhub.dev/tensorflow/centernet/hourglass_512x512_kpts/1

選択したモデルを TensorFlow Hub から読み込む

ここで必要なのは選択されたモデルのハンドルのみで、Tensorflow Hub ライブラリを使用してメモリに読み込みます。

print('loading model...')
hub_model = hub.load(model_handle)
print('model loaded!')
loading model...
  • 独自の画像で推論を実行してみましょう。Colab にアップロードして以下のセルと同じ方法で読み込むだけです。
  • いくつかの入力画像を変更して、検出がまだ機能するかどうかを確認してみましょう。ここで簡単に試せるのは、画像を水平方向に反転させたり、グレースケールに変換(入力画像には 3 つのチャンネルがあることに注意してください)したりすることです。

注意: アルファチャンネルを持つ画像を使用する場合、モデルは 3 チャンネルの画像を想定しているため、アルファは 4 番目としてカウントされます。

Image Selection (don't forget to execute the cell!)



推論を行うには、TF Hub を搭載したモデルを呼び出す必要があります。


  • result['detection_boxes']をプリントアウトして、ボックスの位置を画像内のボックスに一致させます。座標は正規化された形で(すなわち、間隔 [0, 1] で)与えらることに注意してください。
  • 結果に含まれる他の出力キーを確認します。完全なドキュメントは、モデルのドキュメントページで見ることができます(ブラウザで上記でプリントアウトしたモデルハンドルをポイントします)。
# running inference
results = hub_model(image_np)

# different object detection models have additional results
# all of them are explained in the documentation
result = {key:value.numpy() for key,value in results.items()}
dict_keys(['detection_keypoints', 'num_detections', 'detection_scores', 'detection_classes', 'detection_boxes', 'detection_keypoint_scores'])


ここで TensorFlow オブジェクト検出 API を使用して、推論ステップの四角形(および可能な場合はキーポイント)を表示します。


ここでは、たとえば min_score_thresh をほかの値(0 と 1 の間)に設定して、より多くの検出を許可したり、より多くの検出をフィルターで除外したりすることができます。

label_id_offset = 0
image_np_with_detections = image_np.copy()

# Use keypoints if available in detections
keypoints, keypoint_scores = None, None
if 'detection_keypoints' in result:
  keypoints = result['detection_keypoints'][0]
  keypoint_scores = result['detection_keypoint_scores'][0]

      (result['detection_classes'][0] + label_id_offset).astype(int),




利用可能なオブジェクト検出モデルに Mask R-CNN というモデルがありますが、このモデルの出力ではインスタンスセグメンテーションが可能です。

これを可視化するためには、上記と同じメソッドを使用しますが、次の追加のパラメータを追加します。instance_masks=output_dict.get('detection_masks_reframed', None)

# Handle models with masks:
image_np_with_mask = image_np.copy()

if 'detection_masks' in result:
  # we need to convert np.arrays to tensors
  detection_masks = tf.convert_to_tensor(result['detection_masks'][0])
  detection_boxes = tf.convert_to_tensor(result['detection_boxes'][0])

  # Reframe the bbox mask to the image size.
  detection_masks_reframed = utils_ops.reframe_box_masks_to_image_masks(
            detection_masks, detection_boxes,
              image_np.shape[1], image_np.shape[2])
  detection_masks_reframed = tf.cast(detection_masks_reframed > 0.5,
  result['detection_masks_reframed'] = detection_masks_reframed.numpy()

      (result['detection_classes'][0] + label_id_offset).astype(int),
      instance_masks=result.get('detection_masks_reframed', None),

