MoveNet: Ultra szybki i dokładny model wykrywania pozy.

Zobacz na TensorFlow.org Uruchom w Google Colab Zobacz na GitHub Pobierz notatnik Zobacz modele piasty TF

MoveNet to ultra szybki i dokładny model, który wykrywa 17 keypoints o ciele. Model ten jest oferowany na TF Hub z dwóch wariantów, znanych jako piorun i grzmot. Lightning jest przeznaczony do aplikacji o krytycznym znaczeniu dla opóźnień, podczas gdy Thunder jest przeznaczony do aplikacji, które wymagają wysokiej dokładności. Oba modele działają szybciej niż w czasie rzeczywistym (30+ FPS) na większości nowoczesnych komputerów stacjonarnych, laptopów i telefonów, co ma kluczowe znaczenie dla aplikacji fitness na żywo, zdrowia i dobrego samopoczucia.

rysunek

* Obrazy pobrane z Pexels ( https://www.pexels.com/ )

Ten Colab przeprowadzi Cię przez szczegóły, jak załadować MoveNet i przeprowadzić wnioskowanie na obrazie wejściowym i wideo poniżej.

Szacowanie pozycji człowieka za pomocą MoveNet

Biblioteki wizualizacji i importy

pip install -q imageio
pip install -q opencv-python
pip install -q git+https://github.com/tensorflow/docs
import tensorflow as tf
import tensorflow_hub as hub
from tensorflow_docs.vis import embed
import numpy as np
import cv2

# Import matplotlib libraries
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
import matplotlib.patches as patches

# Some modules to display an animation using imageio.
import imageio
from IPython.display import HTML, display

Funkcje pomocnicze do wizualizacji

Załaduj model z piasty TF

model_name = "movenet_lightning"

if "tflite" in model_name:
 if "movenet_lightning_f16" in model_name:
  !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/lightning/tflite/float16/4?lite-format=tflite
  input_size = 192
 elif "movenet_thunder_f16" in model_name:
  !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/thunder/tflite/float16/4?lite-format=tflite
  input_size = 256
 elif "movenet_lightning_int8" in model_name:
  !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/lightning/tflite/int8/4?lite-format=tflite
  input_size = 192
 elif "movenet_thunder_int8" in model_name:
  !wget -q -O model.tflite https://tfhub.dev/google/lite-model/movenet/singlepose/thunder/tflite/int8/4?lite-format=tflite
  input_size = 256
 else:
  raise ValueError("Unsupported model name: %s" % model_name)

 # Initialize the TFLite interpreter
 interpreter = tf.lite.Interpreter(model_path="model.tflite")
 interpreter.allocate_tensors()

 def movenet(input_image):
  """Runs detection on an input image.

  Args:
   input_image: A [1, height, width, 3] tensor represents the input image
    pixels. Note that the height/width should already be resized and match the
    expected input resolution of the model before passing into this function.

  Returns:
   A [1, 1, 17, 3] float numpy array representing the predicted keypoint
   coordinates and scores.
  """
  # TF Lite format expects tensor type of uint8.
  input_image = tf.cast(input_image, dtype=tf.uint8)
  input_details = interpreter.get_input_details()
  output_details = interpreter.get_output_details()
  interpreter.set_tensor(input_details[0]['index'], input_image.numpy())
  # Invoke inference.
  interpreter.invoke()
  # Get the model prediction.
  keypoints_with_scores = interpreter.get_tensor(output_details[0]['index'])
  return keypoints_with_scores

else:
 if "movenet_lightning" in model_name:
  module = hub.load("https://tfhub.dev/google/movenet/singlepose/lightning/4")
  input_size = 192
 elif "movenet_thunder" in model_name:
  module = hub.load("https://tfhub.dev/google/movenet/singlepose/thunder/4")
  input_size = 256
 else:
  raise ValueError("Unsupported model name: %s" % model_name)

 def movenet(input_image):
  """Runs detection on an input image.

  Args:
   input_image: A [1, height, width, 3] tensor represents the input image
    pixels. Note that the height/width should already be resized and match the
    expected input resolution of the model before passing into this function.

  Returns:
   A [1, 1, 17, 3] float numpy array representing the predicted keypoint
   coordinates and scores.
  """
  model = module.signatures['serving_default']

  # SavedModel format expects tensor type of int32.
  input_image = tf.cast(input_image, dtype=tf.int32)
  # Run model inference.
  outputs = model(input_image)
  # Output is a [1, 1, 17, 3] tensor.
  keypoints_with_scores = outputs['output_0'].numpy()
  return keypoints_with_scores

Przykład pojedynczego obrazu

Ta sesja pokazuje przykład roboczych minumum prowadzenia modelu na jednym obrazie przewidzieć 17 ludzkich keypoints.

Załaduj obraz wejściowy

curl -o input_image.jpeg https://images.pexels.com/photos/4384679/pexels-photo-4384679.jpeg --silent
# Load the input image.
image_path = 'input_image.jpeg'
image = tf.io.read_file(image_path)
image = tf.image.decode_jpeg(image)

Uruchom wnioskowanie

# Resize and pad the image to keep the aspect ratio and fit the expected size.
input_image = tf.expand_dims(image, axis=0)
input_image = tf.image.resize_with_pad(input_image, input_size, input_size)

# Run model inference.
keypoints_with_scores = movenet(input_image)

# Visualize the predictions with image.
display_image = tf.expand_dims(image, axis=0)
display_image = tf.cast(tf.image.resize_with_pad(
  display_image, 1280, 1280), dtype=tf.int32)
output_overlay = draw_prediction_on_image(
  np.squeeze(display_image.numpy(), axis=0), keypoints_with_scores)

plt.figure(figsize=(5, 5))
plt.imshow(output_overlay)
_ = plt.axis('off')

png

Przykład wideo (sekwencja obrazów)

W tej sekcji pokazano, jak zastosować inteligentne przycinanie w oparciu o wykrycia z poprzedniej klatki, gdy dane wejściowe są sekwencją klatek. Pozwala to modelowi poświęcić swoją uwagę i zasoby głównemu tematowi, co skutkuje znacznie lepszą jakością predykcji bez poświęcania szybkości.

Algorytm przycinania

Załaduj sekwencję obrazów wejściowych

wget -q -O dance.gif https://github.com/tensorflow/tfjs-models/raw/master/pose-detection/assets/dance_input.gif
# Load the input image.
image_path = 'dance.gif'
image = tf.io.read_file(image_path)
image = tf.image.decode_gif(image)

Uruchom wnioskowanie z algorytmem przycinania

# Load the input image.
num_frames, image_height, image_width, _ = image.shape
crop_region = init_crop_region(image_height, image_width)

output_images = []
bar = display(progress(0, num_frames-1), display_id=True)
for frame_idx in range(num_frames):
 keypoints_with_scores = run_inference(
   movenet, image[frame_idx, :, :, :], crop_region,
   crop_size=[input_size, input_size])
 output_images.append(draw_prediction_on_image(
   image[frame_idx, :, :, :].numpy().astype(np.int32),
   keypoints_with_scores, crop_region=None,
   close_figure=True, output_image_height=300))
 crop_region = determine_crop_region(
   keypoints_with_scores, image_height, image_width)
 bar.update(progress(frame_idx, num_frames-1))

# Prepare gif visualization.
output = np.stack(output_images, axis=0)
to_gif(output, fps=10)

gif