כימות float16 לאחר אימון

הצג באתר TensorFlow.org הפעל בגוגל קולאב צפה במקור ב-GitHub הורד מחברת

סקירה כללית

TensorFlow לייט תומך כעת המרת משקולות לערכים נקודה צפה 16-bit במהלך ההמרה מודל מ TensorFlow לפורמט חיץ שטוח של TensorFlow לייט. זה מביא להפחתה פי 2 בגודל הדגם. חומרה מסויימת, כמו GPUs, יכולה לחשב באופן מקורי בחשבון הדיוק המופחת הזה, תוך הגברת מהירות לעומת ביצוע נקודה צפה מסורתית. ניתן להגדיר את נציג Tensorflow Lite GPU להפעלה בדרך זו. עם זאת, דגם שהומר למשקולות float16 עדיין יכול לפעול על ה-CPU ללא שינוי נוסף: המשקולות של float16 מועלות ל-float32 לפני ההסקה הראשונה. זה מאפשר הפחתה משמעותית בגודל הדגם בתמורה להשפעה מינימלית על זמן ההשהיה והדיוק.

במדריך זה, אתה מאמן מודל MNIST מאפס, בודק את הדיוק שלו ב-TensorFlow, ולאחר מכן ממירה את המודל ל-Tensorflow Lite flatbuffer עם קוונטיזציה float16. לבסוף, בדוק את הדיוק של הדגם שהוסב והשווה אותו לדגם float32 המקורי.

בנה מודל MNIST


import logging

import tensorflow as tf
from tensorflow import keras
import numpy as np
import pathlib

אימן וייצוא את הדגם

# Load MNIST dataset
mnist = keras.datasets.mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

# Normalize the input image so that each pixel value is between 0 to 1.
train_images = train_images / 255.0
test_images = test_images / 255.0

# Define the model architecture
model = keras.Sequential([
  keras.layers.InputLayer(input_shape=(28, 28)),
  keras.layers.Reshape(target_shape=(28, 28, 1)),
  keras.layers.Conv2D(filters=12, kernel_size=(3, 3), activation=tf.nn.relu),
  keras.layers.MaxPooling2D(pool_size=(2, 2)),

# Train the digit classification model
  validation_data=(test_images, test_labels)
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
11493376/11490434 [==============================] - 0s 0us/step
11501568/11490434 [==============================] - 0s 0us/step
1875/1875 [==============================] - 13s 2ms/step - loss: 0.2655 - accuracy: 0.9244 - val_loss: 0.1237 - val_accuracy: 0.9654
<keras.callbacks.History at 0x7f3f8428e6d0>

לדוגמא, אימנת את המודל לתקופה בודדת בלבד, כך שהוא מתאמן רק ל-~96% דיוק.

המר לדגם TensorFlow Lite

בפייתון TFLiteConverter , מעתה ניתן להמיר את המודל מאומן למודל לייט TensorFlow.

עכשיו לטעון את המודל באמצעות TFLiteConverter :

converter = tf.lite.TFLiteConverter.from_keras_model(model)
tflite_model = converter.convert()
2021-12-14 12:18:07.073783: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them.
INFO:tensorflow:Assets written to: /tmp/tmpm1s3vkrd/assets
2021-12-14 12:18:07.876066: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:363] Ignored output_format.
2021-12-14 12:18:07.876112: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:366] Ignored drop_control_dependency.
WARNING:absl:Buffer deduplication procedure will be skipped when flatbuffer library is not properly loaded

כתוב את זה על .tflite קובץ:

tflite_models_dir = pathlib.Path("/tmp/mnist_tflite_models/")
tflite_models_dir.mkdir(exist_ok=True, parents=True)
tflite_model_file = tflite_models_dir/"mnist_model.tflite"

כדי במקום לקוואנטיזציה מודל float16 על יצוא, ראשון להגדיר את optimizations הדגל כדי אופטימיזציות מחדל שימוש. לאחר מכן ציין ש-float16 הוא הסוג הנתמך בפלטפורמת היעד:

converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_types = [tf.float16]

לבסוף, המר את הדגם כרגיל. שים לב, כברירת מחדל, המודל שהומר עדיין ישתמש בקלט ופלטים צפים לנוחיות ההפעלה.

tflite_fp16_model = converter.convert()
tflite_model_fp16_file = tflite_models_dir/"mnist_model_quant_f16.tflite"
INFO:tensorflow:Assets written to: /tmp/tmpvjt9l68i/assets
INFO:tensorflow:Assets written to: /tmp/tmpvjt9l68i/assets
2021-12-14 12:18:08.810262: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:363] Ignored output_format.
2021-12-14 12:18:08.810303: W tensorflow/compiler/mlir/lite/python/tf_tfl_flatbuffer_helpers.cc:366] Ignored drop_control_dependency.
WARNING:absl:Buffer deduplication procedure will be skipped when flatbuffer library is not properly loaded

שים לב איך את הקובץ שנוצר הוא כ 1/2 הגודל.

ls -lh {tflite_models_dir}
total 128K
-rw-rw-r-- 1 kbuilder kbuilder 83K Dec 14 12:18 mnist_model.tflite
-rw-rw-r-- 1 kbuilder kbuilder 44K Dec 14 12:18 mnist_model_quant_f16.tflite

הפעל את דגמי TensorFlow Lite

הפעל את מודל TensorFlow Lite באמצעות מתורגמן Python TensorFlow Lite.

טען את הדגם לתוך המתורגמנים

interpreter = tf.lite.Interpreter(model_path=str(tflite_model_file))
interpreter_fp16 = tf.lite.Interpreter(model_path=str(tflite_model_fp16_file))

בדוק את הדגמים על תמונה אחת

test_image = np.expand_dims(test_images[0], axis=0).astype(np.float32)

input_index = interpreter.get_input_details()[0]["index"]
output_index = interpreter.get_output_details()[0]["index"]

interpreter.set_tensor(input_index, test_image)
predictions = interpreter.get_tensor(output_index)
import matplotlib.pylab as plt

template = "True:{true}, predicted:{predict}"
_ = plt.title(template.format(true= str(test_labels[0]),


test_image = np.expand_dims(test_images[0], axis=0).astype(np.float32)

input_index = interpreter_fp16.get_input_details()[0]["index"]
output_index = interpreter_fp16.get_output_details()[0]["index"]

interpreter_fp16.set_tensor(input_index, test_image)
predictions = interpreter_fp16.get_tensor(output_index)
template = "True:{true}, predicted:{predict}"
_ = plt.title(template.format(true= str(test_labels[0]),


העריכו את המודלים

# A helper function to evaluate the TF Lite model using "test" dataset.
def evaluate_model(interpreter):
  input_index = interpreter.get_input_details()[0]["index"]
  output_index = interpreter.get_output_details()[0]["index"]

  # Run predictions on every image in the "test" dataset.
  prediction_digits = []
  for test_image in test_images:
    # Pre-processing: add batch dimension and convert to float32 to match with
    # the model's input data format.
    test_image = np.expand_dims(test_image, axis=0).astype(np.float32)
    interpreter.set_tensor(input_index, test_image)

    # Run inference.

    # Post-processing: remove batch dimension and find the digit with highest
    # probability.
    output = interpreter.tensor(output_index)
    digit = np.argmax(output()[0])

  # Compare prediction results with ground truth labels to calculate accuracy.
  accurate_count = 0
  for index in range(len(prediction_digits)):
    if prediction_digits[index] == test_labels[index]:
      accurate_count += 1
  accuracy = accurate_count * 1.0 / len(prediction_digits)

  return accuracy

חזור על ההערכה במודל המקוונטי של float16 כדי לקבל:

# NOTE: Colab runs on server CPUs. At the time of writing this, TensorFlow Lite
# doesn't have super optimized server CPU kernels. For this reason this may be
# slower than the above float interpreter. But for mobile CPUs, considerable
# speedup can be observed.

בדוגמה זו, כימתת מודל ל-flooat16 ללא הבדל ברמת הדיוק.

אפשר גם להעריך את המודל הקוונטי של fp16 ב-GPU. כדי לבצע את כל חשבון עם ערכי דיוק מופחת, הקפד ליצור את TfLiteGPUDelegateOptions struct ביישום וסט שלך precision_loss_allowed כדי 1 , ככה:

//Prepare GPU delegate.
const TfLiteGpuDelegateOptions options = {
  .metadata = NULL,
  .compile_options = {
    .precision_loss_allowed = 1,  // FP16
    .preferred_gl_object_type = TFLITE_GL_OBJECT_TYPE_FASTEST,
    .dynamic_batch_enabled = 0,   // Not fully functional yet

תיעוד מפורט על הנציג TFLite GPU וכיצד להשתמש בו ביישום שלך ניתן למצוא כאן