Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

Обрезать незначительные веса

В этом документе представлен обзор сокращения модели, который поможет вам определить, как это соответствует вашему варианту использования.

Обзор

Сокращение веса на основе величины постепенно обнуляет веса модели в процессе обучения, чтобы добиться разреженности модели. Разреженные модели легче сжимать, и мы можем пропустить нули во время вывода для уменьшения задержки.

Этот метод приносит улучшения за счет сжатия модели. В будущем фреймворк, поддерживающий этот метод, улучшит задержку. Мы наблюдали до 6-кратного улучшения сжатия моделей с минимальной потерей точности.

Этот метод оценивается в различных речевых приложениях, таких как распознавание речи и преобразование текста в речь, и были проведены эксперименты с различными моделями зрения и перевода.

Матрица совместимости API

Пользователи могут применять обрезку с помощью следующих API:

  • Модель здание: tf.keras только с Sequential и функциональными моделями
  • Версии TensorFlow: TF 1.x для версий 1.14+ и 2.x.
    • tf.compat.v1 с пакетом 2.X TF и tf.compat.v2 с пакетом 1.X TF не поддерживаются.
  • Режим выполнения TensorFlow: как граф, так и нетерпеливый
  • Распределенная обучение: tf.distribute только выполнение графика

В наши планы входит добавление поддержки в следующих областях:

Результаты

Классификация изображений

Модель Неразреженная точность Top-1 Случайная разреженная точность Случайная разреженность Структурированная разреженная точность Структурированная разреженность
НачалоV3 78,1% 78,0% 50% 75,8% 2 на 4
76,1% 75%
74,6% 87,5%
Мобильная сетьV1 224 71,04% 70,84% 50% 67,35% 2 на 4
МобайлнетВ2 224 71,77% 69,64% 50% 66,75% 2 на 4

Модели были протестированы на Imagenet.

Перевод

Модель Неразреженный BLEU Разреженный СИНИЙ Разреженность
GNMT EN-DE 26,77 26,86 80%
26.52 85%
26.19 90%
GNMT DE-EN 29.47 29.50 80%
29.24 85%
28,81 90%

В моделях используется набор данных WMT16 на немецком и английском языках, где news-test2013 используется в качестве набора для разработки, а news-test2015 — в качестве тестового набора.

Модель обнаружения ключевых слов

DS-CNN-L — это модель обнаружения ключевых слов, созданная для периферийных устройств. Его можно найти в программном обеспечении ARM в примерах хранилище .

Модель Неразреженная точность Структурированная разреженная точность (шаблон 2 на 4) Случайная разреженная точность (целевая разреженность 50%)
DS-CNN-L 95,23 94,33 94,84

Примеры

В дополнение к Чернослив с Keras учебника приведены в следующих примерах:

  • Поезд модели CNN на рукописной значной задаче классификации MNIST с обрезком: код
  • Поезд LSTM на IMDB настроения задачи классификации с обрезке: код

Для фона, см обрезать или не чернослив: изучение эффективности обрезки для модели сжатия [ бумаги ].