В этом документе представлен обзор сокращения модели, который поможет вам определить, как это соответствует вашему варианту использования.
- Для того, чтобы погрузиться в пример конца до конца, увидеть Обрезка с Keras например.
- Чтобы быстро найти API - интерфейсы, необходимые для вашего случая использования, см обрезки полного руководства .
- Для того, чтобы исследовать применение обрезки для на устройстве вывода, см Обрезки для на устройстве вывода с XNNPACK .
- Чтобы увидеть пример структурной обрезки, запустить учебник Структурного обрезка с 2 по 4 разреженности .
Обзор
Сокращение веса на основе величины постепенно обнуляет веса модели в процессе обучения, чтобы добиться разреженности модели. Разреженные модели легче сжимать, и мы можем пропустить нули во время вывода для уменьшения задержки.
Этот метод приносит улучшения за счет сжатия модели. В будущем фреймворк, поддерживающий этот метод, улучшит задержку. Мы наблюдали до 6-кратного улучшения сжатия моделей с минимальной потерей точности.
Этот метод оценивается в различных речевых приложениях, таких как распознавание речи и преобразование текста в речь, и были проведены эксперименты с различными моделями зрения и перевода.
Матрица совместимости API
Пользователи могут применять обрезку с помощью следующих API:
- Модель здание:
tf.keras
только с Sequential и функциональными моделями - Версии TensorFlow: TF 1.x для версий 1.14+ и 2.x.
-
tf.compat.v1
с пакетом 2.X TF иtf.compat.v2
с пакетом 1.X TF не поддерживаются.
-
- Режим выполнения TensorFlow: как граф, так и нетерпеливый
- Распределенная обучение:
tf.distribute
только выполнение графика
В наши планы входит добавление поддержки в следующих областях:
Результаты
Классификация изображений
Модель | Неразреженная точность Top-1 | Случайная разреженная точность | Случайная разреженность | Структурированная разреженная точность | Структурированная разреженность |
---|---|---|---|---|---|
НачалоV3 | 78,1% | 78,0% | 50% | 75,8% | 2 на 4 |
76,1% | 75% | ||||
74,6% | 87,5% | ||||
Мобильная сетьV1 224 | 71,04% | 70,84% | 50% | 67,35% | 2 на 4 |
МобайлнетВ2 224 | 71,77% | 69,64% | 50% | 66,75% | 2 на 4 |
Модели были протестированы на Imagenet.
Перевод
Модель | Неразреженный BLEU | Разреженный СИНИЙ | Разреженность |
---|---|---|---|
GNMT EN-DE | 26,77 | 26,86 | 80% |
26.52 | 85% | ||
26.19 | 90% | ||
GNMT DE-EN | 29.47 | 29.50 | 80% |
29.24 | 85% | ||
28,81 | 90% |
В моделях используется набор данных WMT16 на немецком и английском языках, где news-test2013 используется в качестве набора для разработки, а news-test2015 — в качестве тестового набора.
Модель обнаружения ключевых слов
DS-CNN-L — это модель обнаружения ключевых слов, созданная для периферийных устройств. Его можно найти в программном обеспечении ARM в примерах хранилище .
Модель | Неразреженная точность | Структурированная разреженная точность (шаблон 2 на 4) | Случайная разреженная точность (целевая разреженность 50%) |
---|---|---|---|
DS-CNN-L | 95,23 | 94,33 | 94,84 |
Примеры
В дополнение к Чернослив с Keras учебника приведены в следующих примерах:
- Поезд модели CNN на рукописной значной задаче классификации MNIST с обрезком: код
- Поезд LSTM на IMDB настроения задачи классификации с обрезке: код
Для фона, см обрезать или не чернослив: изучение эффективности обрезки для модели сжатия [ бумаги ].