Actualizado: junio de 2021

El kit de herramientas de optimización de modelos (MOT) de TensorFlow se ha utilizado ampliamente para convertir/optimizar modelos de TensorFlow a modelos de TensorFlow Lite con un tamaño más pequeño, mejor rendimiento y precisión aceptable para ejecutarlos en dispositivos móviles e IoT. Ahora estamos trabajando para ampliar las técnicas y herramientas de MOT más allá de TensorFlow Lite para admitir también TensorFlow SavedModel.

Lo siguiente representa una descripción general de alto nivel de nuestra hoja de ruta. Debes tener en cuenta que esta hoja de ruta puede cambiar en cualquier momento y el orden a continuación no refleja ningún tipo de prioridad. Le recomendamos encarecidamente que comente nuestra hoja de ruta y nos brinde sus comentarios en el grupo de discusión .

Cuantización

TensorFlow Lite

  • Cuantización selectiva posterior al entrenamiento para excluir ciertas capas de la cuantización.
  • Depurador de cuantificación para inspeccionar las pérdidas por errores de cuantificación por capa.
  • Aplicar capacitación consciente de la cuantificación en una mayor cobertura de modelos, por ejemplo, TensorFlow Model Garden.
  • Mejoras de calidad y rendimiento para el rango dinámico posterior al entrenamiento. cuantización.

TensorFlow

  • Cuantización posterior al entrenamiento (rango dinámico bf16 * int8).
  • Entrenamiento consciente de la cuantificación ((bf16 * int8 solo peso con cuantificación falsa).
  • Cuantización selectiva posterior al entrenamiento para excluir ciertas capas de la cuantización.
  • Depurador de cuantificación para inspeccionar las pérdidas por errores de cuantificación por capa.

Escasez

TensorFlow Lite

  • Soporte de ejecución de modelo escaso para más modelos.
  • Creación consciente de objetivos para Sparsity.
  • Amplíe el conjunto de operaciones dispersas con kernels x86 de alto rendimiento.

TensorFlow

  • Soporte de paridad en TensorFlow.

Técnicas de compresión en cascada

  • Cuantización + Compresión tensorial + Sparsity: demuestra las 3 técnicas trabajando juntas.

Compresión

  • API de compresión tensorial para ayudar a los desarrolladores de algoritmos de compresión a implementar su propio algoritmo de compresión de modelos (por ejemplo, agrupación de pesos), incluida la provisión de una forma estándar de prueba/comparación.