TensorFlow 模型优化

TensorFlow 模型优化工具包可最大限度地降低优化机器学习推断的复杂性。

在部署机器学习模型时,推断效率是一个关键考虑因素,因为延迟时间和内存利用率会受到影响,并且在很多情况下还会影响耗电量。尤其是在边缘设备(例如移动设备和物联网 (IoT) 设备)上,由于资源受到进一步限制,因此模型大小和计算效率成为一个主要考虑因素。

随着在不同架构上训练的模型数量不断增多,训练作业的计算需求也会不断提高;而推断作业的计算需求的增长速度与用户数量成比例。

用例

模型优化具有很多优势,例如:

  • 降低云设备和边缘设备(例如移动设备和 IoT 设备)的延迟时间和推断成本。
  • 将模型部署到边缘设备,这些设备在处理、内存和/或耗电量方面存在限制。
  • 减小无线模型更新的载荷大小。
  • 在专用于定点操作的硬件或针对定点操作优化的硬件上执行模型。
  • 针对专用硬件加速器优化模型。

优化技巧

模型优化领域涉及多种技术:

  • 通过剪枝和结构化剪枝减少参数数量。
  • 通过量化降低表示法精度。
  • 将原始模型拓扑更新为更高效的拓扑,后者的参数数量更少或执行速度更快。例如,张量分解方法和蒸馏

我们的工具包支持训练后量化、量化感知训练剪枝

量化

量化模型是指以更低的精度(例如 8 位整数而非 32 位浮点数)表示模型。必须降低精度,才能利用某些硬件。

稀疏性和剪枝

在稀疏模型中,各运算符(即神经网络层)之间的连接已被剪枝,并在参数张量中引入了零。