Atualizado: junho de 2021

O Model Optimization Toolkit (MOT) do TensorFlow tem sido amplamente usado para converter/otimizar modelos do TensorFlow em modelos do TensorFlow Lite com tamanho menor, melhor desempenho e precisão aceitável para executá-los em dispositivos móveis e IoT. Agora estamos trabalhando para estender as técnicas e ferramentas de MOT além do TensorFlow Lite para oferecer suporte também ao TensorFlow SavedModel.

O seguinte representa uma visão geral de alto nível do nosso roteiro. Você deve estar ciente de que este roteiro pode mudar a qualquer momento e a ordem abaixo não reflete nenhum tipo de prioridade. Nós encorajamos você a comentar sobre nosso roteiro e nos fornecer feedback no grupo de discussão .

Quantização

TensorFlow Lite

  • Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
  • Depurador de quantização para inspecionar perdas de erros de quantização por camada.
  • Aplicação de treinamento com reconhecimento de quantização em mais cobertura de modelo, por exemplo, TensorFlow Model Garden.
  • Melhorias de qualidade e desempenho para faixa dinâmica pós-treinamento. quantização.

TensorFlow

  • Quantização pós-treinamento (faixa dinâmica bf16 * int8).
  • Quantization Aware Training ((bf16 * int8 peso-somente com quant falso).
  • Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
  • Depurador de quantização para inspecionar perdas de erros de quantização por camada.

Espasidade

TensorFlow Lite

  • Suporte de execução de modelo esparso para mais modelos.
  • Criação com reconhecimento de destino para Sparsity.
  • Estenda o conjunto de operações esparsas com kernels x86 de alto desempenho.

TensorFlow

  • Suporte de esparidade no TensorFlow.

Técnicas de compressão em cascata

  • Quantização + Compressão Tensor + Esparsidade: demonstre todas as 3 técnicas trabalhando juntas.

Compressão

  • API de compactação de tensor para ajudar os desenvolvedores de algoritmos de compactação a implementar seu próprio algoritmo de compactação de modelo (por exemplo, agrupamento de peso), incluindo o fornecimento de uma maneira padrão de teste/benchmark.