Diperbarui: Juni 2021

Model Optimization Toolkit (MOT) TensorFlow telah digunakan secara luas untuk mengonversi/mengoptimalkan model TensorFlow ke model TensorFlow Lite dengan ukuran lebih kecil, performa lebih baik, dan akurasi yang dapat diterima untuk menjalankannya di perangkat seluler dan IoT. Kami sekarang berupaya untuk memperluas teknik dan alat MOT di luar TensorFlow Lite untuk mendukung TensorFlow SavedModel juga.

Berikut ini merupakan ikhtisar tingkat tinggi dari peta jalan kami. Anda harus menyadari bahwa peta jalan ini dapat berubah sewaktu-waktu dan urutan di bawah ini tidak mencerminkan prioritas apa pun. Kami sangat menganjurkan Anda untuk mengomentari peta jalan kami dan memberi kami umpan balik dalam kelompok diskusi .

Kuantisasi

TensorFlow Lite

  • Kuantisasi pasca pelatihan selektif untuk mengecualikan lapisan tertentu dari kuantisasi.
  • Debugger kuantisasi untuk memeriksa kerugian kesalahan kuantisasi per lapisan.
  • Menerapkan pelatihan sadar kuantisasi pada cakupan model yang lebih banyak, misalnya TensorFlow Model Garden.
  • Peningkatan kualitas dan kinerja untuk rentang dinamis pasca pelatihan. kuantisasi.

Aliran Tensor

  • Kuantisasi Pasca Pelatihan (rentang dinamis bf16 * int8).
  • Pelatihan Sadar Kuantisasi ((bf16 * int8 hanya beban dengan kuantitas palsu).
  • Kuantisasi pasca pelatihan selektif untuk mengecualikan lapisan tertentu dari kuantisasi.
  • Debugger kuantisasi untuk memeriksa kerugian kesalahan kuantisasi per lapisan.

ketersebaran

TensorFlow Lite

  • Dukungan eksekusi model jarang untuk lebih banyak model.
  • Targetkan penulisan yang sadar untuk Sparsity.
  • Perluas rangkaian operasi yang jarang dengan kernel x86 yang berkinerja baik.

Aliran Tensor

  • Dukungan sparitas di TensorFlow.

Teknik kompresi berjenjang

  • Kuantisasi + Kompresi Tensor + Ketersebaran: tunjukkan ketiga teknik yang bekerja bersama.

Kompresi

  • API kompresi tensor untuk membantu pengembang algoritma kompresi mengimplementasikan algoritma kompresi model mereka sendiri (misalnya Weight Clustering) termasuk menyediakan cara standar untuk menguji/benchmark.