TensorFlow Model Optimization

TensorFlow kembali hadir di Google I/O pada 14 Mei! Daftar sekarang

Halaman ini diterjemahkan oleh Cloud Translation API.

Diperbarui: Juni 2021

Model Optimization Toolkit (MOT) TensorFlow telah digunakan secara luas untuk mengonversi/mengoptimalkan model TensorFlow ke model TensorFlow Lite dengan ukuran lebih kecil, performa lebih baik, dan akurasi yang dapat diterima untuk menjalankannya di perangkat seluler dan IoT. Kami sekarang berupaya untuk memperluas teknik dan alat MOT di luar TensorFlow Lite untuk mendukung TensorFlow SavedModel juga.

Berikut ini merupakan ikhtisar tingkat tinggi dari peta jalan kami. Anda harus menyadari bahwa peta jalan ini dapat berubah sewaktu-waktu dan urutan di bawah ini tidak mencerminkan prioritas apa pun. Kami sangat menganjurkan Anda untuk mengomentari peta jalan kami dan memberi kami umpan balik dalam kelompok diskusi .

Kuantisasi

TensorFlow Lite

Kuantisasi pasca pelatihan selektif untuk mengecualikan lapisan tertentu dari kuantisasi.
Debugger kuantisasi untuk memeriksa kerugian kesalahan kuantisasi per lapisan.
Menerapkan pelatihan sadar kuantisasi pada cakupan model yang lebih banyak, misalnya TensorFlow Model Garden.
Peningkatan kualitas dan kinerja untuk rentang dinamis pasca pelatihan. kuantisasi.

Aliran Tensor

Kuantisasi Pasca Pelatihan (rentang dinamis bf16 * int8).
Pelatihan Sadar Kuantisasi ((bf16 * int8 hanya beban dengan kuantitas palsu).
Kuantisasi pasca pelatihan selektif untuk mengecualikan lapisan tertentu dari kuantisasi.
Debugger kuantisasi untuk memeriksa kerugian kesalahan kuantisasi per lapisan.

ketersebaran

TensorFlow Lite

Dukungan eksekusi model jarang untuk lebih banyak model.
Targetkan penulisan yang sadar untuk Sparsity.
Perluas rangkaian operasi yang jarang dengan kernel x86 yang berkinerja baik.

Aliran Tensor

Dukungan sparitas di TensorFlow.

Teknik kompresi berjenjang

Kuantisasi + Kompresi Tensor + Ketersebaran: tunjukkan ketiga teknik yang bekerja bersama.

Kompresi

API kompresi tensor untuk membantu pengembang algoritma kompresi mengimplementasikan algoritma kompresi model mereka sendiri (misalnya Weight Clustering) termasuk menyediakan cara standar untuk menguji/benchmark.