Pengoptimalan model TensorFlow

Toolkit Pengoptimalan Model TensorFlow meminimalkan kerumitan pengoptimalan inferensi pembelajaran mesin.

Efisiensi inferensi menjadi perhatian penting saat menerapkan model pembelajaran mesin karena latensi, penggunaan memori, dan dalam banyak kasus konsumsi daya. Khususnya pada perangkat edge, seperti seluler dan Internet of Things (IoT), sumber daya semakin dibatasi, dan ukuran model serta efisiensi komputasi menjadi perhatian utama.

Permintaan komputasi untuk pelatihan tumbuh dengan jumlah model yang dilatih pada arsitektur yang berbeda, sedangkan permintaan komputasi untuk inferensi tumbuh secara proporsional dengan jumlah pengguna.

Gunakan kasus

Optimalisasi model berguna, antara lain, untuk:

  • Mengurangi latensi dan biaya inferensi untuk perangkat cloud dan edge (mis. seluler, IoT).
  • Menyebarkan model pada perangkat edge dengan pembatasan pemrosesan, memori, dan/atau konsumsi daya.
  • Mengurangi ukuran muatan untuk pembaruan model over-the-air.
  • Mengaktifkan eksekusi pada perangkat keras yang dibatasi atau dioptimalkan untuk operasi titik tetap.
  • Mengoptimalkan model untuk akselerator perangkat keras tujuan khusus.

Teknik pengoptimalan

Area optimasi model dapat melibatkan berbagai teknik:

  • Kurangi jumlah parameter dengan pemangkasan dan pemangkasan terstruktur.
  • Kurangi presisi representasional dengan kuantisasi.
  • Perbarui topologi model asli ke yang lebih efisien dengan parameter yang dikurangi atau eksekusi yang lebih cepat. Misalnya, metode dekomposisi tensor dan distilasi

Toolkit kami mendukung kuantisasi pasca pelatihan , pelatihan sadar kuantisasi , pemangkasan , dan pengelompokan . Toolkit ini juga menyediakan dukungan eksperimental untuk pengoptimalan kolaboratif untuk menggabungkan berbagai teknik.

Kuantisasi

Model terkuantisasi adalah model di mana kami mewakili model dengan presisi lebih rendah, seperti bilangan bulat 8-bit sebagai lawan dari float 32-bit. Presisi yang lebih rendah adalah persyaratan untuk memanfaatkan perangkat keras tertentu.

Ketersebaran dan pemangkasan

Model jarang adalah model di mana koneksi di antara operator (yaitu lapisan jaringan saraf) telah dipangkas, memperkenalkan nol ke tensor parameter.

Kekelompokan

Model berkerumun adalah model di mana parameter model asli diganti dengan jumlah nilai unik yang lebih kecil.

Pengoptimalan kolaboratif

Toolkit ini menyediakan dukungan eksperimental untuk pengoptimalan kolaboratif. Ini memungkinkan Anda memperoleh manfaat dari menggabungkan beberapa teknik kompresi model dan secara bersamaan mencapai akurasi yang ditingkatkan melalui pelatihan sadar kuantisasi.