Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

Pengoptimalan model TensorFlow

Toolkit Pengoptimalan Model TensorFlow meminimalkan kerumitan pengoptimalan inferensi machine learning.

Efisiensi inferensi menjadi perhatian penting saat menerapkan model pembelajaran mesin karena latensi, penggunaan memori, dan dalam banyak kasus konsumsi daya. Khususnya pada perangkat edge, seperti seluler dan Internet of Things (IoT), sumber daya semakin dibatasi, dan ukuran model serta efisiensi komputasi menjadi perhatian utama.

Permintaan komputasi untuk pelatihan tumbuh dengan jumlah model yang dilatih pada arsitektur yang berbeda, sedangkan permintaan komputasi untuk inferensi tumbuh secara proporsional dengan jumlah pengguna.

Kasus penggunaan

Pengoptimalan model bermanfaat, antara lain, untuk:

  • Mengurangi latensi dan biaya untuk inferensi untuk perangkat cloud dan edge (mis. Seluler, IoT).
  • Menerapkan model pada perangkat edge dengan batasan pada pemrosesan, memori dan / atau konsumsi daya.
  • Mengurangi ukuran muatan untuk pembaruan model over-the-air.
  • Mengaktifkan eksekusi pada perangkat keras yang dibatasi atau dioptimalkan untuk operasi titik tetap.
  • Mengoptimalkan model untuk akselerator perangkat keras tujuan khusus.

Teknik pengoptimalan

Area pengoptimalan model dapat melibatkan berbagai teknik:

  • Kurangi jumlah parameter dengan pemangkasan dan pemangkasan terstruktur.
  • Kurangi presisi representasi dengan kuantisasi.
  • Perbarui topologi model asli ke yang lebih efisien dengan parameter yang dikurangi atau eksekusi lebih cepat. Misalnya, metode dekomposisi tensor dan distilasi

Toolkit kami mendukung kuantisasi pasca pelatihan , pelatihan sadar kuantisasi , pemangkasan , dan pengelompokan .

Kuantisasi

Model terkuantisasi adalah model di mana kami merepresentasikan model dengan presisi yang lebih rendah, seperti bilangan bulat 8-bit sebagai lawan dari float 32-bit. Presisi yang lebih rendah adalah persyaratan untuk memanfaatkan perangkat keras tertentu.

Ketersebaran dan pemangkasan

Model renggang adalah model di mana koneksi di antara operator (yaitu lapisan jaringan saraf) telah dipangkas, memasukkan nol ke tensor parameter.

Kekelompokan

Model yang dikelompokkan adalah model yang parameter model aslinya diganti dengan jumlah nilai unik yang lebih kecil.