Google I / O'daki önemli notları, ürün oturumlarını, atölyeleri ve daha fazlasını izleyin Oynatma listesine bakın

Model optimizasyonu

Uç aygıtlar genellikle sınırlı belleğe veya hesaplama gücüne sahiptir. Bu kısıtlamalar dahilinde çalıştırılabilmeleri için modellere çeşitli optimizasyonlar uygulanabilir. Ek olarak, bazı optimizasyonlar hızlandırılmış çıkarım için özel donanım kullanımına izin verir.

TensorFlow Lite ve TensorFlow Model Optimizasyon Araç Seti , çıkarımı optimize etmenin karmaşıklığını en aza indirecek araçlar sağlar.

Uygulama geliştirme süreciniz sırasında model optimizasyonunu düşünmeniz önerilir. Bu belge, uç donanıma dağıtım için TensorFlow modellerini optimize etmeye yönelik bazı en iyi uygulamaları özetlemektedir.

Modeller neden optimize edilmelidir?

Model optimizasyonunun uygulama geliştirmeye yardımcı olabileceği birkaç ana yol vardır.

Boyut küçültme

Bir modelin boyutunu küçültmek için bazı optimizasyon biçimleri kullanılabilir. Daha küçük modeller aşağıdaki avantajlara sahiptir:

  • Daha küçük depolama boyutu: Daha küçük modeller, kullanıcılarınızın cihazlarında daha az depolama alanı kaplar. Örneğin, daha küçük bir model kullanan bir Android uygulaması, bir kullanıcının mobil cihazında daha az depolama alanı kaplar.
  • Daha küçük indirme boyutu: Daha küçük modeller, kullanıcıların cihazlarına indirmek için daha az zaman ve bant genişliği gerektirir.
  • Daha az bellek kullanımı: Daha küçük modeller çalıştırıldıklarında daha az RAM kullanır, bu da uygulamanızın diğer bölümlerinin kullanması için belleği serbest bırakır ve daha iyi performans ve kararlılığa dönüşebilir.

Niceleme, tüm bu durumlarda, potansiyel olarak bir miktar doğruluk pahasına bir modelin boyutunu azaltabilir. Budama ve kümeleme, indirilecek bir modelin boyutunu, onu daha kolay sıkıştırılabilir hale getirerek azaltabilir.

Gecikme azaltma

Gecikme , belirli bir modelle tek bir çıkarım çalıştırmak için gereken süredir. Bazı optimizasyon biçimleri, bir model kullanarak çıkarım yapmak için gereken hesaplama miktarını azaltarak daha düşük gecikme süresi sağlayabilir. Gecikme, güç tüketimini de etkileyebilir.

Şu anda niceleme, çıkarım sırasında meydana gelen hesaplamaları basitleştirerek gecikmeyi azaltmak için, potansiyel olarak bir miktar doğruluk pahasına kullanılabilir.

Hızlandırıcı uyumluluğu

Edge TPU gibi bazı donanım hızlandırıcılar, doğru şekilde optimize edilmiş modellerle son derece hızlı bir şekilde çıkarım yapabilir.

Genel olarak, bu tür cihazlar, modellerin belirli bir şekilde nicelleştirilmesini gerektirir. Gereksinimleri hakkında daha fazla bilgi edinmek için her bir donanım hızlandırıcının belgelerine bakın.

Ödünleşimler

Optimizasyonlar, uygulama geliştirme sürecinde dikkate alınması gereken model doğruluğunda potansiyel olarak değişikliklere neden olabilir.

Doğruluk değişiklikleri, optimize edilen bireysel modele bağlıdır ve önceden tahmin edilmesi zordur. Genellikle, boyut veya gecikme için optimize edilmiş modeller az miktarda doğruluk kaybeder. Uygulamanıza bağlı olarak, bu, kullanıcılarınızın deneyimini etkileyebilir veya etkilemeyebilir. Nadir durumlarda, belirli modeller optimizasyon sürecinin bir sonucu olarak bir miktar doğruluk kazanabilir.

Optimizasyon türleri

TensorFlow Lite şu anda niceleme, budama ve kümeleme yoluyla optimizasyonu desteklemektedir.

Bunlar, TensorFlow Lite ile uyumlu model optimizasyon teknikleri için kaynaklar sağlayan TensorFlow Model Optimization Toolkit'in bir parçasıdır.

Niceleme

Niceleme , bir modelin parametrelerini temsil etmek için kullanılan sayıların hassasiyetini azaltarak çalışır, bunlar varsayılan olarak 32 bit kayan nokta sayılarıdır. Bu, daha küçük bir model boyutu ve daha hızlı hesaplama ile sonuçlanır.

TensorFlow Lite'ta aşağıdaki niceleme türleri mevcuttur:

Teknik Veri gereksinimleri Boyut küçültme Doğruluk Desteklenen donanım
Eğitim sonrası float16 niceleme Veri yok 50'ye kadar% Önemsiz doğruluk kaybı CPU, GPU
Eğitim sonrası dinamik aralık niceleme Veri yok % 75'e kadar Doğruluk kaybı CPU, GPU (Android)
Eğitim sonrası tamsayı niceleme Etiketsiz temsili örnek % 75'e kadar Daha küçük doğruluk kaybı CPU, GPU (Android), EdgeTPU, Altıgen DSP
Nicemlemeye duyarlı eğitim Etiketli eğitim verileri % 75'e kadar En küçük doğruluk kaybı CPU, GPU (Android), EdgeTPU, Altıgen DSP

Aşağıdaki karar ağacı, modeliniz için kullanmak isteyebileceğiniz niceleme şemalarını, yalnızca beklenen model boyutuna ve doğruluğuna dayalı olarak seçmenize yardımcı olur.

niceleme-karar ağacı

Aşağıda, birkaç model üzerinde eğitim sonrası niceleme ve nicemlemeye duyarlı eğitim için gecikme ve doğruluk sonuçları verilmiştir. Tüm gecikme sayıları, tek bir büyük çekirdekli CPU kullanan Pixel 2 cihazlarda ölçülür. Araç seti geliştikçe, buradaki rakamlar da gelişecektir:

Modeli İlk 1 Doğruluk (Orijinal) İlk 1 Doğruluk (Eğitim Sonrası Ölçülen) İlk 1 Doğruluk (Quantization Aware Training) Gecikme (Orijinal) (ms) Gecikme (Eğitim Sonrası Ölçülen) (ms) Gecikme (Quantization Aware Training) (ms) Boyut (Orijinal) (MB) Boyut (Optimize Edilmiş) (MB)
Mobilenet-v1-1-224 0.709 0.657 0.70 124 112 64 16.9 4.3
Mobilenet-v2-1-224 0.719 0.637 0.709 89 98 54 14 3.6
Başlangıç_v3 0.78 0.772 0.775 1130 845 543 95.7 23.9
Resnet_v2_101 0.770 0.768 Yok 3973 2868 Yok 178.3 44.9
Tablo 1 Belirli CNN modelleri için model nicemlemenin avantajları

İnt16 etkinleştirmeleri ve int8 ağırlıklarıyla tam tamsayı niceleme

İnt16 etkinleştirmeleriyle niceleme int16'da etkinleştirmeler ve int8'de ağırlıklarla tam tamsayı niceleme şemasıdır. Bu mod, benzer bir model boyutunu koruyarak int8'deki hem etkinleştirmeler hem de ağırlıklarla tam tamsayı niceleme şemasına kıyasla nicelleştirilmiş modelin doğruluğunu artırabilir. Aktivasyonların nicemlemeye duyarlı olduğu durumlarda önerilir.

NOT: Şu anda bu niceleme şeması için TFLite'da yalnızca optimize edilmemiş referans çekirdek uygulamaları mevcuttur, bu nedenle varsayılan olarak performans int8 çekirdeklerine kıyasla yavaş olacaktır. Bu modun tüm avantajlarına şu anda özel donanım veya özel yazılım aracılığıyla erişilebilir.

Bu moddan yararlanan bazı modeller için doğruluk sonuçları aşağıdadır.

Modeli Doğruluk metrik türü Doğruluk (float32 aktivasyonları) Doğruluk (int8 aktivasyonları) Doğruluk (int16 aktivasyon)
Wav2letter BİZ % 6.7 % 7.7 % 7,2
DeepSpeech 0.5.1 (kayıtlı değil) CER % 6,13 % 43.67 % 6.52
YoloV3 MAP (GÇ = 0,5) 0.577 0.563 0.574
MobileNetV1 İlk 1 Doğruluk 0.7062 0.694 0,6936
MobileNetV2 İlk 1 Doğruluk 0.718 0.7126 0.7137
MobileBert F1 (Tam eşleşme) 88,81 (81,23) 2,08 (0) 88,73 (81,15)
Tablo 2 int16 etkinleştirmeleriyle model nicemlemenin faydaları

Budama

Budama, bir modeldeki tahminleri üzerinde yalnızca küçük bir etkisi olan parametreleri kaldırarak çalışır. Kesilmiş modeller diskte aynı boyuttadır ve aynı çalışma zamanı gecikmesine sahiptir, ancak daha etkili bir şekilde sıkıştırılabilir. Bu, model indirme boyutunu küçültmek için budamayı kullanışlı bir teknik haline getirir.

Gelecekte, TensorFlow Lite, budanmış modeller için gecikme azaltma sağlayacaktır.

Kümeleme

Kümeleme , bir modeldeki her katmanın ağırlıklarını önceden tanımlanmış sayıda küme halinde gruplayarak ve ardından her bir kümeye ait ağırlıkların ağırlık merkez değerlerini paylaşarak çalışır. Bu, bir modeldeki benzersiz ağırlık değerlerinin sayısını azaltarak karmaşıklığını azaltır.

Sonuç olarak, kümelenmiş modeller daha etkili bir şekilde sıkıştırılabilir ve bu da budamaya benzer dağıtım avantajları sağlar.

Geliştirme iş akışı

Başlangıç ​​noktası olarak, barındırılan modellerdeki modellerin uygulamanız için çalışıp çalışmadığını kontrol edin. Değilse, geniş ölçüde uygulanabilir olduğundan ve eğitim verisi gerektirmediğinden, kullanıcıların eğitim sonrası niceleme aracıyla başlamasını öneririz.

Doğruluk ve gecikme hedeflerinin karşılanmadığı veya donanım hızlandırıcı desteğinin önemli olduğu durumlarda nicelemeye duyarlı eğitim daha iyi bir seçenektir. TensorFlow Model Optimizasyon Araç Seti altındaki ek optimizasyon tekniklerine bakın.

Model boyutunuzu daha da küçültmek istiyorsanız, modellerinizi nicelleştirmeden önce budamayı ve / veya kümelemeyi deneyebilirsiniz.