Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

Ottimizzazione del modello TensorFlow

TensorFlow Model Optimization Toolkit riduce al minimo la complessità dell'ottimizzazione dell'inferenza di machine learning.

L'efficienza dell'inferenza è una preoccupazione fondamentale quando si distribuiscono modelli di machine learning a causa della latenza, dell'utilizzo della memoria e in molti casi del consumo energetico. In particolare sui dispositivi edge, come i dispositivi mobili e l'Internet of Things (IoT), le risorse sono ulteriormente limitate e le dimensioni del modello e l'efficienza del calcolo diventano una delle principali preoccupazioni.

La domanda computazionale di formazione cresce con il numero di modelli addestrati su architetture differenti, mentre la domanda computazionale di inferenza cresce in proporzione al numero di utenti.

Casi d'uso

L'ottimizzazione del modello è utile, tra le altre cose, per:

  • Riduzione della latenza e dei costi per l'inferenza sia per i dispositivi cloud che per i dispositivi edge (ad esempio mobile, IoT).
  • Distribuzione di modelli su dispositivi periferici con limitazioni su elaborazione, memoria e / o consumo energetico.
  • Riduzione delle dimensioni del carico utile per gli aggiornamenti del modello over-the-air.
  • Abilitazione dell'esecuzione su hardware limitato o ottimizzato per operazioni a virgola fissa.
  • Ottimizzazione dei modelli per acceleratori hardware per scopi speciali.

Tecniche di ottimizzazione

L'area dell'ottimizzazione del modello può coinvolgere varie tecniche:

  • Riduci il conteggio dei parametri con l'eliminazione e l'eliminazione strutturata.
  • Riduci la precisione di rappresentazione con la quantizzazione.
  • Aggiorna la topologia del modello originale a una più efficiente con parametri ridotti o un'esecuzione più rapida. Ad esempio, metodi di decomposizione tensoriale e distillazione

Il nostro kit di strumenti supporta la quantizzazione post-formazione , la formazione consapevole della quantizzazione , l' eliminazione e il clustering .

Quantizzazione

I modelli quantizzati sono quelli in cui rappresentiamo i modelli con una precisione inferiore, come interi a 8 bit rispetto al float a 32 bit. Una precisione inferiore è un requisito per sfruttare un determinato hardware.

Scarsità e potatura

I modelli sparsi sono quelli in cui le connessioni tra gli operatori (cioè i livelli di rete neurale) sono state eliminate, introducendo degli zeri ai tensori dei parametri.

Clustering

I modelli raggruppati sono quelli in cui i parametri del modello originale vengono sostituiti con un numero inferiore di valori univoci.