Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

Panoramica

Gli ultimi anni hanno visto un aumento di nuovi livelli grafici differenziabili che possono essere inseriti nelle architetture di reti neurali. Dai trasformatori spaziali ai renderizzatori grafici differenziabili, questi nuovi livelli sfruttano le conoscenze acquisite in anni di visione artificiale e ricerca grafica per costruire nuove e più efficienti architetture di rete. La modellazione esplicita delle priorità geometriche e dei vincoli nelle reti neurali apre la porta ad architetture che possono essere addestrate in modo robusto, efficiente e, cosa più importante, in modo auto-supervisionato.

Ad un livello elevato, una pipeline di computer grafica richiede una rappresentazione di oggetti 3D e il loro posizionamento assoluto nella scena, una descrizione del materiale di cui sono composti, luci e una telecamera. Questa descrizione della scena viene quindi interpretata da un renderer per generare un rendering sintetico.

In confronto, un sistema di visione artificiale partirà da un'immagine e cercherà di dedurre i parametri della scena. Ciò consente la previsione di quali oggetti si trovano nella scena, di quali materiali sono composti e la posizione e l'orientamento tridimensionale.

La formazione di sistemi di apprendimento automatico in grado di risolvere queste complesse attività di visione 3D richiede molto spesso grandi quantità di dati. Poiché l'etichettatura dei dati è un processo costoso e complesso, è importante disporre di meccanismi per progettare modelli di apprendimento automatico in grado di comprendere il mondo tridimensionale pur essendo addestrati senza molta supervisione. La combinazione di visione artificiale e tecniche di computer grafica offre un'opportunità unica per sfruttare le grandi quantità di dati prontamente disponibili senza etichetta. Come illustrato nell'immagine sottostante, ciò può essere ottenuto, ad esempio, utilizzando l'analisi per sintesi in cui il sistema di visione estrae i parametri della scena e il sistema grafico restituisce un'immagine basata su di essi. Se il rendering corrisponde all'immagine originale, il sistema di visione ha estratto accuratamente i parametri della scena. In questa configurazione, visione artificiale e grafica computerizzata vanno di pari passo, formando un unico sistema di apprendimento automatico simile a un autoencoder, che può essere addestrato in modo auto-supervisionato.

Tensorflow Graphics è in fase di sviluppo per aiutare ad affrontare questi tipi di sfide e per farlo fornisce una serie di livelli grafici e geometrici differenziabili (ad esempio telecamere, modelli di riflettanza, trasformazioni spaziali, convoluzioni mesh) e funzionalità di visualizzatore 3D (ad esempio 3D TensorBoard) che può essere utilizzato per addestrare ed eseguire il debug dei modelli di apprendimento automatico preferiti.