Panoramica

Gli ultimi anni hanno visto un aumento di nuovi livelli grafici differenziabili che possono essere inseriti nelle architetture di reti neurali. Dai trasformatori spaziali ai renderer grafici differenziabili, questi nuovi livelli sfruttano le conoscenze acquisite in anni di visione artificiale e ricerca grafica per costruire architetture di rete nuove e più efficienti. La modellazione esplicita di precedenti e vincoli geometrici nelle reti neurali apre le porte ad architetture che possono essere addestrate in modo robusto, efficiente e, cosa più importante, in modo auto-supervisionato.

Ad alto livello, una pipeline di computer grafica richiede una rappresentazione di oggetti 3D e il loro posizionamento assoluto nella scena, una descrizione del materiale di cui sono fatti, luci e una macchina fotografica. Questa descrizione della scena viene quindi interpretata da un renderer per generare un rendering sintetico.

In confronto, un sistema di visione artificiale partirebbe da un'immagine e cercherebbe di dedurre i parametri della scena. Ciò consente di prevedere quali oggetti sono presenti nella scena, di quali materiali sono fatti e la posizione e l'orientamento tridimensionali.

La formazione di sistemi di apprendimento automatico in grado di risolvere queste complesse attività di visione 3D richiede molto spesso grandi quantità di dati. Poiché l'etichettatura dei dati è un processo costoso e complesso, è importante disporre di meccanismi per progettare modelli di apprendimento automatico in grado di comprendere il mondo tridimensionale mentre vengono addestrati senza molta supervisione. La combinazione di tecniche di visione artificiale e computer grafica offre un'opportunità unica di sfruttare le grandi quantità di dati non etichettati prontamente disponibili. Come illustrato nell'immagine sottostante, ciò può essere ottenuto, ad esempio, utilizzando l'analisi per sintesi in cui il sistema di visione estrae i parametri della scena e il sistema grafico restituisce un'immagine basata su di essi. Se il rendering corrisponde all'immagine originale, il sistema di visione ha estratto accuratamente i parametri della scena. In questa configurazione, la visione artificiale e la computer grafica vanno di pari passo, formando un unico sistema di apprendimento automatico simile a un codificatore automatico, che può essere addestrato in modo auto-supervisionato.

Tensorflow Graphics è stato sviluppato per aiutare ad affrontare questi tipi di sfide e, per farlo, fornisce una serie di grafici differenziabili e livelli di geometria (ad esempio telecamere, modelli di riflettanza, trasformazioni spaziali, convoluzioni mesh) e funzionalità di visualizzatore 3D (ad esempio 3D TensorBoard) che può essere utilizzato per addestrare ed eseguire il debug dei modelli di machine learning preferiti.