Diese Seite wurde von der Cloud Translation API übersetzt.
Switch to English

Überblick

In den letzten Jahren haben neuartige differenzierbare Grafikebenen zugenommen, die in neuronale Netzwerkarchitekturen eingefügt werden können. Von räumlichen Transformatoren bis hin zu differenzierbaren Grafik-Renderern nutzen diese neuen Ebenen das Wissen, das sie in jahrelanger Computer Vision- und Grafikforschung erworben haben, um neue und effizientere Netzwerkarchitekturen zu erstellen. Die explizite Modellierung geometrischer Prioritäten und Einschränkungen in neuronale Netze öffnet die Tür zu Architekturen, die robust, effizient und vor allem selbstüberwacht trainiert werden können.

Auf hoher Ebene erfordert eine Computergrafik-Pipeline eine Darstellung von 3D-Objekten und deren absolute Positionierung in der Szene, eine Beschreibung des Materials, aus dem sie bestehen, Lichter und eine Kamera. Diese Szenenbeschreibung wird dann von einem Renderer interpretiert, um ein synthetisches Rendering zu generieren.

Im Vergleich dazu würde ein Computer-Vision-System von einem Bild ausgehen und versuchen, die Parameter der Szene abzuleiten. Dies ermöglicht die Vorhersage, welche Objekte sich in der Szene befinden, aus welchen Materialien sie bestehen und welche dreidimensionale Position und Ausrichtung sie haben.

Das Training von maschinellen Lernsystemen, die diese komplexen 3D-Vision-Aufgaben lösen können, erfordert häufig große Datenmengen. Da das Beschriften von Daten ein kostspieliger und komplexer Prozess ist, ist es wichtig, über Mechanismen zum Entwerfen von Modellen für maschinelles Lernen zu verfügen, die die dreidimensionale Welt erfassen können, während sie ohne viel Aufsicht trainiert werden. Die Kombination von Computer Vision- und Computergrafiktechniken bietet eine einzigartige Gelegenheit, die enormen Mengen leicht verfügbarer unbeschrifteter Daten zu nutzen. Wie in der Abbildung unten dargestellt, kann dies beispielsweise durch eine Analyse durch Synthese erreicht werden, bei der das Bildverarbeitungssystem die Szenenparameter extrahiert und das Grafiksystem ein darauf basierendes Bild zurückgibt. Wenn das Rendering mit dem Originalbild übereinstimmt, hat das Bildverarbeitungssystem die Szenenparameter genau extrahiert. In diesem Setup gehen Computer Vision und Computergrafik Hand in Hand und bilden ein einziges maschinelles Lernsystem, das einem Autoencoder ähnelt und auf selbstüberwachte Weise trainiert werden kann.

Tensorflow Graphics wird entwickelt, um diese Art von Herausforderungen zu bewältigen. Dazu bietet es eine Reihe differenzierbarer Grafiken und Geometrieebenen (z. B. Kameras, Reflexionsmodelle, räumliche Transformationen, Netzfaltungen) und 3D-Viewer-Funktionen (z. B. 3D TensorBoard) kann verwendet werden, um die Modelle Ihrer Wahl für maschinelles Lernen zu trainieren und zu debuggen.