Présentation

Les dernières années ont vu une augmentation des nouvelles couches graphiques différentiables qui peuvent être insérées dans les architectures de réseaux de neurones. Des transformateurs spatiaux aux rendus graphiques différenciables, ces nouvelles couches s'appuient sur les connaissances acquises au cours d'années de vision par ordinateur et de recherche graphique pour créer de nouvelles architectures de réseau plus efficaces. La modélisation explicite des a priori et des contraintes géométriques dans les réseaux de neurones ouvre la porte à des architectures qui peuvent être entraînées de manière robuste, efficace et, plus important encore, de manière auto-supervisée.

A un niveau élevé, un pipeline d'infographie nécessite une représentation des objets 3D et leur positionnement absolu dans la scène, une description du matériau dont ils sont faits, des lumières et une caméra. Cette description de scène est ensuite interprétée par un moteur de rendu pour générer un rendu synthétique.

En comparaison, un système de vision par ordinateur partirait d'une image et essaierait de déduire les paramètres de la scène. Cela permet de prédire quels objets se trouvent dans la scène, de quels matériaux ils sont faits, ainsi que la position et l'orientation tridimensionnelles.

Former des systèmes d'apprentissage automatique capables de résoudre ces tâches complexes de vision 3D nécessite le plus souvent de grandes quantités de données. Comme l'étiquetage des données est un processus coûteux et complexe, il est important de disposer de mécanismes pour concevoir des modèles d'apprentissage automatique capables de comprendre le monde en trois dimensions tout en étant entraînés sans trop de supervision. La combinaison des techniques de vision par ordinateur et d'infographie offre une occasion unique d'exploiter les vastes quantités de données non étiquetées facilement disponibles. Comme illustré dans l'image ci-dessous, cela peut, par exemple, être réalisé en utilisant l'analyse par synthèse où le système de vision extrait les paramètres de la scène et le système graphique restitue une image basée sur eux. Si le rendu correspond à l'image d'origine, le système de vision a extrait avec précision les paramètres de la scène. Dans cette configuration, la vision par ordinateur et l'infographie vont de pair, formant un seul système d'apprentissage automatique similaire à un auto-encodeur, qui peut être entraîné de manière auto-supervisée.

Tensorflow Graphics est développé pour aider à relever ces types de défis et pour ce faire, il fournit un ensemble de couches graphiques et géométriques différenciables (par exemple, des caméras, des modèles de réflectance, des transformations spatiales, des convolutions de maillage) et des fonctionnalités de visionneuse 3D (par exemple 3D TensorBoard) qui peut être utilisé pour entraîner et déboguer les modèles d'apprentissage automatique de votre choix.