Cette page a été traduite par l'API Cloud Translation.
Switch to English

Aperçu

Ces dernières années ont vu une augmentation de nouvelles couches graphiques différenciables qui peuvent être insérées dans les architectures de réseaux neuronaux. Des transformateurs spatiaux aux rendus graphiques différenciables, ces nouvelles couches exploitent les connaissances acquises au fil des années de vision par ordinateur et de recherche graphique pour créer de nouvelles architectures de réseau plus efficaces. La modélisation explicite des priors et des contraintes géométriques dans des réseaux de neurones ouvre la porte à des architectures qui peuvent être formées de manière robuste, efficace et, plus important encore, de manière auto-supervisée.

À un niveau élevé, un pipeline d'infographie nécessite une représentation des objets 3D et leur positionnement absolu dans la scène, une description du matériau dont ils sont constitués, des lumières et une caméra. Cette description de scène est ensuite interprétée par un moteur de rendu pour générer un rendu synthétique.

En comparaison, un système de vision par ordinateur partirait d'une image et tenterait de déduire les paramètres de la scène. Cela permet de prédire quels objets se trouvent dans la scène, de quels matériaux ils sont constitués, ainsi que la position et l'orientation en trois dimensions.

La formation de systèmes d'apprentissage automatique capables de résoudre ces tâches complexes de vision 3D nécessite le plus souvent de grandes quantités de données. L'étiquetage des données étant un processus coûteux et complexe, il est important de disposer de mécanismes pour concevoir des modèles d'apprentissage automatique capables de comprendre le monde tridimensionnel tout en étant entraînés sans trop de supervision. La combinaison des techniques de vision par ordinateur et d'infographie offre une occasion unique d'exploiter les vastes quantités de données non étiquetées facilement disponibles. Comme illustré dans l'image ci-dessous, cela peut, par exemple, être réalisé en utilisant une analyse par synthèse où le système de vision extrait les paramètres de la scène et le système graphique restitue une image basée sur eux. Si le rendu correspond à l'image d'origine, le système de vision a extrait avec précision les paramètres de la scène. Dans cette configuration, la vision par ordinateur et l'infographie vont de pair, formant un seul système d'apprentissage automatique similaire à un auto-encodeur, qui peut être formé de manière auto-supervisée.

Tensorflow Graphics est en cours de développement pour aider à relever ces types de défis et pour ce faire, il fournit un ensemble de couches graphiques et géométriques différenciables (par exemple, des caméras, des modèles de réflectance, des transformations spatiales, des convolutions de maillage) et des fonctionnalités de visualisation 3D (par exemple 3D TensorBoard) qui peut être utilisé pour entraîner et déboguer les modèles d'apprentissage automatique de votre choix.