Cette page a été traduite par l'API Cloud Translation.
Switch to English

Aperçu

Les dernières années ont vu une augmentation des nouveaux graphiques différentiables couches qui peuvent être insérés dans les architectures de réseaux de neurones. De transformateurs spatiaux à différentiables graphiques équarrisseurs, ces nouvelles couches tirer parti des connaissances acquises au cours des années de vision informatique et recherche graphique pour construire de nouvelles architectures de réseaux plus efficaces. modélisation géométrique et Explicitement prieurs contraintes dans les réseaux de neurones ouvre la porte à des architectures qui peuvent être formés avec vigueur, efficace, et plus important encore, de façon autonome supervisé.

À un niveau élevé, un pipeline graphique de l'ordinateur nécessite une représentation d'objets 3D et leur positionnement absolu sur la scène, une description du matériel dont ils sont faits, les lumières et un appareil photo. Cette description de la scène est ensuite interprété par un moteur de rendu pour générer un rendu synthétique.

En comparaison, un système de vision informatique commencerait à partir d'une image et d'essayer d'en déduire les paramètres de la scène. Cela permet la prédiction dont les objets sont dans la scène, quels matériaux dont ils sont faits, et la position en trois dimensions et l'orientation.

les systèmes d'apprentissage machine de formation capables de résoudre ces tâches complexes de vision 3D nécessite le plus souvent de grandes quantités de données. Comme les données l'étiquetage est un processus coûteux et complexe, il est important d'avoir des mécanismes pour concevoir des modèles d'apprentissage de la machine qui peut comprendre le monde en trois dimensions tout en étant formés sans beaucoup de supervision. La combinaison de la vision par ordinateur et les techniques graphiques informatiques offre une occasion unique de tirer parti des grandes quantités de données non marquées facilement disponibles. Comme l'illustre l'image ci-dessous, cela peut, par exemple, être réalisé en utilisant une analyse par synthèse où le système de vision extrait les paramètres de la scène et le système graphique rend une image d'basée sur eux. Si le rendu correspond à l'image d'origine, le système de vision a précisément extrait les paramètres de la scène. Dans cette configuration, la vision par ordinateur et infographie vont de pair, la formation d'un système d'apprentissage unique machine semblable à un autoencoder, qui peut être formé d'une manière auto-surveillance.

Tensorflow Graphics est développé pour aider à lutter contre ces types de défis et de le faire, il fournit un ensemble de graphiques différentiables et des couches de géométrie (par exemple, des caméras, des modèles de réflexion, les transformations spatiales, maillage circonvolutions) et des fonctionnalités de visionneuse 3D (par exemple 3D TensorBoard) que peut être utilisé pour former et déboguer votre modèles d'apprentissage machine de choix.