Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Visión general

Los últimos años han visto un aumento en nuevas capas de gráficos diferenciables que se pueden insertar en arquitecturas de redes neuronales. Desde transformadores espaciales hasta renderizadores gráficos diferenciables, estas nuevas capas aprovechan el conocimiento adquirido durante años de visión por computadora e investigación gráfica para construir arquitecturas de red nuevas y más eficientes. El modelado explícito de antecedentes y restricciones geométricas en redes neuronales abre la puerta a arquitecturas que se pueden entrenar de manera robusta, eficiente y, lo que es más importante, de forma auto supervisada.

En un nivel alto, una tubería de gráficos por computadora requiere una representación de objetos 3D y su posición absoluta en la escena, una descripción del material del que están hechos, luces y una cámara. Esta descripción de escena es interpretada por un renderizador para generar una representación sintética.

En comparación, un sistema de visión por computadora comenzaría desde una imagen e intentaría inferir los parámetros de la escena. Esto permite predecir qué objetos están en la escena, de qué materiales están hechos y la posición y orientación tridimensional.

La formación de sistemas de aprendizaje automático capaces de resolver estas complejas tareas de visión en 3D con mayor frecuencia requiere grandes cantidades de datos. Como el etiquetado de datos es un proceso costoso y complejo, es importante contar con mecanismos para diseñar modelos de aprendizaje automático que puedan comprender el mundo tridimensional mientras se entrena sin mucha supervisión. La combinación de la visión por computadora y las técnicas de gráficos por computadora brindan una oportunidad única para aprovechar las grandes cantidades de datos sin etiquetar fácilmente disponibles. Como se ilustra en la imagen a continuación, esto puede lograrse, por ejemplo, mediante el análisis por síntesis, donde el sistema de visión extrae los parámetros de la escena y el sistema de gráficos devuelve una imagen basada en ellos. Si el renderizado coincide con la imagen original, el sistema de visión ha extraído con precisión los parámetros de la escena. En esta configuración, la visión por computadora y los gráficos por computadora van de la mano, formando un único sistema de aprendizaje automático similar a un codificador automático, que se puede entrenar de manera auto supervisada.

Tensorflow Graphics se está desarrollando para ayudar a abordar este tipo de desafíos y, para hacerlo, proporciona un conjunto de gráficos y capas de geometría diferenciables (por ejemplo, cámaras, modelos de reflectancia, transformaciones espaciales, convoluciones de malla) y funcionalidades del visor 3D (por ejemplo, 3D TensorBoard) que puede usarse para entrenar y depurar los modelos de aprendizaje automático de su elección.