Descripción general

Los últimos años han visto un aumento de nuevas capas de gráficos diferenciables que se pueden insertar en arquitecturas de redes neuronales. Desde transformadores espaciales hasta renderizadores de gráficos diferenciables, estas nuevas capas aprovechan el conocimiento adquirido durante años de investigación de gráficos y visión por computadora para construir arquitecturas de red nuevas y más eficientes. Modelar explícitamente las limitaciones y los antecedentes geométricos en redes neuronales abre la puerta a arquitecturas que se pueden entrenar de manera robusta, eficiente y, lo que es más importante, de manera auto-supervisada.

En un nivel alto, una tubería de gráficos por computadora requiere una representación de objetos 3D y su posicionamiento absoluto en la escena, una descripción del material del que están hechos, luces y una cámara. Luego, un renderizador interpreta esta descripción de la escena para generar una representación sintética.

En comparación, un sistema de visión por computadora comenzaría a partir de una imagen e intentaría inferir los parámetros de la escena. Esto permite predecir qué objetos están en la escena, de qué materiales están hechos y la posición y orientación tridimensional.

La formación de sistemas de aprendizaje automático capaces de resolver estas complejas tareas de visión 3D suele requerir grandes cantidades de datos. Dado que el etiquetado de datos es un proceso costoso y complejo, es importante tener mecanismos para diseñar modelos de aprendizaje automático que puedan comprender el mundo tridimensional mientras reciben capacitación sin mucha supervisión. La combinación de técnicas de visión por computadora y gráficos por computadora brinda una oportunidad única para aprovechar la gran cantidad de datos sin etiquetar fácilmente disponibles. Como se ilustra en la imagen a continuación, esto se puede lograr, por ejemplo, mediante análisis por síntesis en el que el sistema de visión extrae los parámetros de la escena y el sistema de gráficos devuelve una imagen basada en ellos. Si el renderizado coincide con la imagen original, el sistema de visión ha extraído con precisión los parámetros de la escena. En esta configuración, la visión por computadora y los gráficos por computadora van de la mano, formando un único sistema de aprendizaje automático similar a un codificador automático, que se puede entrenar de manera auto-supervisada.

Tensorflow Graphics se está desarrollando para ayudar a abordar este tipo de desafíos y, para hacerlo, proporciona un conjunto de gráficos diferenciables y capas de geometría (por ejemplo, cámaras, modelos de reflectancia, transformaciones espaciales, convoluciones de malla) y funciones de visor 3D (por ejemplo, 3D TensorBoard) que se puede utilizar para entrenar y depurar los modelos de aprendizaje automático de su elección.