Esta página foi traduzida pela API Cloud Translation.
Switch to English

Visão geral

Nos últimos anos, houve um aumento de novas camadas gráficas diferenciáveis ​​que podem ser inseridas em arquiteturas de redes neurais. Desde transformadores espaciais a renderizadores gráficos diferenciáveis, essas novas camadas aproveitam o conhecimento adquirido ao longo de anos de pesquisa em visão computacional e gráfica para criar arquiteturas de rede novas e mais eficientes. A modelagem explícita de limites e restrições geométricas em redes neurais abre as portas para arquiteturas que podem ser treinadas de maneira robusta, eficiente e mais importante, de maneira auto-supervisionada.

Em um nível alto, um pipeline de computação gráfica requer uma representação de objetos 3D e seu posicionamento absoluto na cena, uma descrição do material de que são feitos, luzes e uma câmera. Essa descrição da cena é então interpretada por um renderizador para gerar uma renderização sintética.

Em comparação, um sistema de visão computacional começaria a partir de uma imagem e tentaria inferir os parâmetros da cena. Isso permite prever quais objetos estão em cena, de quais materiais eles são feitos e a posição e orientação tridimensionais.

Sistemas de aprendizado de máquina de treinamento capazes de resolver essas tarefas complexas de visão 3D geralmente requerem grandes quantidades de dados. Como os dados de rotulagem são um processo caro e complexo, é importante ter mecanismos para projetar modelos de aprendizado de máquina que possam compreender o mundo tridimensional enquanto são treinados sem muita supervisão. A combinação de visão computacional e técnicas de computação gráfica oferece uma oportunidade única de aproveitar a grande quantidade de dados não rotulados prontamente disponíveis. Como ilustrado na imagem abaixo, isso pode, por exemplo, ser alcançado usando a análise por síntese, em que o sistema de visão extrai os parâmetros da cena e o sistema gráfico renderiza uma imagem com base neles. Se a renderização corresponder à imagem original, o sistema de visão extraiu com precisão os parâmetros da cena. Nessa configuração, a visão computacional e a computação gráfica andam de mãos dadas, formando um único sistema de aprendizado de máquina semelhante a um autoencoder, que pode ser treinado de maneira auto-supervisionada.

O Tensorflow Graphics está sendo desenvolvido para ajudar a enfrentar esses tipos de desafios e, para isso, fornece um conjunto de camadas diferenciais de gráficos e geometria (por exemplo, câmeras, modelos de refletância, transformações espaciais, convoluções de malha) e funcionalidades de visualizador em 3D (por exemplo, 3D TensorBoard) que pode ser usado para treinar e depurar seus modelos de aprendizado de máquina de sua escolha.