Assista palestras, sessões de produtos, workshops e muito mais na lista de reprodução do Google I / O See

Visão geral

Nos últimos anos, assistimos a um aumento de novas camadas de gráficos diferenciáveis ​​que podem ser inseridas em arquiteturas de rede neural. De transformadores espaciais a renderizadores gráficos diferenciáveis, essas novas camadas alavancam o conhecimento adquirido ao longo de anos de visão computacional e pesquisa gráfica para construir arquiteturas de rede novas e mais eficientes. Modelar explicitamente antecedentes geométricos e restrições em redes neurais abre a porta para arquiteturas que podem ser treinadas de maneira robusta, eficiente e, mais importante, de forma autossupervisionada.

Em um alto nível, um pipeline de computação gráfica requer uma representação de objetos 3D e seu posicionamento absoluto na cena, uma descrição do material de que são feitos, luzes e uma câmera. Essa descrição da cena é então interpretada por um renderizador para gerar uma renderização sintética.

Em comparação, um sistema de visão por computador começaria a partir de uma imagem e tentaria inferir os parâmetros da cena. Isso permite a previsão de quais objetos estão na cena, de que materiais são feitos e a posição e orientação tridimensionais.

O treinamento de sistemas de aprendizado de máquina capazes de resolver essas tarefas complexas de visão 3D geralmente requer grandes quantidades de dados. Como rotular dados é um processo caro e complexo, é importante ter mecanismos para projetar modelos de aprendizado de máquina que possam compreender o mundo tridimensional enquanto são treinados sem muita supervisão. A combinação de técnicas de visão computacional e computação gráfica oferece uma oportunidade única de aproveitar as grandes quantidades de dados não rotulados prontamente disponíveis. Conforme ilustrado na imagem abaixo, isso pode, por exemplo, ser obtido usando análise por síntese, onde o sistema de visão extrai os parâmetros da cena e o sistema gráfico renderiza de volta uma imagem com base neles. Se a renderização corresponder à imagem original, o sistema de visão extraiu com precisão os parâmetros da cena. Nessa configuração, a visão computacional e a computação gráfica andam de mãos dadas, formando um único sistema de aprendizado de máquina semelhante a um autencoder, que pode ser treinado de forma autossupervisionada.

O Tensorflow Graphics está sendo desenvolvido para ajudar a enfrentar esses tipos de desafios e, para isso, fornece um conjunto de camadas de geometria e gráficos diferenciáveis ​​(por exemplo, câmeras, modelos de refletância, transformações espaciais, convoluções de malha) e funcionalidades do visualizador 3D (por exemplo, TensorBoard 3D) que pode ser usado para treinar e depurar seus modelos de aprendizado de máquina de sua escolha.