本頁面由 Cloud Translation API 翻譯而成。
Switch to English

總覽

在過去的幾年中,可以將其插入神經網絡體系結構中的新型可區分圖形層有所增加。從空間轉換器到可區分的圖形渲染器,這些新層利用了多年計算機視覺和圖形研究中獲得的知識來構建新型,更高效的網絡體系結構。明確地將幾何先驗和約束建模到神經網絡中,這為可以以自監督的方式進行健壯,有效且更重要的是訓練的體系結構打開了一扇門。

在較高的層次上,計算機圖形流水線需要表示3D對象及其在場景中的絕對位置,並描述它們的材質,燈光和照相機。然後,該場景描述由渲染器解釋以生成合成渲染。

相比之下,計算機視覺系統將從圖像開始,並嘗試推斷場景的參數。這樣就可以預測場景中存在哪些對象,它們由什麼材料製成以及三維位置和方向。

能夠解決這些複雜的3D視覺任務的訓練機器學習系統通常需要大量數據。由於標記數據是一個昂貴且複雜的過程,因此重要的是要有一種機制來設計機器學習模型,該模型可以理解三維世界,而無需太多的監督就可以對其進行訓練。將計算機視覺和計算機圖形技術相結合提供了一個獨特的機會,可以利用大量容易獲得的未標記數據。如下圖所示,例如,這可以通過綜合分析來實現,其中視覺系統提取場景參數,圖形系統根據這些參數渲染出圖像。如果渲染與原始圖像匹配,則視覺系統已準確提取了場景參數。在這種設置中,計算機視覺和計算機圖形學齊頭並進,形成了類似於自動編碼器的單個機器學習系統,可以以自我監督的方式對其進行訓練。

正在開發Tensorflow Graphics來幫助解決這些類型的挑戰,為此,它提供了一組可區分的圖形和幾何層(例如相機,反射模型,空間變換,網格卷積)和3D查看器功能(例如3D TensorBoard),可用於訓練和調試您選擇的機器學習模型。