このページは Cloud Translation API によって翻訳されました。
Switch to English

概観

ここ数年は、ニューラルネットワークアーキテクチャに挿入できる新しい差別化可能なグラフィックスレイヤーが増加しています。空間トランスフォーマーから差別化可能なグラフィックスレンダラーまで、これらの新しいレイヤーは、長年のコンピュータービジョンとグラフィックスの研究で得られた知識を活用して、新しいより効率的なネットワークアーキテクチャを構築します。幾何学的な事前条件と制約をニューラルネットワークに明示的にモデル化することで、堅牢かつ効率的に、さらに重要なことに、自己監視方式でトレーニングできるアーキテクチャへの扉が開かれます。

高レベルでは、コンピューターグラフィックスパイプラインには、3Dオブジェクトの表現とシーン内でのそれらの絶対位置、それらが構成されているマテリアルの説明、ライト、カメラが必要です。このシーンの説明はレンダラーによって解釈され、合成レンダリングが生成されます。

対照的に、コンピュータービジョンシステムは画像から開始して、シーンのパラメーターを推測しようとします。これにより、シーン内のオブジェクト、オブジェクトの材質、および3次元の位置と方向を予測できます。

これらの複雑な3Dビジョンタスクを解決できる機械学習システムをトレーニングするには、多くの場合、大量のデータが必要です。データのラベル付けはコストが高く複雑なプロセスであるため、あまり監視しなくてもトレーニングを受けながら3次元の世界を理解できる機械学習モデルを設計するメカニズムが重要です。コンピュータービジョンとコンピューターグラフィックス技術を組み合わせることで、すぐに利用できる膨大な量のラベルなしデータを活用するユニークな機会が得られます。下の画像に示すように、これは、たとえば、ビジョンシステムがシーンパラメータを抽出し、グラフィックシステムがそれらに基づいて画像をレンダリングする合成による分析を使用して実現できます。レンダリングが元の画像と一致する場合、ビジョンシステムはシーンパラメータを正確に抽出しています。このセットアップでは、コンピュータービジョンとコンピューターグラフィックスが連携して、自己監視型の方法でトレーニングできるオートエンコーダーと同様の単一の機械学習システムを形成します。

Tensorflow Graphicsは、これらのタイプの課題への取り組みを支援するために開発されており、そうするために、一連の微分可能なグラフィックスとジオメトリレイヤー(たとえば、カメラ、反射モデル、空間変換、メッシュ畳み込み)と3Dビューア機能(たとえば、3D TensorBoard)を提供します選択した機械学習モデルのトレーニングとデバッグに使用できます。