12 月 7 日の Women in ML シンポジウムに参加する今すぐ登録する

概要

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ここ数年、ニューラル ネットワーク アーキテクチャに挿入できる新しい微分可能なグラフィックス レイヤーが増加しています。空間トランスフォーマーから微分可能なグラフィックス レンダラーまで、これらの新しいレイヤーは、長年にわたるコンピューター ビジョンとグラフィックス研究で得られた知識を活用して、新しいより効率的なネットワーク アーキテクチャを構築します。幾何学的な事前確率と制約をニューラル ネットワークに明示的にモデル化することで、堅牢かつ効率的に、さらに重要なことには、自己監視型の方法でトレーニングできるアーキテクチャへの扉が開かれます。

大まかに言えば、コンピュータ グラフィックス パイプラインには、3D オブジェクトの表現とシーン内での絶対位置、それらが構成されているマテリアルの説明、ライト、およびカメラが必要です。次に、このシーン記述はレンダラーによって解釈され、合成レンダリングが生成されます。

対照的に、コンピューター ビジョン システムは画像から開始し、シーンのパラメーターを推測しようとします。これにより、シーン内にあるオブジェクト、それらが構成されている素材、および 3 次元の位置と方向を予測できます。

これらの複雑な 3D ビジョン タスクを解決できる機械学習システムのトレーニングには、多くの場合、大量のデータが必要です。データのラベル付けはコストがかかり複雑なプロセスであるため、あまり監督を必要とせずにトレーニングしながら、3 次元の世界を理解できる機械学習モデルを設計するメカニズムを持つことが重要です。コンピューター ビジョンとコンピューター グラフィックスの手法を組み合わせることで、すぐに利用できる膨大な量のラベルなしデータを活用するユニークな機会が提供されます。以下の画像に示すように、これは、たとえば、ビジョン システムがシーン パラメータを抽出し、グラフィックス システムがそれらに基づいて画像をレンダリングする合成による分析を使用して実現できます。レンダリングが元の画像と一致する場合、ビジョン システムはシーン パラメータを正確に抽出しています。このセットアップでは、コンピューター ビジョンとコンピューター グラフィックスが連携して、自己監視型の方法でトレーニングできるオートエンコーダーに似た単一の機械学習システムを形成します。

Tensorflow Graphics は、これらのタイプの課題への取り組みを支援するために開発されており、そのために、一連の微分可能なグラフィックおよびジオメトリ レイヤー (カメラ、反射モデル、空間変換、メッシュ畳み込み) および 3D ビューア機能 (3D TensorBoard など) を提供します。選択した機械学習モデルのトレーニングとデバッグに使用できます。