Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

Gambaran

Beberapa tahun terakhir telah terjadi peningkatan lapisan grafis novel yang dapat dibedakan yang dapat dimasukkan dalam arsitektur jaringan saraf. Dari transformer spasial hingga renderer grafis yang dapat dibedakan, lapisan baru ini memanfaatkan pengetahuan yang diperoleh selama bertahun-tahun tentang visi komputer dan penelitian grafis untuk membangun arsitektur jaringan baru dan lebih efisien. Secara eksplisit memodelkan priorat geometrik dan kendala dalam jaringan saraf membuka pintu bagi arsitektur yang dapat dilatih secara kuat, efisien, dan yang lebih penting, dengan cara yang diawasi sendiri.

Pada tingkat tinggi, jalur pipa grafis komputer membutuhkan representasi objek 3D dan posisi absolutnya dalam adegan, deskripsi bahan yang dibuat, lampu, dan kamera. Deskripsi adegan ini kemudian ditafsirkan oleh perender untuk menghasilkan rendering sintetis.

Sebagai perbandingan, sistem visi komputer akan mulai dari gambar dan mencoba menyimpulkan parameter adegan. Ini memungkinkan prediksi objek mana yang ada dalam adegan, bahan apa yang dibuat, dan posisi dan orientasi tiga dimensi.

Pelatihan sistem pembelajaran mesin yang mampu menyelesaikan tugas-tugas penglihatan 3D yang kompleks ini paling sering membutuhkan data dalam jumlah besar. Karena pelabelan data adalah proses yang mahal dan kompleks, penting untuk memiliki mekanisme untuk merancang model pembelajaran mesin yang dapat memahami dunia tiga dimensi sambil dilatih tanpa banyak pengawasan. Menggabungkan visi komputer dan teknik grafis komputer memberikan peluang unik untuk memanfaatkan sejumlah besar data tanpa label yang tersedia. Seperti diilustrasikan dalam gambar di bawah ini, ini dapat, misalnya, dicapai dengan menggunakan analisis dengan sintesis di mana sistem visi mengekstraksi parameter adegan dan sistem grafis membuat kembali gambar berdasarkan pada mereka. Jika rendering cocok dengan gambar asli, sistem visi telah secara akurat mengekstraksi parameter adegan. Dalam pengaturan ini, visi komputer dan grafik komputer berjalan beriringan, membentuk sistem pembelajaran mesin tunggal yang mirip dengan autoencoder, yang dapat dilatih secara mandiri.

Tensorflow Graphics sedang dikembangkan untuk membantu mengatasi jenis-jenis tantangan ini dan untuk itu, ia menyediakan satu set grafis dan lapisan geometri yang dapat dibedakan (misalnya kamera, model pemantulan, transformasi spasial, konvolusi mesh) dan fungsionalitas penampil 3D (misalnya 3D TensorBoard) yang dapat digunakan untuk melatih dan men-debug model pembelajaran mesin pilihan Anda.