بررسی اجمالی

در چند سال اخیر شاهد افزایش لایه‌های گرافیکی متمایز جدید بوده‌ایم که می‌توان آن‌ها را در معماری شبکه‌های عصبی درج کرد. از ترانسفورماتورهای فضایی گرفته تا رندرهای گرافیکی متمایز، این لایه‌های جدید از دانش به‌دست‌آمده در طول سال‌ها تحقیقات گرافیکی و بینایی کامپیوتری برای ایجاد معماری‌های شبکه جدید و کارآمدتر استفاده می‌کنند. مدل‌سازی صریح مقدمات و محدودیت‌های هندسی در شبکه‌های عصبی، دری را به روی معماری‌هایی باز می‌کند که می‌توان آن‌ها را قوی، کارآمد، و مهم‌تر از آن به شیوه‌ای تحت نظارت خود آموزش داد.

در سطح بالایی، خط لوله گرافیک کامپیوتری به نمایش اجسام سه بعدی و موقعیت مطلق آنها در صحنه، توضیح موادی که از آنها ساخته شده اند، نورها و دوربین نیاز دارد. این توصیف صحنه سپس توسط یک رندر برای ایجاد یک رندر مصنوعی تفسیر می شود.

در مقایسه، یک سیستم بینایی کامپیوتری از یک تصویر شروع می‌شود و سعی می‌کند پارامترهای صحنه را استنتاج کند. این اجازه می دهد تا پیش بینی اینکه کدام اجسام در صحنه هستند، از چه موادی ساخته شده اند، و موقعیت و جهت سه بعدی را پیش بینی کنید.

آموزش سیستم های یادگیری ماشینی که قادر به حل این وظایف پیچیده بینایی سه بعدی هستند اغلب به مقادیر زیادی داده نیاز دارد. از آنجایی که برچسب‌گذاری داده‌ها فرآیندی پرهزینه و پیچیده است، داشتن مکانیسم‌هایی برای طراحی مدل‌های یادگیری ماشینی که بتواند دنیای سه بعدی را درک کند و در عین حال بدون نظارت زیاد آموزش ببیند، مهم است. ترکیب بینایی کامپیوتر و تکنیک‌های گرافیک کامپیوتری فرصتی منحصر به فرد برای استفاده از حجم وسیعی از داده‌های بدون برچسب در دسترس است. همانطور که در تصویر زیر نشان داده شده است، به عنوان مثال، می توان با استفاده از تجزیه و تحلیل از طریق سنتز که در آن سیستم بینایی پارامترهای صحنه را استخراج می کند و سیستم گرافیکی یک تصویر را بر اساس آنها نمایش می دهد، به دست آورد. اگر رندر با تصویر اصلی مطابقت داشته باشد، سیستم بینایی به دقت پارامترهای صحنه را استخراج کرده است. در این راه‌اندازی، بینایی کامپیوتر و گرافیک کامپیوتری دست به دست هم داده و یک سیستم یادگیری ماشینی شبیه به رمزگذار خودکار را تشکیل می‌دهند که می‌توان آن را به شیوه‌ای تحت نظارت خود آموزش داد.

Tensorflow Graphics برای کمک به مقابله با این نوع چالش‌ها توسعه می‌یابد و برای انجام این کار، مجموعه‌ای از لایه‌های گرافیکی و هندسی قابل تمایز (مانند دوربین‌ها، مدل‌های بازتابی، تبدیل‌های فضایی، پیچش‌های مش) و عملکردهای بیننده سه‌بعدی (مانند 3D TensorBoard) را ارائه می‌کند. می تواند برای آموزش و اشکال زدایی مدل های یادگیری ماشینی انتخابی شما استفاده شود.