Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Przegląd

W ciągu ostatnich kilku lat nastąpił wzrost liczby nowych, zróżnicowanych warstw graficznych, które można wstawić do architektur sieci neuronowych. Od transformatorów przestrzennych po zróżnicowane renderery graficzne, te nowe warstwy wykorzystują wiedzę zdobytą przez lata w dziedzinie wizji komputerowej i badań nad grafiką do tworzenia nowych i bardziej wydajnych architektur sieciowych. Jawne modelowanie geometrycznych uprzedzeń i ograniczeń w sieciach neuronowych otwiera drzwi dla architektur, które mogą być trenowane solidnie, wydajnie i, co ważniejsze, w sposób samokontroli.

Na wysokim poziomie potok grafiki komputerowej wymaga reprezentacji obiektów 3D i ich bezwzględnego położenia w scenie, opisu materiału, z którego są wykonane, światła i kamery. Ten opis sceny jest następnie interpretowany przez moduł renderujący w celu wygenerowania syntetycznego renderowania.

Dla porównania, komputerowy system wizyjny zaczynałby od obrazu i próbował wywnioskować parametry sceny. Pozwala to przewidzieć, jakie obiekty znajdują się na scenie, z jakich materiałów są wykonane oraz trójwymiarowe położenie i orientację.

Szkolenie systemów uczenia maszynowego zdolnych do rozwiązywania tych złożonych zadań wizyjnych 3D najczęściej wymaga dużych ilości danych. Ponieważ etykietowanie danych jest kosztownym i złożonym procesem, ważne jest, aby mieć mechanizmy do projektowania modeli uczenia maszynowego, które mogą zrozumieć trójwymiarowy świat podczas szkolenia bez większego nadzoru. Połączenie technik przetwarzania obrazu i grafiki komputerowej daje wyjątkową okazję do wykorzystania ogromnych ilości łatwo dostępnych danych bez etykiet. Jak zilustrowano na poniższym obrazku, można to na przykład osiągnąć za pomocą analizy przez syntezę, w której system wizyjny wyodrębnia parametry sceny, a system graficzny odtwarza obraz na ich podstawie. Jeśli renderowanie odpowiada oryginalnemu obrazowi, system wizyjny dokładnie wyodrębnił parametry sceny. W tej konfiguracji wizja komputerowa i grafika komputerowa idą w parze, tworząc pojedynczy system uczenia maszynowego podobny do autoenkodera, który można trenować w sposób samodzielny.

Tensorflow Graphics jest opracowywany, aby pomóc sprostać tego typu wyzwaniom, a aby to zrobić, zapewnia zestaw zróżnicowanych warstw graficznych i geometrycznych (np. Kamery, modele odbicia, transformacje przestrzenne, zwoje siatki) oraz funkcje przeglądarki 3D (np. TensorBoard 3D), które może służyć do trenowania i debugowania wybranych modeli uczenia maszynowego.