Odpowiedz już dziś na lokalne wydarzenie TensorFlow Everywhere!
Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Przegląd

W ciągu ostatnich kilku lat nastąpił wzrost liczby nowych, zróżnicowanych warstw graficznych, które można wstawić do architektur sieci neuronowych. Od transformatorów przestrzennych po zróżnicowane renderery graficzne, te nowe warstwy wykorzystują wiedzę zdobytą przez lata w dziedzinie wizji komputerowej i badań nad grafiką do tworzenia nowych i bardziej wydajnych architektur sieciowych. Jawne modelowanie geometrycznych uprzedzeń i ograniczeń w sieciach neuronowych otwiera drzwi dla architektur, które można trenować solidnie, wydajnie i, co ważniejsze, w sposób samokontroli.

Na wysokim poziomie potok grafiki komputerowej wymaga odwzorowania obiektów 3D i ich bezwzględnego położenia w scenie, opisu materiału, z którego są wykonane, światła i kamery. Ten opis sceny jest następnie interpretowany przez moduł renderujący w celu wygenerowania syntetycznego renderowania.

Dla porównania, komputerowy system wizyjny zaczynałby od obrazu i próbował wywnioskować parametry sceny. Pozwala to przewidzieć, które obiekty znajdują się na scenie, z jakich materiałów są wykonane oraz trójwymiarowe położenie i orientację.

Szkolenie systemów uczenia maszynowego zdolnych do rozwiązywania tych złożonych zadań wizyjnych 3D najczęściej wymaga dużych ilości danych. Ponieważ etykietowanie danych jest kosztownym i złożonym procesem, ważne jest, aby mieć mechanizmy do projektowania modeli uczenia maszynowego, które mogą zrozumieć trójwymiarowy świat podczas szkolenia bez większego nadzoru. Połączenie technik przetwarzania obrazu i grafiki komputerowej zapewnia wyjątkową możliwość wykorzystania ogromnych ilości łatwo dostępnych danych bez etykiet. Jak zilustrowano na poniższym obrazku, można to na przykład osiągnąć za pomocą analizy przez syntezę, w której system wizyjny wyodrębnia parametry sceny, a system graficzny odtwarza obraz na ich podstawie. Jeśli renderowanie odpowiada oryginalnemu obrazowi, system wizyjny dokładnie wyodrębnił parametry sceny. W tej konfiguracji wizja komputerowa i grafika komputerowa idą w parze, tworząc pojedynczy system uczenia maszynowego podobny do autoenkodera, który można trenować w sposób samodzielny.

Tensorflow Graphics jest opracowywany, aby pomóc w radzeniu sobie z tego typu wyzwaniami, a w tym celu zapewnia zestaw zróżnicowanych warstw graficznych i geometrycznych (np. Kamery, modele odbicia, transformacje przestrzenne, zwoje siatki) oraz funkcje przeglądarki 3D (np. 3D TensorBoard) może służyć do trenowania i debugowania wybranych modeli uczenia maszynowego.