Neural Structured Learning (NSL) koncentruje się na szkoleniu głębokich sieci neuronowych poprzez wykorzystanie ustrukturyzowanych sygnałów (jeśli są dostępne) wraz z danymi wejściowymi funkcji. Jak wprowadzili Bui i in. (WSDM'18) , te ustrukturyzowane sygnały są wykorzystywane do regularyzacji uczenia sieci neuronowej, zmuszając model do uczenia się dokładnych przewidywań (poprzez minimalizację nadzorowanych strat), przy jednoczesnym zachowaniu strukturalnego podobieństwa wejściowego (poprzez minimalizację utraty sąsiada , patrz rysunek poniżej). Ta technika jest ogólna i może być stosowana w dowolnych architekturach neuronowych (takich jak sieci NN z wyprzedzeniem, konwolucyjne sieci NN i rekurencyjne sieci NN).
Należy zauważyć, że uogólnione równanie straty sąsiada jest elastyczne i może mieć inne formy niż ta zilustrowana powyżej. Na przykład, możemy również wybrać\(\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))\) jako stratę sąsiada, która oblicza odległość między prawdą podstawową \(y_i\)a przewidywaniem sąsiada \(g_\theta(x_j)\). Jest to powszechnie stosowane w uczeniu się kontradyktoryjności (Goodfellow i in., ICLR'15) . Dlatego NSL uogólnia uczenie się grafów neuronowych , jeśli sąsiedzi są wyraźnie reprezentowani przez wykres, oraz uczenie się kontradyktoryjności, jeśli sąsiedzi są niejawnie indukowani przez zakłócenia przeciwnika.
Ogólny przepływ pracy dla ustrukturyzowanego uczenia neuronowego jest zilustrowany poniżej. Czarne strzałki reprezentują konwencjonalny przepływ pracy szkoleniowej, a czerwone strzałki reprezentują nowy przepływ pracy wprowadzony przez NSL w celu wykorzystania ustrukturyzowanych sygnałów. Po pierwsze, próbki uczące są powiększane o ustrukturyzowane sygnały. Gdy ustrukturyzowane sygnały nie są wyraźnie dostarczane, można je skonstruować lub wywołać (to ostatnie dotyczy uczenia się kontradyktoryjnego). Następnie rozszerzone próbki uczące (obejmujące zarówno próbki oryginalne, jak i ich odpowiednie sąsiednie) są przesyłane do sieci neuronowej w celu obliczenia ich osadzeń. Odległość między osadzeniem próbki a osadzeniem sąsiada jest obliczana i używana jako strata sąsiada, która jest traktowana jako składnik regularyzacji i dodawana do końcowej straty. W przypadku jawnej regularyzacji opartej na sąsiadach zwykle obliczamy stratę sąsiada jako odległość między osadzeniem próbki a osadzeniem sąsiada. Jednak do obliczenia utraty sąsiada można użyć dowolnej warstwy sieci neuronowej. Z drugiej strony, dla indukowanej regularyzacji opartej na sąsiadach (przeciwnikowej) obliczamy stratę sąsiada jako odległość między prognozą wyjściową indukowanego sąsiada przeciwnika a podstawową etykietą prawdy.
Dlaczego warto korzystać z NSL?
NSL ma następujące zalety:
- Większa dokładność : uporządkowany sygnał (sygnały) wśród próbek może dostarczyć informacji, które nie zawsze są dostępne w danych wejściowych funkcji; w związku z tym wykazano, że wspólne podejście do treningu (zarówno ustrukturyzowane sygnały, jak i cechy) przewyższa wiele istniejących metod (które opierają się na szkoleniu wyłącznie z cechami) w szerokim zakresie zadań, takich jak klasyfikacja dokumentów i klasyfikacja intencji semantycznych ( Bui i in . ., WSDM'18 i Kipf i in., ICLR'17 ).
- Odporność : modele wytrenowane na przykładach kontradyktoryjnych okazały się odporne na perturbacje kontradyktoryjne zaprojektowane w celu wprowadzenia w błąd przewidywania lub klasyfikacji modelu ( Goodfellow i in., ICLR'15 i Miyato i in., ICLR'16 ). Gdy liczba próbek uczących jest niewielka, uczenie z przeciwstawnymi przykładami również pomaga poprawić dokładność modelu ( Tsipras i in., ICLR'19 ).
- Mniej wymagane dane oznakowane : NSL umożliwia sieciom neuronowym wykorzystanie zarówno danych oznakowanych, jak i nieoznakowanych, co rozszerza paradygmat uczenia się na uczenie częściowo nadzorowane . W szczególności NSL umożliwia sieci uczenie się przy użyciu oznaczonych danych, tak jak w nadzorowanym otoczeniu, a jednocześnie powoduje, że sieć uczy się podobnych ukrytych reprezentacji „sąsiadujących próbek”, które mogą, ale nie muszą mieć etykiet. Technika ta okazała się bardzo obiecująca w zakresie poprawy dokładności modelu, gdy ilość znakowanych danych jest stosunkowo niewielka ( Bui i in., WSDM'18 i Miyato i in., ICLR'16 ).
Samouczki krok po kroku
Aby zdobyć praktyczne doświadczenie z uczeniem neuronowym, przygotowaliśmy samouczki, które obejmują różne scenariusze, w których ustrukturyzowane sygnały mogą być jawnie podawane, konstruowane lub indukowane. Tu jest kilka:
Regularyzacja grafów do klasyfikacji dokumentów z wykorzystaniem grafów naturalnych . W tym samouczku omówimy użycie regularyzacji grafów do klasyfikowania dokumentów, które tworzą graf naturalny (organiczny).
Uregulowanie wykresów do klasyfikacji nastrojów za pomocą wykresów syntetycznych . W tym samouczku zademonstrujemy użycie regularyzacji wykresów do klasyfikowania nastrojów recenzji filmów poprzez konstruowanie (syntetyzowanie) ustrukturyzowanych sygnałów.
Nauka kontradyktoryjności dla klasyfikacji obrazów . W tym samouczku omówimy zastosowanie uczenia kontradyktoryjnego (gdzie indukowane są ustrukturyzowane sygnały) do klasyfikowania obrazów zawierających cyfry.
Więcej przykładów i samouczków można znaleźć w katalogu przykładów naszego repozytorium GitHub.