Struktura uczenia się neuronowego

Neural Structured Learning (NSL) koncentruje się na szkoleniu głębokich sieci neuronowych poprzez wykorzystanie sygnałów strukturalnych (jeśli są dostępne) wraz z danymi wejściowymi funkcji. Jak wprowadzili Bui i in. (WSDM'18) te ustrukturyzowane sygnały są wykorzystywane do regulowania uczenia sieci neuronowej, zmuszając model do uczenia się dokładnych prognoz (minimalizując nadzorowaną stratę), przy jednoczesnym zachowaniu strukturalnego podobieństwa wejściowego patrz rysunek poniżej). Technika ta jest ogólna i może być stosowana w dowolnych architekturach neuronowych (takich jak NN sprzężone z wyprzedzeniem, NN splotowe i NN rekurencyjne).

Koncepcja NSL

Należy zauważyć, że uogólnione równanie straty sąsiada jest elastyczne i może mieć inne formy niż przedstawione powyżej. Na przykład możemy również wybrać

$$\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))$$

być stratą sąsiada, która oblicza odległość między prawdą gruntu

$$y_i$$

i przepowiednia od sąsiada

$$g_\theta(x_j)$$

. Jest to powszechnie stosowane w uczeniu się kontradyktoryjności (Goodfellow i in., ICLR'15) . Dlatego NSL uogólnia na uczenie się za pomocą grafów neuronowych, jeśli sąsiedzi są jawnie reprezentowani przez wykres, i na uczenie się przeciwstawne, jeśli sąsiedzi są pośrednio indukowani przez perturbacje przeciwnika.

Ogólny przepływ pracy dla uczenia się opartego na neuronach jest zilustrowany poniżej. Czarne strzałki reprezentują konwencjonalny przepływ pracy, a czerwone strzałki przedstawiają nowy przepływ pracy wprowadzony przez nakaz NSL w celu wykorzystania ustrukturyzowanych sygnałów. Po pierwsze, próbki szkoleniowe są rozszerzane o sygnały strukturalne. Gdy sygnały ustrukturyzowane nie są wyraźnie podawane, można je skonstruować lub wywołać (to ostatnie dotyczy uczenia się przez kontradyktoryjność). Następnie rozszerzone próbki uczące (w tym zarówno oryginalne próbki, jak i odpowiadające im sąsiedzi) są podawane do sieci neuronowej w celu obliczenia ich osadzenia. Odległość między osadzeniem próbki a osadzeniem jej sąsiada jest obliczana i używana jako strata sąsiada, która jest traktowana jako człon regularyzacyjny i dodawana do straty końcowej. W przypadku jawnej regularyzacji opartej na sąsiadach zwykle obliczamy utratę sąsiada jako odległość między osadzeniem próbki a osadzeniem sąsiada. Jednak do obliczenia straty sąsiada można wykorzystać dowolną warstwę sieci neuronowej. Z drugiej strony, w przypadku indukowanej regularyzacji opartej na sąsiadach (kontradyktoryjności), obliczamy stratę sąsiada jako odległość między prognozą wyjściową indukowanego przeciwnego sąsiada a etykietą prawdy gruntu.

Przepływ pracy NSL

Dlaczego warto korzystać z nakazu NSL?

NSL ma następujące zalety:

  • Wyższa dokładność : ustrukturyzowany sygnał (y) w próbkach może dostarczać informacji, które nie zawsze są dostępne w danych wejściowych funkcji; w związku z tym wykazano, że wspólne podejście szkoleniowe (obejmujące zarówno ustrukturyzowane sygnały, jak i cechy) przewyższa wiele istniejących metod (które polegają na szkoleniu tylko z funkcjami) w szerokim zakresie zadań, takich jak klasyfikacja dokumentów i semantyczna klasyfikacja intencji ( Bui et al. ., WSDM'18 & Kipf i wsp., ICLR'17 ).
  • Odporność : wykazano, że modele wytrenowane na przykładach kontradyktoryjnych są odporne na przeciwstawne perturbacje zaprojektowane w celu wprowadzenia w błąd przewidywań lub klasyfikacji modelu ( Goodfellow i in., ICLR'15 i Miyato i in., ICLR'16 ). Gdy liczba próbek treningowych jest niewielka, szkolenie z wykorzystaniem przykładów przeciwników również pomaga poprawić dokładność modelu ( Tsipras i in., ICLR'19 ).
  • Wymagane są mniej oznakowane dane : NSL umożliwia sieciom neuronowym wykorzystanie zarówno danych oznaczonych, jak i nieoznaczonych, co rozszerza paradygmat uczenia się na uczenie się częściowo nadzorowane . W szczególności NSL umożliwia sieci trenowanie przy użyciu oznaczonych danych, tak jak w ustawieniu nadzorowanym, i jednocześnie napędza sieć do uczenia się podobnych ukrytych reprezentacji dla „sąsiednich próbek”, które mogą mieć etykiety lub nie. Technika ta okazała się bardzo obiecująca, jeśli chodzi o poprawę dokładności modelu, gdy ilość znakowanych danych jest stosunkowo niewielka ( Bui i in., WSDM'18 i Miyato i in., ICLR'16 ).

Samouczki krok po kroku

Aby uzyskać praktyczne doświadczenie w uczeniu się opartym na neuronach, mamy trzy samouczki, które obejmują różne scenariusze, w których sygnały strukturalne mogą być jawnie podawane, wywoływane lub konstruowane: