Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Struktura uczenia się neuronowego

Neural Structured Learning (NSL) koncentruje się na trenowaniu głębokich sieci neuronowych poprzez wykorzystywanie sygnałów strukturalnych (jeśli są dostępne) wraz z danymi wejściowymi funkcji. Jak wprowadzili Bui i wsp. (WSDM'18) , te ustrukturyzowane sygnały są wykorzystywane do regulowania uczenia sieci neuronowej, zmuszając model do uczenia się dokładnych prognoz (minimalizując nadzorowaną stratę), przy jednoczesnym zachowaniu strukturalnego podobieństwa wejściowego (minimalizując utratę sąsiadów) patrz rysunek poniżej). Technika ta jest ogólna i może być stosowana na dowolnych architekturach neuronowych (takich jak NN sprzężone z wyprzedzeniem, NN splotowe i Rekurencyjne NN).

Koncepcja NSL

Należy zauważyć, że uogólnione równanie straty sąsiada jest elastyczne i może mieć inne formy niż przedstawione powyżej. Na przykład możemy również wybrać

$$ \ sum_ {x_j \ in \ mathcal {N} (x_i)} \ mathcal {E} (y_i, g_ \ theta (x_j)) $$

być stratą sąsiada, która oblicza odległość między prawdą gruntu

$$ y_i $$

i przepowiednia od sąsiada

$$ g_ \ theta (x_j) $$

. Jest to powszechnie stosowane w uczeniu się kontradyktoryjnym (Goodfellow i in., ICLR'15) . Dlatego NSL uogólnia na uczenie się za pomocą grafów neuronowych, jeśli sąsiedzi są jawnie reprezentowani przez wykres, i na uczenie się przeciwstawne, jeśli sąsiedzi są niejawnie indukowani przez perturbacje przeciwnika.

Ogólny przepływ pracy dla uczenia się opartego na neuronach przedstawiono poniżej. Czarne strzałki reprezentują konwencjonalny przepływ pracy, a czerwone strzałki przedstawiają nowy przepływ pracy wprowadzony przez nakaz NSL w celu wykorzystania ustrukturyzowanych sygnałów. Po pierwsze, próbki szkoleniowe są rozszerzane o sygnały strukturalne. Gdy sygnały ustrukturyzowane nie są wyraźnie podane, można je skonstruować lub wywołać (to ostatnie dotyczy uczenia się przez kontradyktoryjność). Następnie rozszerzone próbki uczące (w tym zarówno oryginalne próbki, jak i odpowiadające im sąsiedzi) są podawane do sieci neuronowej w celu obliczenia ich osadzenia. Odległość między osadzeniem próbki a osadzeniem jej sąsiada jest obliczana i używana jako strata sąsiada, która jest traktowana jako człon regularyzacyjny i dodawana do straty końcowej. W przypadku jawnej regularyzacji opartej na sąsiadach zwykle obliczamy utratę sąsiada jako odległość między osadzeniem próbki a osadzeniem sąsiada. Jednak do obliczenia straty sąsiada można wykorzystać dowolną warstwę sieci neuronowej. Z drugiej strony, w przypadku indukowanej regularyzacji opartej na sąsiadach (kontradyktoryjności), obliczamy stratę sąsiada jako odległość między prognozą wyjściową indukowanego przeciwnego sąsiada a etykietą prawdy.

Przepływ pracy NSL

Dlaczego warto korzystać z nakazu NSL?

NSL ma następujące zalety:

  • Wyższa dokładność : ustrukturyzowany sygnał (y) w próbkach może dostarczyć informacji, które nie zawsze są dostępne w wejściach funkcji; w związku z tym wykazano, że wspólne podejście szkoleniowe (obejmujące zarówno ustrukturyzowane sygnały, jak i cechy) przewyższa wiele istniejących metod (które opierają się na szkoleniu tylko z funkcjami) w szerokim zakresie zadań, takich jak klasyfikacja dokumentów i semantyczna klasyfikacja intencji ( Bui et al. ., WSDM'18 & Kipf i wsp., ICLR'17 ).
  • Odporność : wykazano, że modele wytrenowane na przykładach kontradyktoryjnych są odporne na przeciwstawne perturbacje zaprojektowane w celu wprowadzenia w błąd przewidywań lub klasyfikacji modelu ( Goodfellow i in., ICLR'15 i Miyato i in., ICLR'16 ). Gdy liczba próbek treningowych jest niewielka, trening z wykorzystaniem przykładów przeciwnika również pomaga poprawić dokładność modelu ( Tsipras i in., ICLR'19 ).
  • Wymagane są mniej oznakowane dane : NSL umożliwia sieciom neuronowym wykorzystanie zarówno danych oznaczonych, jak i nieoznaczonych, co rozszerza paradygmat uczenia się na częściowo nadzorowane uczenie się . W szczególności NSL umożliwia sieci trenowanie przy użyciu oznaczonych danych, tak jak w ustawieniu nadzorowanym, i jednocześnie napędza sieć do uczenia się podobnych ukrytych reprezentacji dla „sąsiednich próbek”, które mogą mieć etykiety lub nie. Technika ta okazała się bardzo obiecująca w zakresie poprawy dokładności modelu, gdy ilość znakowanych danych jest stosunkowo niewielka ( Bui i in., WSDM'18 & Miyato i in., ICLR'16 ).

Samouczki krok po kroku

Aby uzyskać praktyczne doświadczenie w nauczaniu strukturalnym neuronowym, mamy trzy samouczki, które obejmują różne scenariusze, w których sygnały strukturalne mogą być jawnie podawane, indukowane lub konstruowane: