Der neuronale strukturierte Lernrahmen

Neural Structured Learning (NSL) konzentriert sich auf das Training tiefer neuronaler Netze durch die Nutzung strukturierter Signale (sofern verfügbar) zusammen mit Funktionseingaben. Wie von eingeführt Bui et al. (WSDM'18) werden diese strukturierten Signale verwendet , um die Ausbildung eines neuronalen Netzwerks regularisieren und zwingt das Modell genaue Vorhersagen zu erlernen (durch überwachtes Verlust minimiert wird ), während zur gleichen Zeit die Eingangs strukturelle Ähnlichkeit Aufrechterhaltung (durch Nachbar Verlust minimiert wird , siehe Abbildung unten). Diese Technik ist generisch und kann auf beliebige neuronale Architekturen (wie z. B. Feed-Forward-NNs, Convolutional-NNs und Recurrent-NNs) angewendet werden.

NSL-Konzept

Beachten Sie, dass die verallgemeinerte Nachbarverlustgleichung flexibel ist und andere Formen als die oben dargestellte haben kann. Wir können zum Beispiel auch auswählen

$$\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))$$

der Nachbarverlust sein, der den Abstand zwischen der Ground Truth berechnet

$$y_i$$

und die Vorhersage vom Nachbarn

$$g_\theta(x_j)$$

. Dies wird allgemein in adversarial Lernen verwendet (Goodfellow et al., ICLR'15) . Daher werden verallgemeinert NSL Neuronale Graph Learning wenn Nachbarn explizit von einem Graphen dargestellt, und auf Adversarial Learning wenn Nachbarn implizit durch kontradiktorische Störung induziert werden.

Der Gesamtworkflow für neuronales strukturiertes Lernen ist unten dargestellt. Schwarze Pfeile repräsentieren den herkömmlichen Trainingsworkflow und rote Pfeile repräsentieren den neuen Workflow, wie er von NSL eingeführt wurde, um strukturierte Signale zu nutzen. Zuerst werden die Trainingsproben erweitert, um strukturierte Signale einzuschließen. Wenn strukturierte Signale nicht explizit bereitgestellt werden, können sie entweder konstruiert oder induziert werden (letzteres gilt für das kontradiktorische Lernen). Als nächstes werden die erweiterten Trainingsproben (einschließlich sowohl der ursprünglichen Proben als auch ihrer entsprechenden Nachbarn) dem neuronalen Netz zugeführt, um ihre Einbettungen zu berechnen. Der Abstand zwischen der Einbettung eines Samples und der Einbettung seines Nachbarn wird berechnet und als Nachbarverlust verwendet, der als Regularisierungsterm behandelt und zum endgültigen Verlust addiert wird. Für eine explizite nachbarbasierte Regularisierung berechnen wir den Nachbarverlust typischerweise als den Abstand zwischen der Einbettung des Samples und der Einbettung des Nachbarn. Jedoch kann jede beliebige Schicht des neuronalen Netzes verwendet werden, um den Nachbarverlust zu berechnen. Andererseits berechnen wir für die induzierte nachbarbasierte Regularisierung (adversarial) den Nachbarverlust als den Abstand zwischen der Ausgabevorhersage des induzierten gegnerischen Nachbarn und dem Ground-Truth-Label.

NSL-Workflow

Warum NSL verwenden?

NSL bringt folgende Vorteile:

  • Höhere Genauigkeit: das strukturierte Signal (e) unter den Proben können Informationen bereitstellen , die nicht immer in Funktion Eingängen sind; daher die gemeinsame Ausbildung Ansatz (mit beiden strukturierten Signale und Funktionen) wurde vielen bestehenden Verfahren auf eine breite Palette von Aufgaben, wie zB Dokumentenklassifizierung und semantische Absicht Klassifikation ((die mit Funktionen , die nur auf die Ausbildung verlassen) gezeigt Outperformance Bui et al ., WSDM'18 & Kipf et al., ICLR'17 ).
  • Robustheit: Modelle mit adversarial Beispielen ausgebildet wurden gegen adversarial Perturbationen für irreführende ein Modell Vorhersage oder Klassifikation entwickelt , um robust gezeigt ( Goodfellow et al, ICLR'15. & Miyato et al, ICLR'16. ). Wenn die Anzahl der Trainingsmuster klein ist, das Training mit kontradiktorischen Beispielen hilft auch Modellgenauigkeit verbessern ( Tsipras et al., ICLR'19 ).
  • Weniger markierte Daten erforderlich: NSL neuronale Netze ermöglicht es beiden markierten und unmarkierte Daten nutzbar zu machen, die das Lernparadigma erstreckt halbwachtes Lernen . Insbesondere ermöglicht NSL dem Netzwerk, unter Verwendung von markierten Daten wie in der überwachten Einstellung zu trainieren, und treibt das Netzwerk gleichzeitig an, ähnliche versteckte Darstellungen für die "benachbarten Samples" zu lernen, die möglicherweise Labels haben oder nicht. Diese Technik hat sich für die Verbesserung der Modellgenauigkeit äußerst viel versprechend gezeigt , wenn die Menge der markierten Daten relativ klein ist ( Bui et al., WSDM'18 & Miyato et al., ICLR'16 ).

Schritt-für-Schritt-Anleitungen

Um praktische Erfahrungen mit neuronalem strukturiertem Lernen zu sammeln, haben wir Tutorials, die verschiedene Szenarien abdecken, in denen strukturierte Signale explizit gegeben, konstruiert oder induziert werden können. Hier sind ein paar:

Weitere Beispiele und Tutorials finden Sie im finden Beispielen Verzeichnis unserer GitHub - Repository.