Cette page a été traduite par l'API Cloud Translation.
Switch to English

Le cadre d'apprentissage structuré neuronal

Neural Structured Learning (NSL) se concentre sur la formation de réseaux de neurones profonds en exploitant des signaux structurés (le cas échéant) ainsi que des entrées de fonctionnalités. Comme introduit par Bui et al. (WSDM'18) , ces signaux structurés sont utilisés pour régulariser l'entraînement d'un réseau de neurones, forçant le modèle à apprendre des prédictions précises (en minimisant la perte supervisée), tout en maintenant la similitude structurelle d'entrée (en minimisant la perte du voisin , voir la figure ci-dessous). Cette technique est générique et peut être appliquée sur des architectures neuronales arbitraires (telles que les NN à réaction, les NN à convolution et les NN récurrents).

Concept NSL

Notez que l'équation de perte de voisin généralisée est flexible et peut avoir d'autres formes que celle illustrée ci-dessus. Par exemple, nous pouvons également sélectionner

$$ \ sum_ {x_j \ in \ mathcal {N} (x_i)} \ mathcal {E} (y_i, g_ \ theta (x_j)) $$

être la perte du voisin, qui calcule la distance entre la vérité terrain

$$ y_i $$

et la prédiction du voisin

$$ g_ \ theta (x_j) $$

. Ceci est couramment utilisé dans l'apprentissage contradictoire (Goodfellow et al., ICLR'15) . Par conséquent, NSL se généralise à l' apprentissage de graphe neuronal si les voisins sont explicitement représentés par un graphe, et à l' apprentissage contradictoire si les voisins sont implicitement induits par une perturbation contradictoire.

Le flux de travail global pour l'apprentissage structuré neuronal est illustré ci-dessous. Les flèches noires représentent le flux de travail d'entraînement conventionnel et les flèches rouges représentent le nouveau flux de travail introduit par NSL pour exploiter les signaux structurés. Premièrement, les échantillons d'apprentissage sont augmentés pour inclure des signaux structurés. Lorsque les signaux structurés ne sont pas explicitement fournis, ils peuvent être construits ou induits (ce dernier s'applique à l'apprentissage contradictoire). Ensuite, les échantillons d'apprentissage augmentés (comprenant à la fois les échantillons originaux et leurs voisins correspondants) sont envoyés au réseau neuronal pour calculer leurs imbrications. La distance entre l'intégration d'un échantillon et l'intégration de son voisin est calculée et utilisée comme la perte du voisin, qui est traitée comme un terme de régularisation et ajoutée à la perte finale. Pour la régularisation explicite basée sur le voisin, nous calculons généralement la perte du voisin comme la distance entre l'incorporation de l'échantillon et l'incorporation du voisin. Cependant, n'importe quelle couche du réseau neuronal peut être utilisée pour calculer la perte du voisin. D'autre part, pour la régularisation induite basée sur le voisin (contradictoire), nous calculons la perte du voisin comme la distance entre la prédiction de sortie du voisin contradictoire induit et l'étiquette de vérité terrain.

Flux de travail NSL

Pourquoi utiliser NSL?

NSL apporte les avantages suivants:

  • Précision plus élevée : le ou les signaux structurés parmi les échantillons peuvent fournir des informations qui ne sont pas toujours disponibles dans les entrées de fonction; par conséquent, il a été démontré que l'approche de formation conjointe (avec à la fois des signaux structurés et des fonctionnalités) surpasse de nombreuses méthodes existantes (qui reposent uniquement sur la formation avec des fonctionnalités) sur un large éventail de tâches, telles que la classification de documents et la classification de l'intention sémantique ( Bui et al. ., WSDM'18 & Kipf et al., ICLR'17 ).
  • Robustesse : les modèles formés avec des exemples contradictoires se sont révélés robustes contre les perturbations adverses conçues pour tromper la prédiction ou la classification d'un modèle ( Goodfellow et al., ICLR'15 & Miyato et al., ICLR'16 ). Lorsque le nombre d'échantillons d'entraînement est petit, l'entraînement avec des exemples contradictoires contribue également à améliorer la précision du modèle ( Tsipras et al., ICLR'19 ).
  • Moins de données étiquetées requises : NSL permet aux réseaux de neurones d'exploiter à la fois des données étiquetées et non étiquetées, ce qui étend le paradigme d'apprentissage à l'apprentissage semi-supervisé . Spécifiquement, NSL permet au réseau de s'entraîner en utilisant des données étiquetées comme dans le cadre supervisé, et en même temps conduit le réseau à apprendre des représentations cachées similaires pour les «échantillons voisins» qui peuvent ou non avoir des étiquettes. Cette technique s'est révélée très prometteuse pour améliorer la précision du modèle lorsque la quantité de données étiquetées est relativement faible ( Bui et al., WSDM'18 & Miyato et al., ICLR'16 ).

Tutoriels étape par étape

Pour acquérir une expérience pratique de l'apprentissage structuré neuronal, nous avons trois tutoriels qui couvrent divers scénarios dans lesquels des signaux structurés peuvent être explicitement donnés, induits ou construits: