L'apprendimento strutturato neurale (NSL) si concentra sull'addestramento di reti neurali profonde sfruttando segnali strutturati (se disponibili) insieme a input di funzionalità. Come introdotto da Bui et al. (WSDM'18) , questi segnali strutturati vengono utilizzati per regolarizzare l'addestramento di una rete neurale, costringendo il modello ad apprendere previsioni accurate (minimizzando la perdita supervisionata), mantenendo allo stesso tempo la somiglianza strutturale di input (riducendo al minimo la perdita del vicino , vedere la figura sotto). Questa tecnica è generica e può essere applicata su architetture neurali arbitrarie (come NN feed-forward, NN convoluzionali e NN ricorrenti).
Si noti che l'equazione generalizzata della perdita del vicino è flessibile e può avere altre forme oltre a quella illustrata sopra. Ad esempio, possiamo anche selezionare
essere la perdita del vicino, che calcola la distanza tra la verità fondamentale
e la predizione del prossimo
. Questo è comunemente usato nell'apprendimento antagonistico (Goodfellow et al., ICLR'15) . Pertanto, NSL generalizza all'apprendimento del grafo neurale se i vicini sono esplicitamente rappresentati da un grafo e all'apprendimento avversario se i vicini sono implicitamente indotti da perturbazioni antagoniste.
Il flusso di lavoro complessivo per l'apprendimento strutturato neurale è illustrato di seguito. Le frecce nere rappresentano il flusso di lavoro di formazione convenzionale e le frecce rosse rappresentano il nuovo flusso di lavoro introdotto da NSL per sfruttare i segnali strutturati. Innanzitutto, i campioni di formazione vengono aumentati per includere segnali strutturati. Quando i segnali strutturati non sono forniti esplicitamente, possono essere costruiti o indotti (quest'ultimo si applica all'apprendimento contraddittorio). Successivamente, i campioni di addestramento potenziato (inclusi sia i campioni originali che i loro vicini corrispondenti) vengono inviati alla rete neurale per calcolare i loro incorporamenti. La distanza tra l'incorporamento di un campione e l'incorporamento del suo vicino viene calcolata e utilizzata come perdita del vicino, che viene trattata come un termine di regolarizzazione e aggiunta alla perdita finale. Per la regolarizzazione esplicita basata sul vicino, in genere calcoliamo la perdita del vicino come la distanza tra l'incorporamento del campione e l'incorporamento del vicino. Tuttavia, qualsiasi livello della rete neurale può essere utilizzato per calcolare la perdita del vicino. D'altra parte, per la regolarizzazione basata sul vicino indotto (contraddittorio), calcoliamo la perdita del vicino come distanza tra la previsione di output del vicino avversario indotto e l'etichetta di verità fondamentale.
Perché utilizzare NSL?
NSL offre i seguenti vantaggi:
- Maggiore precisione : i segnali strutturati tra i campioni possono fornire informazioni che non sono sempre disponibili negli input delle funzioni; pertanto, l'approccio della formazione congiunta (con segnali strutturati e funzionalità) ha dimostrato di superare molti metodi esistenti (che si basano solo sulla formazione con funzionalità) su un'ampia gamma di attività, come la classificazione dei documenti e la classificazione semantica degli intenti ( Bui et al. ., WSDM'18 e Kipf et al., ICLR'17 ).
- Robustezza : i modelli addestrati con esempi contraddittori si sono dimostrati robusti contro perturbazioni antagoniste progettate per fuorviare la previsione o la classificazione di un modello ( Goodfellow et al., ICLR'15 & Miyato et al., ICLR'16 ). Quando il numero di campioni di addestramento è piccolo, l'addestramento con esempi contraddittori aiuta anche a migliorare l'accuratezza del modello ( Tsipras et al., ICLR'19 ).
- Dati meno etichettati richiesti : NSL consente alle reti neurali di sfruttare sia i dati etichettati che quelli senza etichetta, il che estende il paradigma di apprendimento all'apprendimento semi-supervisionato . In particolare, NSL consente alla rete di addestrarsi utilizzando dati etichettati come nell'impostazione supervisionata e allo stesso tempo guida la rete per apprendere rappresentazioni nascoste simili per i "campioni vicini" che possono o non possono avere etichette. Questa tecnica ha mostrato grandi promesse per migliorare l'accuratezza del modello quando la quantità di dati etichettati è relativamente piccola ( Bui et al., WSDM'18 & Miyato et al., ICLR'16 ).
Tutorial passo passo
Per ottenere un'esperienza pratica con l'apprendimento neurale strutturato, abbiamo tre tutorial che coprono vari scenari in cui i segnali strutturati possono essere forniti, indotti o costruiti esplicitamente:
Regolarizzazione dei grafici per la classificazione dei documenti utilizzando grafici naturali . In questo tutorial, esploriamo l'uso della regolarizzazione dei grafici per classificare i documenti che formano un grafico naturale (organico).
Regolarizzazione dei grafici per la classificazione del sentiment utilizzando grafici sintetizzati . In questo tutorial, dimostriamo l'uso della regolarizzazione dei grafici per classificare i sentimenti di revisione dei film costruendo (sintetizzando) segnali strutturati.
Apprendimento contraddittorio per la classificazione delle immagini . In questo tutorial, esploriamo l'uso dell'apprendimento contraddittorio (in cui vengono indotti segnali strutturati) per classificare immagini contenenti cifre numeriche.