Esta página foi traduzida pela API Cloud Translation.
Switch to English

A Estrutura de Aprendizagem Estruturada Neural

O Aprendizado Estruturado Neural (NSL) se concentra no treinamento de redes neurais profundas, aproveitando os sinais estruturados (quando disponíveis) junto com as entradas de recursos. Como introduzido por Bui et al. (WSDM'18) , esses sinais estruturados são usados ​​para regularizar o treinamento de uma rede neural, forçando o modelo a aprender previsões precisas (minimizando a perda supervisionada), mantendo ao mesmo tempo a semelhança estrutural de entrada (minimizando a perda vizinha) , veja a figura abaixo). Essa técnica é genérica e pode ser aplicada em arquiteturas neurais arbitrárias (como NNs de feed-forward, NNs convolucionais e NNs recorrentes).

Conceito NSL

Observe que a equação de perda generalizada de vizinho é flexível e pode ter outras formas além da ilustrada acima. Por exemplo, também podemos selecionar

$$ \ sum_ {x_j \ in \ mathcal {N} (x_i)} \ mathcal {E} (y_i, g_ \ theta (x_j)) $$

ser a perda do vizinho, que calcula a distância entre a verdade do solo

$$ y_i $$

e a previsão do vizinho

$$ g_ \ theta (x_j) $$

. Isso é comumente usado no aprendizado contraditório (Goodfellow et al., ICLR'15) . Portanto, a NSL generaliza para o Neural Graph Learning se os vizinhos são explicitamente representados por um gráfico, e para o Adversarial Learning se os vizinhos são implicitamente induzidos por perturbações adversas.

O fluxo de trabalho geral do Neural Structured Learning é ilustrado abaixo. As setas pretas representam o fluxo de trabalho de treinamento convencional e as setas vermelhas representam o novo fluxo de trabalho introduzido pela NSL para alavancar sinais estruturados. Primeiro, as amostras de treinamento são aumentadas para incluir sinais estruturados. Quando os sinais estruturados não são fornecidos explicitamente, eles podem ser construídos ou induzidos (o último se aplica ao aprendizado contraditório). Em seguida, as amostras de treinamento aumentado (incluindo as amostras originais e seus vizinhos correspondentes) são enviadas à rede neural para o cálculo de seus embutimentos. A distância entre a incorporação de uma amostra e a incorporação de seu vizinho é calculada e usada como perda do vizinho, que é tratado como um termo de regularização e adicionado à perda final. Para regularização explícita baseada em vizinhos, normalmente calculamos a perda de vizinhos como a distância entre a incorporação da amostra e a incorporação do vizinho. No entanto, qualquer camada da rede neural pode ser usada para calcular a perda vizinha. Por outro lado, para regularização induzida baseada no vizinho (adversário), calculamos a perda de vizinho como a distância entre a previsão de saída do vizinho adversário induzido e o rótulo da verdade do solo.

Fluxo de trabalho NSL

Por que usar o NSL?

A NSL traz as seguintes vantagens:

  • Maior precisão : os sinais estruturados entre as amostras podem fornecer informações que nem sempre estão disponíveis nas entradas de recursos; portanto, foi demonstrado que a abordagem de treinamento conjunto (com sinais e recursos estruturados) supera muitos métodos existentes (que dependem apenas do treinamento com recursos) em uma ampla gama de tarefas, como classificação de documentos e classificação de intenção semântica ( Bui et al. ., WSDM'18 e Kipf et al., ICLR'17 ).
  • Robustez : modelos treinados com exemplos contraditórios demonstraram ser robustos contra perturbações contraditórias projetadas para enganar a previsão ou classificação de um modelo ( Goodfellow et al., ICLR'15 e Miyato et al., ICLR'16 ). Quando o número de amostras de treinamento é pequeno, o treinamento com exemplos contraditórios também ajuda a melhorar a precisão do modelo ( Tsipras et al., ICLR'19 ).
  • São necessários menos dados rotulados : o NSL permite que as redes neurais utilizem dados rotulados e não rotulados, o que estende o paradigma de aprendizado ao aprendizado semi-supervisionado . Especificamente, o NSL permite que a rede treine usando dados rotulados como na configuração supervisionada e, ao mesmo tempo, leva a rede a aprender representações ocultas semelhantes para as "amostras vizinhas" que podem ou não ter rótulos. Esta técnica mostrou grande promessa para melhorar a precisão do modelo quando a quantidade de dados rotulados é relativamente pequena ( Bui et al., WSDM'18 e Miyato et al., ICLR'16 ).

Tutoriais passo a passo

Para obter experiência prática com o aprendizado estruturado neural, temos três tutoriais que cobrem vários cenários em que sinais estruturados podem ser explicitamente dados, induzidos ou construídos: