El marco de aprendizaje estructurado neuronal

El aprendizaje estructurado neuronal (NSL) se centra en el entrenamiento de redes neuronales profundas mediante el aprovechamiento de señales estructuradas (cuando están disponibles) junto con entradas de funciones. Como introducido por Bui et al. (WSDM'18) , estas señales estructuradas se utilizan para regularizar la formación de una red neuronal, forzando el modelo de aprender predicciones exactas (por minimizar la pérdida supervisada), mientras que al mismo tiempo mantener la similitud estructural de entrada (reduciendo al mínimo la pérdida de vecino , consulte la figura siguiente). Esta técnica es genérica y se puede aplicar en arquitecturas neuronales arbitrarias (como NN Feed-forward, NN convolucionales y NN recurrentes).

Concepto NSL

Tenga en cuenta que la ecuación de pérdida de vecino generalizada es flexible y puede tener otras formas además de la ilustrada anteriormente. Por ejemplo, también podemos seleccionar

$$\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))$$

para ser la pérdida de vecino, que calcula la distancia entre la verdad del suelo

$$y_i$$

y la predicción del vecino

$$g_\theta(x_j)$$

. Esto es comúnmente utilizado en el aprendizaje de confrontación (Goodfellow et al., ICLR'15) . Por lo tanto, NSL generaliza a Neural Gráfico de aprendizaje si los vecinos están representados explícitamente por un gráfico, y para Acusatorio de aprendizaje si los vecinos se inducen implícitamente por perturbación contradictorio.

El flujo de trabajo general para el aprendizaje estructurado neuronal se ilustra a continuación. Las flechas negras representan el flujo de trabajo de capacitación convencional y las flechas rojas representan el nuevo flujo de trabajo introducido por NSL para aprovechar las señales estructuradas. Primero, las muestras de entrenamiento se aumentan para incluir señales estructuradas. Cuando las señales estructuradas no se proporcionan explícitamente, pueden construirse o inducirse (esto último se aplica al aprendizaje adversario). A continuación, las muestras de entrenamiento aumentadas (incluidas las muestras originales y sus vecinos correspondientes) se alimentan a la red neuronal para calcular sus incrustaciones. La distancia entre la incrustación de una muestra y la incrustación de su vecino se calcula y se utiliza como la pérdida de vecino, que se trata como un término de regularización y se suma a la pérdida final. Para la regularización explícita basada en vecinos, normalmente calculamos la pérdida de vecinos como la distancia entre la incrustación de la muestra y la incrustación del vecino. Sin embargo, se puede utilizar cualquier capa de la red neuronal para calcular la pérdida de vecino. Por otro lado, para la regularización inducida basada en vecinos (adversarial), calculamos la pérdida de vecino como la distancia entre la predicción de salida del vecino adversario inducido y la etiqueta de verdad del terreno.

Flujo de trabajo NSL

¿Por qué utilizar NSL?

NSL trae las siguientes ventajas:

  • Mayor precisión: la señal estructurada (s) entre las muestras pueden proporcionar información que no siempre está disponible en las entradas de funciones; por lo tanto, el enfoque de la formación conjunta (con las dos señales y características estructurados) se ha demostrado que superan muchos métodos existentes (que se basan en la formación con únicas características) en una amplia gama de tareas, tales como la clasificación de documentos y clasificación intención semántica ( Bui et al ., WSDM'18 y Kipf et al., ICLR'17 ).
  • Robustez: modelos entrenados con ejemplos de confrontación se ha demostrado que ser robusto frente a perturbaciones de confrontación diseñados para inducir a error de predicción o la clasificación de un modelo ( Goodfellow et al, ICLR'15. Y Miyato et al, ICLR'16. ). Cuando el número de muestras de entrenamiento es pequeño, el entrenamiento con ejemplos contradictorio también ayuda a mejorar la exactitud del modelo ( Tsipras et al., ICLR'19 ).
  • Menos datos etiquetados requiere: NSL permite que las redes neurales para aprovechar ambos datos etiquetados y no etiquetados, que extiende el paradigma de aprendizaje para el aprendizaje semi-supervisado . Específicamente, NSL permite que la red se entrene utilizando datos etiquetados como en el entorno supervisado y, al mismo tiempo, impulsa a la red a aprender representaciones ocultas similares para las "muestras vecinas" que pueden tener etiquetas o no. Esta técnica ha demostrado una gran promesa para la mejora de la exactitud del modelo cuando la cantidad de datos etiquetados es relativamente pequeño ( Bui et al., WSDM'18 y Miyato et al., ICLR'16 ).

Tutoriales paso a paso

Para obtener experiencia práctica con el aprendizaje estructurado neuronal, tenemos tutoriales que cubren varios escenarios donde las señales estructuradas se pueden dar, construir o inducir explícitamente. A continuación, presentamos algunos:

Más ejemplos y tutoriales se pueden encontrar en la ejemplos directorio de nuestro repositorio GitHub.