Se usó la API de Cloud Translation para traducir esta página.
Switch to English

El marco de aprendizaje estructurado neuronal

El aprendizaje estructurado neuronal (NSL) se enfoca en entrenar redes neuronales profundas aprovechando señales estructuradas (cuando estén disponibles) junto con entradas de características. Como lo presentaron Bui et al. (WSDM'18) , estas señales estructuradas se utilizan para regularizar el entrenamiento de una red neuronal, lo que obliga al modelo a aprender predicciones precisas (minimizando la pérdida supervisada), al mismo tiempo que mantiene la similitud estructural de entrada (minimizando la pérdida del vecino , vea la figura a continuación). Esta técnica es genérica y se puede aplicar en arquitecturas neurales arbitrarias (como las NN de retroalimentación, las NN convolucionales y las NN recurrentes).

Concepto NSL

Tenga en cuenta que la ecuación de pérdida de vecino generalizada es flexible y puede tener otras formas además de la ilustrada arriba. Por ejemplo, también podemos seleccionar

$$ \ sum_ {x_j \ in \ mathcal {N} (x_i)} \ mathcal {E} (y_i, g_ \ theta (x_j)) $$

ser la pérdida del vecino, que calcula la distancia entre la verdad del terreno

$$ y_i $$

y la predicción del vecino

$$ g_ \ theta (x_j) $$

. Esto se usa comúnmente en el aprendizaje de confrontación (Goodfellow et al., ICLR'15) . Por lo tanto, NSL se generaliza al aprendizaje de gráficos neuronales si los vecinos están representados explícitamente por un gráfico, y al aprendizaje adversario si los vecinos son inducidos implícitamente por perturbaciones adversas.

El flujo de trabajo general para el aprendizaje estructurado neuronal se ilustra a continuación. Las flechas negras representan el flujo de trabajo de capacitación convencional y las flechas rojas representan el nuevo flujo de trabajo introducido por NSL para aprovechar las señales estructuradas. Primero, las muestras de entrenamiento se aumentan para incluir señales estructuradas. Cuando las señales estructuradas no se proporcionan explícitamente, pueden construirse o inducirse (esto último se aplica al aprendizaje contradictorio). A continuación, las muestras de entrenamiento aumentadas (incluidas las muestras originales y sus vecinos correspondientes) se alimentan a la red neuronal para calcular sus incorporaciones. La distancia entre la incrustación de una muestra y la incrustación de su vecino se calcula y utiliza como la pérdida de vecino, que se trata como un término de regularización y se agrega a la pérdida final. Para la regularización explícita basada en el vecino, generalmente calculamos la pérdida del vecino como la distancia entre la incrustación de la muestra y la incrustación del vecino. Sin embargo, cualquier capa de la red neuronal se puede usar para calcular la pérdida de vecino. Por otro lado, para la regularización inducida basada en el vecino (adversario), calculamos la pérdida del vecino como la distancia entre la predicción de salida del vecino adversario inducido y la etiqueta de verdad fundamental.

Flujo de trabajo NSL

¿Por qué usar NSL?

NSL trae las siguientes ventajas:

  • Mayor precisión : las señales estructuradas entre las muestras pueden proporcionar información que no siempre está disponible en las entradas de funciones; por lo tanto, se ha demostrado que el enfoque de entrenamiento conjunto (con señales y características estructuradas) supera a muchos métodos existentes (que se basan en el entrenamiento con características solamente) en una amplia gama de tareas, como la clasificación de documentos y la clasificación de intención semántica ( Bui et al. ., WSDM'18 y Kipf et al., ICLR'17 ).
  • Robustez : se ha demostrado que los modelos entrenados con ejemplos adversos son robustos frente a perturbaciones adversas diseñadas para engañar la predicción o clasificación de un modelo ( Goodfellow et al., ICLR'15 y Miyato et al., ICLR'16 ). Cuando el número de muestras de entrenamiento es pequeño, el entrenamiento con ejemplos adversos también ayuda a mejorar la precisión del modelo ( Tsipras et al., ICLR'19 ).
  • Se requieren menos datos etiquetados : NSL permite que las redes neuronales aprovechen tanto los datos etiquetados como los no etiquetados, lo que extiende el paradigma de aprendizaje al aprendizaje semi-supervisado . Específicamente, NSL permite que la red entrene utilizando datos etiquetados como en la configuración supervisada, y al mismo tiempo impulsa a la red a aprender representaciones ocultas similares para las "muestras vecinas" que pueden o no tener etiquetas. Esta técnica ha demostrado ser muy prometedora para mejorar la precisión del modelo cuando la cantidad de datos etiquetados es relativamente pequeña ( Bui et al., WSDM'18 y Miyato et al., ICLR'16 ).

Tutoriales paso a paso

Para obtener experiencia práctica con el aprendizaje estructurado neuronal, tenemos tres tutoriales que cubren varios escenarios en los que se pueden dar, inducir o construir explícitamente señales estructuradas: