¡Reserva! Google I / O regresa del 18 al 20 de mayo Regístrese ahora
Se usó la API de Cloud Translation para traducir esta página.
Switch to English

El marco de aprendizaje estructurado neuronal

El aprendizaje estructurado neuronal (NSL) se centra en el entrenamiento de redes neuronales profundas mediante el aprovechamiento de señales estructuradas (cuando están disponibles) junto con entradas de funciones. Como lo introdujeron Bui et al. (WSDM'18) , estas señales estructuradas se utilizan para regularizar el entrenamiento de una red neuronal, lo que obliga al modelo a aprender predicciones precisas (minimizando la pérdida supervisada), mientras que al mismo tiempo se mantiene la similitud estructural de entrada (minimizando la pérdida de vecino , consulte la figura siguiente). Esta técnica es genérica y se puede aplicar en arquitecturas neuronales arbitrarias (como NN Feed-forward, NN convolucionales y NN recurrentes).

Concepto NSL

Tenga en cuenta que la ecuación de pérdida de vecino generalizada es flexible y puede tener otras formas además de la ilustrada anteriormente. Por ejemplo, también podemos seleccionar

$$\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))$$

para ser la pérdida de vecino, que calcula la distancia entre la verdad del suelo

$$y_i$$

y la predicción del vecino

$$g_\theta(x_j)$$

. Esto se usa comúnmente en el aprendizaje contradictorio (Goodfellow et al., ICLR'15) . Por lo tanto, NSL se generaliza al aprendizaje de gráficos neuronales si los vecinos están explícitamente representados por un gráfico, y al aprendizaje adversario si los vecinos están implícitamente inducidos por perturbaciones adversas.

El flujo de trabajo general para el aprendizaje estructurado neuronal se ilustra a continuación. Las flechas negras representan el flujo de trabajo de entrenamiento convencional y las flechas rojas representan el nuevo flujo de trabajo introducido por NSL para aprovechar las señales estructuradas. Primero, las muestras de entrenamiento se aumentan para incluir señales estructuradas. Cuando las señales estructuradas no se proporcionan explícitamente, pueden construirse o inducirse (esto último se aplica al aprendizaje adversario). A continuación, las muestras de entrenamiento aumentadas (incluidas las muestras originales y sus vecinos correspondientes) se alimentan a la red neuronal para calcular sus incrustaciones. La distancia entre la incrustación de una muestra y la incrustación de su vecino se calcula y se utiliza como la pérdida de vecino, que se trata como un término de regularización y se suma a la pérdida final. Para la regularización explícita basada en vecinos, normalmente calculamos la pérdida de vecinos como la distancia entre la incrustación de la muestra y la incrustación del vecino. Sin embargo, se puede utilizar cualquier capa de la red neuronal para calcular la pérdida de vecino. Por otro lado, para la regularización inducida basada en vecinos (adversario), calculamos la pérdida de vecino como la distancia entre la predicción de salida del vecino adversario inducido y la etiqueta de verdad del terreno.

Flujo de trabajo NSL

¿Por qué utilizar NSL?

NSL trae las siguientes ventajas:

  • Mayor precisión : las señales estructuradas entre las muestras pueden proporcionar información que no siempre está disponible en las entradas de funciones; por lo tanto, se ha demostrado que el enfoque de entrenamiento conjunto (con señales y características estructuradas) supera a muchos métodos existentes (que se basan en el entrenamiento con características únicamente) en una amplia gama de tareas, como la clasificación de documentos y la clasificación de intención semántica ( Bui et al. ., WSDM'18 y Kipf et al., ICLR'17 ).
  • Robustez : se ha demostrado que los modelos entrenados con ejemplos adversarios son robustos frente a perturbaciones adversas diseñadas para inducir a error la predicción o clasificación de un modelo ( Goodfellow et al., ICLR'15 y Miyato et al., ICLR'16 ). Cuando el número de muestras de entrenamiento es pequeño, el entrenamiento con ejemplos contradictorios también ayuda a mejorar la precisión del modelo ( Tsipras et al., ICLR'19 ).
  • Se requieren menos datos etiquetados : NSL permite que las redes neuronales aprovechen tanto los datos etiquetados como los no etiquetados, lo que extiende el paradigma de aprendizaje al aprendizaje semi-supervisado . Específicamente, NSL permite que la red se entrene utilizando datos etiquetados como en el entorno supervisado y, al mismo tiempo, impulsa a la red a aprender representaciones ocultas similares para las "muestras vecinas" que pueden tener etiquetas o no. Esta técnica ha demostrado ser muy prometedora para mejorar la precisión del modelo cuando la cantidad de datos etiquetados es relativamente pequeña ( Bui et al., WSDM'18 y Miyato et al., ICLR'16 ).

Tutoriales paso a paso

Para obtener experiencia práctica con el aprendizaje estructurado neuronal, tenemos tres tutoriales que cubren varios escenarios en los que las señales estructuradas pueden darse, inducirse o construirse explícitamente: