Эта страница была переведа с помощью Cloud Translation API.
Switch to English

The Neural Structured Learning Framework

Нейронное структурированное обучение (NSL) фокусируется на обучении глубоких нейронных сетей путем использования структурированных сигналов (если они доступны) вместе с входными данными. Как было представлено Bui et al. (WSDM'18) , эти структурированные сигналы используются для регуляризации обучения нейронной сети, заставляя модель изучать точные прогнозы (путем минимизации контролируемых потерь), в то же время поддерживая входное структурное сходство (путем минимизации потерь соседей). см. рисунок ниже). Этот метод является универсальным и может применяться к произвольным нейронным архитектурам (например, сетям с прямой связью, сверточным сетям и рекуррентным сетям).

Концепция NSL

Обратите внимание, что обобщенное уравнение потерь для соседей является гибким и может иметь другие формы, кроме показанной выше. Например, мы также можем выбрать

$$\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))$$

быть потерей соседей, которая вычисляет расстояние между наземной истиной

$$y_i$$

и предсказание от соседа

$$g_\theta(x_j)$$

, Это обычно используется в состязательном обучении (Goodfellow et al., ICLR'15) . Следовательно, NSL обобщается на обучение нейронных графов, если соседи явно представлены графом, и на состязательное обучение, если соседи неявно индуцируются враждебным возмущением.

Общий рабочий процесс нейронного структурированного обучения показан ниже. Черные стрелки представляют стандартный рабочий процесс обучения, а красные стрелки представляют новый рабочий процесс, введенный NSL для использования структурированных сигналов. Во-первых, обучающие образцы дополняются структурированными сигналами. Когда структурированные сигналы не предоставляются явно, они могут быть либо сконструированы, либо индуцированы (последнее относится к состязательному обучению). Затем расширенные обучающие выборки (включая исходные образцы и их соответствующие соседи) подаются в нейронную сеть для вычисления их вложений. Расстояние между встраиванием образца и встраиванием его соседа вычисляется и используется как потеря соседа, которая рассматривается как член регуляризации и добавляется к окончательной потере. Для явной регуляризации на основе соседей мы обычно вычисляем потерю соседей как расстояние между встраиванием образца и вложением соседа. Однако любой уровень нейронной сети может использоваться для вычисления потерь соседей. С другой стороны, для индуцированной регуляризации на основе соседей (состязательной) мы вычисляем потерю соседей как расстояние между выходным предсказанием индуцированного враждебного соседа и наземной меткой истинности.

Рабочий процесс NSL

Зачем использовать NSL?

NSL дает следующие преимущества:

  • Более высокая точность : структурированный сигнал (сигналы) среди выборок может предоставить информацию, которая не всегда доступна во входных параметрах; Таким образом, совместный подход к обучению (со структурированными сигналами и функциями), как было показано, превосходит многие существующие методы (которые полагаются на обучение только с функциями) в широком диапазоне задач, таких как классификация документов и классификация семантических намерений ( Bui et al. ., WSDM'18 и Kipf et al., ICLR'17 ).
  • Надежность : модели, обученные на примерах противоборства, оказались устойчивыми к противодействию возмущениям, созданным для введения в заблуждение прогнозов или классификации модели ( Гудфеллоу и др., ICLR'15 и Миято и др., ICLR'16 ). Когда количество обучающих выборок невелико, обучение с использованием состязательных примеров также помогает повысить точность модели ( Ципрас и др., ICLR'19 ).
  • Требуются менее маркированные данные : NSL позволяет нейронным сетям использовать как маркированные, так и немаркированные данные, что расширяет парадигму обучения до полууправляемого обучения . В частности, NSL позволяет сети обучаться с использованием помеченных данных, как в контролируемой настройке, и в то же время заставляет сеть изучать похожие скрытые представления для «соседних выборок», которые могут иметь или не иметь метки. Этот метод показал большие перспективы для повышения точности модели, когда количество помеченных данных относительно невелико ( Bui et al., WSDM'18 и Miyato et al., ICLR'16 ).

Пошаговые инструкции

Чтобы получить практический опыт работы с нейронным структурированным обучением, у нас есть три руководства, которые охватывают различные сценарии, в которых структурированные сигналы могут быть явно заданы, индуцированы или созданы: