Нейронно-структурированная структура обучения

Нейронное структурированное обучение (NSL) фокусируется на обучении глубоких нейронных сетей за счет использования структурированных сигналов (если они доступны) вместе с входными данными функций. Как представлено Bui et al. (WSDM'18) , эти структурированные сигналы используются для регуляризации обучения нейронной сети, заставляя модель изучать точные прогнозы (путем минимизации контролируемых потерь), в то же время сохраняя входное структурное сходство (путем минимизации потерь соседей). , см. рисунок ниже). Этот метод является общим и может применяться к произвольным нейронным архитектурам (таким как NN с прямой связью, сверточные NN и рекуррентные NN).

Концепция НСЛ

Обратите внимание, что обобщенное уравнение потерь для соседей является гибким и может иметь другие формы, кроме показанной выше. Например, мы также можем выбрать\(\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))\) в качестве потерь для соседей, которые вычисляют расстояние между истинным значением \(y_i\)и прогнозом от соседа \(g_\theta(x_j)\). Это обычно используется в состязательном обучении (Goodfellow et al., ICLR'15) . Следовательно, NSL обобщается на нейронное графовое обучение , если соседи явно представлены графом, и на состязательное обучение , если соседи неявно индуцируются состязательным возмущением.

Общий рабочий процесс нейронно-структурированного обучения показан ниже. Черные стрелки представляют собой обычный рабочий процесс обучения, а красные стрелки представляют новый рабочий процесс, представленный NSL для использования структурированных сигналов. Во-первых, обучающие выборки дополняются структурированными сигналами. Когда структурированные сигналы не предоставляются явно, они могут быть либо сконструированы, либо индуцированы (последнее относится к состязательному обучению). Далее расширенные обучающие выборки (включая как исходные выборки, так и соответствующие им соседи) передаются в нейронную сеть для расчета их вложений. Расстояние между встраиванием образца и встраиванием его соседа вычисляется и используется как потери соседей, которые рассматриваются как член регуляризации и добавляются к окончательным потерям. Для явной регуляризации на основе соседей мы обычно вычисляем потери соседей как расстояние между вложением выборки и вложением соседа. Однако любой слой нейронной сети может использоваться для вычисления потерь соседей. С другой стороны, для индуцированной враждебной регуляризации на основе соседей мы вычисляем потери соседей как расстояние между выходным прогнозом индуцированного враждебного соседа и основной меткой истинности.

Рабочий процесс NSL

Зачем использовать НСЛ?

NSL дает следующие преимущества:

  • Более высокая точность : структурированный сигнал(ы) среди выборок может предоставить информацию, которая не всегда доступна во входных данных признаков; поэтому было показано, что совместный подход к обучению (как со структурированными сигналами, так и с признаками) превосходит многие существующие методы (которые основаны на обучении только с признаками) в широком диапазоне задач, таких как классификация документов и классификация семантического намерения ( Bui et al . ., WSDM'18 и Kipf et al., ICLR'17 ).
  • Надежность : было показано, что модели, обученные на враждебных примерах, устойчивы к враждебным возмущениям, предназначенным для введения в заблуждение прогноза или классификации модели ( Goodfellow et al., ICLR'15 & Miyato et al., ICLR'16 ). Когда количество обучающих выборок невелико, обучение на состязательных примерах также помогает повысить точность модели ( Tsipras et al., ICLR'19 ).
  • Требуется меньше размеченных данных : NSL позволяет нейронным сетям использовать как размеченные, так и неразмеченные данные, что расширяет парадигму обучения до частично контролируемого обучения . В частности, NSL позволяет сети обучаться с использованием помеченных данных, как в контролируемой настройке, и в то же время побуждает сеть изучать аналогичные скрытые представления для «соседних образцов», которые могут иметь или не иметь метки. Этот метод показал большие перспективы для повышения точности модели, когда количество размеченных данных относительно невелико ( Bui et al., WSDM'18 & Miyato et al., ICLR'16 ).

Пошаговые руководства

Чтобы получить практический опыт нейронного структурированного обучения, у нас есть учебные пособия, которые охватывают различные сценарии, в которых структурированные сигналы могут быть явно даны, сконструированы или индуцированы. Вот некоторые из них:

Дополнительные примеры и руководства можно найти в каталоге примеров нашего репозитория GitHub.