Нейронное структурированное обучение (NSL) фокусируется на обучении глубоких нейронных сетей за счет использования структурированных сигналов (если они доступны) вместе с входными данными функций. Как представлено Bui et al. (WSDM'18) , эти структурированные сигналы используются для регуляризации обучения нейронной сети, заставляя модель изучать точные прогнозы (путем минимизации контролируемых потерь), в то же время сохраняя входное структурное сходство (путем минимизации потерь соседей). , см. рисунок ниже). Этот метод является общим и может применяться к произвольным нейронным архитектурам (таким как NN с прямой связью, сверточные NN и рекуррентные NN).
Обратите внимание, что обобщенное уравнение потерь для соседей является гибким и может иметь другие формы, кроме показанной выше. Например, мы также можем выбрать\(\sum_{x_j \in \mathcal{N}(x_i)}\mathcal{E}(y_i,g_\theta(x_j))\) в качестве потерь для соседей, которые вычисляют расстояние между истинным значением \(y_i\)и прогнозом от соседа \(g_\theta(x_j)\). Это обычно используется в состязательном обучении (Goodfellow et al., ICLR'15) . Следовательно, NSL обобщается на нейронное графовое обучение , если соседи явно представлены графом, и на состязательное обучение , если соседи неявно индуцируются состязательным возмущением.
Общий рабочий процесс нейронно-структурированного обучения показан ниже. Черные стрелки представляют собой обычный рабочий процесс обучения, а красные стрелки представляют новый рабочий процесс, представленный NSL для использования структурированных сигналов. Во-первых, обучающие выборки дополняются структурированными сигналами. Когда структурированные сигналы не предоставляются явно, они могут быть либо сконструированы, либо индуцированы (последнее относится к состязательному обучению). Далее расширенные обучающие выборки (включая как исходные выборки, так и соответствующие им соседи) передаются в нейронную сеть для расчета их вложений. Расстояние между встраиванием образца и встраиванием его соседа вычисляется и используется как потери соседей, которые рассматриваются как член регуляризации и добавляются к окончательным потерям. Для явной регуляризации на основе соседей мы обычно вычисляем потери соседей как расстояние между вложением выборки и вложением соседа. Однако любой слой нейронной сети может использоваться для вычисления потерь соседей. С другой стороны, для индуцированной враждебной регуляризации на основе соседей мы вычисляем потери соседей как расстояние между выходным прогнозом индуцированного враждебного соседа и основной меткой истинности.
Зачем использовать НСЛ?
NSL дает следующие преимущества:
- Более высокая точность : структурированный сигнал(ы) среди выборок может предоставить информацию, которая не всегда доступна во входных данных признаков; поэтому было показано, что совместный подход к обучению (как со структурированными сигналами, так и с признаками) превосходит многие существующие методы (которые основаны на обучении только с признаками) в широком диапазоне задач, таких как классификация документов и классификация семантического намерения ( Bui et al . ., WSDM'18 и Kipf et al., ICLR'17 ).
- Надежность : было показано, что модели, обученные на враждебных примерах, устойчивы к враждебным возмущениям, предназначенным для введения в заблуждение прогноза или классификации модели ( Goodfellow et al., ICLR'15 & Miyato et al., ICLR'16 ). Когда количество обучающих выборок невелико, обучение на состязательных примерах также помогает повысить точность модели ( Tsipras et al., ICLR'19 ).
- Требуется меньше размеченных данных : NSL позволяет нейронным сетям использовать как размеченные, так и неразмеченные данные, что расширяет парадигму обучения до частично контролируемого обучения . В частности, NSL позволяет сети обучаться с использованием помеченных данных, как в контролируемой настройке, и в то же время побуждает сеть изучать аналогичные скрытые представления для «соседних образцов», которые могут иметь или не иметь метки. Этот метод показал большие перспективы для повышения точности модели, когда количество размеченных данных относительно невелико ( Bui et al., WSDM'18 & Miyato et al., ICLR'16 ).
Пошаговые руководства
Чтобы получить практический опыт нейронного структурированного обучения, у нас есть учебные пособия, которые охватывают различные сценарии, в которых структурированные сигналы могут быть явно даны, сконструированы или индуцированы. Вот некоторые из них:
Регуляризация графов для классификации документов с использованием естественных графов . В этом руководстве мы исследуем использование регуляризации графа для классификации документов, образующих естественный (органический) граф.
Регуляризация графов для классификации настроений с использованием синтезированных графов . В этом руководстве мы демонстрируем использование регуляризации графа для классификации настроений в обзорах фильмов путем создания (синтеза) структурированных сигналов.
Состязательное обучение для классификации изображений . В этом руководстве мы исследуем использование состязательного обучения (где индуцируются структурированные сигналы) для классификации изображений, содержащих числовые цифры.
Дополнительные примеры и руководства можно найти в каталоге примеров нашего репозитория GitHub.