13.1. Модели нейронов и методы их обучения
Б ольшинство математических моделей созданы в соответствии с принципами функционирования биологических нейронов и основываются на модели МакКаллока-Питса, содержащей сумматор взвешенных входных сигналов и нелинейный блок выработки выходного сигнала нейрона, функционально зависящего от выходного сигнала сумматора. Свойства нелинейной функции, особенно ее непрерывность, оказывают определяющее влияние на выбор способа обучения нейрона, заключающегося в подборе весовых коэффициентов. Выделяют два подхода: обучение с учителем (supervised learning) и обучение без учителя (unsupervised learning).
При обучении с учителем предполагается, что, помимо входных сигналов (вектор х), известны также и ожидаемые выходные сигналы нейрона (вектор d). Подбор весовых коэффициентов организуется так, чтобы фактические выходные сигналы нейрона уi принимали бы значения, как можно более близкие к ожидаемым значениям di.
Если такой подход невозможен, то применяют стратегию обучения без учителя. Подбор весовых коэффициентов в этом случае проводится на основании либо конкуренции нейронов между собой (стратегии: WTA (winner takes all — победитель получает все); WTM (winner takes most — победитель получает больше), либо с учетом корреляции обучающих и выходных сигналов (обучение по Хеббу). При этом на этапе адаптации нейрона невозможно спрогнозировать его выходные сигналы.
13.1.1. Персептрон
П ростой персептрон представляет собой обычную модель МакКаллока-Питса с соответствующей стратегией обучения. Функция активации персептрона имеет вид:
где ui — выходной сигнал сумматора .
В приведенной формуле подразумевается, что имеющий длину N вектор х дополнен нулевым членом х0 = 1, формирующим сигнал поляризации x = [х0, x1, …, xN]. Обучение персептрона требует наличия учителя и состоит в таком подборе весов wij, чтобы выходной сигнал yi был наиболее близок к заданному значению di. Это обучение гетероассоциативного типа (в каждом обучающем векторе х, априорно известно ожидаемое значение di на выходе i-гo нейрона.
Обучение персептрона осуществляется по следующему алгоритму (правило персептрона):
Устанавливаются (как правило, случайным образом) значения весов wij.
На вход нейрона подается обучающий вектор x и рассчитывается значение выходного сигнала yi.
Если значение yi совпадает с ожидаемым значением di, то весовые коэффициенты wij не изменяются.
Если yi = 0, а соответствующее заданное значение di = 1, то значения весов уточняются в соответствии с формулой .
Если yi = 1, а соответствующее заданное значение di = 0, то значения весов уточняются в соответствии с формулой .
Шаги 2–5 повторяются до тех пор, пока не будут минимизированы различия между всеми значениями yi и di.
Правило персептрона представляет собой частный случай предложенного гораздо позже правила Видроу-Хоффа, в соответствии с которым подбор весовых коэффициентов нейрона (необязательно персептронного типа) проводится по формуле:
.
Если сигналы yi и di принимают только двоичные значения 0 и 1, то правило Видроу-Хоффа превращается в правило персептрона.
В связи с разрывностью нелинейной функции активации персептрона невозможно учитывать информацию об изменении значения yi (т.е. ее производную). Минимизация различий между фактическими реакциями нейрона yi и ожидаемыми значениями di может быть представлена как минимизация функции погрешности (целевой функции) Е, чаще всего определяемой как
,
где р — количество предъявляемых обучающих выборок.
Такая минимизация при использовании правила персептрона проводится по методу безградиентной оптимизации. Эффективность метода при большом количестве обучающих выборок относительно невелика, а количество циклов обучения и его длительность возрастают очень быстро, причем без всякой гарантии достижения минимума целевой функции.