ADALINE ( Adaptive Linear Neuron или позже Adaptive Linear Element ) — ранняя однослойная искусственная нейронная сеть и название физического устройства, которое ее реализовало. [2] [3] [1] [4] [5] Она была разработана профессором Бернардом Уидроу и его докторантом Марсианом Хоффом в Стэнфордском университете в 1960 году. Она основана на персептроне и состоит из весов, смещения и функции суммирования. Веса и смещения были реализованы реостатами (как видно в «шишковатом ADALINE»), а позднее — мемисторами .
Разница между Адалин и стандартным (Розенблатта) персептроном заключается в том, как они обучаются. Веса единиц Адалина корректируются для соответствия сигналу учителя перед применением функции Хевисайда (см. рисунок), но веса единиц стандартного персептрона корректируются для соответствия правильному выходу после применения функции Хевисайда.
Многослойная сеть единиц ADALINE известна как MADALINE .
Adaline — это однослойная нейронная сеть с несколькими узлами, где каждый узел принимает несколько входов и генерирует один выход. При наличии следующих переменных:
выходной сигнал:
Если мы далее предположим, что и , то вывод дополнительно уменьшится до:
Правило обучения , используемое ADALINE, — это алгоритм LMS («наименьших средних квадратов»), частный случай градиентного спуска .
Учитывая следующее:
Алгоритм LMS обновляет веса следующим образом:
Это правило обновления минимизирует квадрат ошибки [6] и фактически является обновлением стохастического градиентного спуска для линейной регрессии . [7]
MADALINE (Many ADALINE [8] ) — это трехслойная (вход, скрытый, выход), полностью связанная, архитектура нейронной сети прямого распространения для классификации , которая использует блоки ADALINE в своих скрытых и выходных слоях. То есть, ее функция активации — это функция знака . [9] Трехслойная сеть использует мемисторы . Поскольку функция знака недифференцируема, обратное распространение нельзя использовать для обучения сетей MADALINE. Поэтому были предложены три различных алгоритма обучения, называемые Правилом I, Правилом II и Правилом III.
Несмотря на многочисленные попытки, им так и не удалось обучить более одного слоя весов в модели MADALINE. Это было до тех пор, пока Видроу не увидел алгоритм обратного распространения на конференции 1985 года в Сноуберде, штат Юта . [10]
Правило MADALINE 1 (MRI) - Первое из них датируется 1962 годом. [11] Оно состоит из двух слоев: первый состоит из единиц ADALINE (пусть выход th единицы ADALINE будет ); второй слой имеет два блока. Один - это блок большинства, который принимает все , и если положительных значений больше, чем отрицательных, выводит +1, и наоборот. Другой - это "распределитель заданий": предположим, что желаемый выход равен -1 и отличается от выхода, выбранного большинством голосов, тогда распределитель заданий вычисляет минимальное количество единиц ADALINE, которые должны изменить свои выходы с положительных на отрицательные, и выбирает те единицы ADALINE, которые ближе всего к отрицательным, и заставляет их обновлять свои веса в соответствии с правилом обучения ADALINE. Это рассматривалось как форма "принципа минимального возмущения". [12]
Самая большая построенная машина MADALINE имела 1000 весов, каждый из которых был реализован мемистором. Она была построена в 1963 году и использовала МРТ для обучения. [12] [13]
Было продемонстрировано, что некоторые машины MADALINE выполняют такие задачи, как балансировка перевернутого маятника , прогнозирование погоды и распознавание речи . [3]
Правило MADALINE 2 (MRII) - Второй алгоритм обучения, описанный в 1988 году, усовершенствовал Правило I. [8] Алгоритм обучения Правила II основан на принципе, называемом «минимальное возмущение». Он действует путем циклического обхода обучающих примеров, и для каждого примера он:
Правило 3 MADALINE — Третье «правило» применялось к модифицированной сети с сигмоидальными активациями вместо знака; позднее было обнаружено, что оно эквивалентно обратному распространению. [12]
Кроме того, когда изменение знаков отдельных единиц не приводит к снижению ошибки до нуля для конкретного примера, алгоритм обучения начинает менять знаки пар единиц, затем троек единиц и т. д. [8]