Гипербазисная функциональная сеть

В машинном обучении сеть гипербазисных функций , или сеть HyperBF , является обобщением концепции сетей радиальных базисных функций (RBF) , где вместо меры евклидового расстояния используется расстояние Махаланобиса . Сети гипербазисных функций были впервые представлены Поджио и Джирози в статье 1990 года «Сети для аппроксимации и обучения». [1] [2]

Сетевая архитектура

Типичная структура сети HyperBF состоит из действительного входного вектора , скрытого слоя функций активации и линейного выходного слоя. Выход сети является скалярной функцией входного вектора, , задается как х Р н {\displaystyle x\in \mathbb {R} ^{n}} ϕ : Р н Р {\displaystyle \phi :\mathbb {R} ^{n}\to \mathbb {R} }

ϕ ( х ) = дж = 1 Н а дж ρ дж ( | | х μ дж | | ) {\displaystyle \phi (x)=\sum _{j=1}^{N}a_{j} \rho _{j} (||x-\mu _{j}||)}

где — число нейронов в скрытом слое, а — центр и вес нейрона . Функция активации в сети HyperBF принимает следующий вид Н {\displaystyle N} μ дж {\displaystyle \mu _{j}} а дж {\displaystyle a_{j}} дж {\displaystyle j} ρ дж ( | | х μ дж | | ) {\displaystyle \rho _{j}(||x-\mu _{j}||)}

ρ дж ( | | х μ дж | | ) = е ( х μ дж ) Т Р дж ( х μ дж ) {\displaystyle \rho _{j}(||x-\mu _{j}||)=e^{(x-\mu _{j})^{T}R_{j}(x-\mu _{j})}}

где — положительно определенная матрица. В зависимости от приложения обычно рассматриваются следующие типы матриц [3] Р дж {\displaystyle R_{j}} г × г {\displaystyle d\times d} Р дж {\displaystyle R_{j}}

  • Р дж = 1 2 σ 2 я г × г {\displaystyle R_{j}={\frac {1}{2\sigma ^{2}}}\mathbb {I} _{d\times d}} , где . Этот случай соответствует обычной сети RBF. σ > 0 {\displaystyle \сигма >0}
  • Р дж = 1 2 σ дж 2 я г × г {\displaystyle R_{j}={\frac {1}{2\sigma _{j}^{2}}}\mathbb {I} _{d\times d}} , где . В этом случае базисные функции радиально симметричны, но масштабируются с разной шириной. σ дж > 0 {\displaystyle \сигма _{j}>0}
  • Р дж = г я а г ( 1 2 σ дж 1 2 , . . . , 1 2 σ дж з 2 ) я г × г {\displaystyle R_{j}=diag\left({\frac {1}{2\sigma _{j1}^{2}}},...,{\frac {1}{2\sigma _{jz}^{2}}}\right)\mathbb {I} _{d\times d}} , где . Каждый нейрон имеет эллиптическую форму с переменным размером. σ дж я > 0 {\displaystyle \sigma _{ji}>0}
  • Положительно определенная матрица, но не диагональная.

Обучение

Обучение сетей HyperBF включает оценку весов , формы и центров нейронов и . Poggio и Girosi (1990) описывают метод обучения с подвижными центрами и адаптируемыми формами нейронов. Краткое описание метода приведено ниже. а дж {\displaystyle a_{j}} Р дж {\displaystyle R_{j}} μ дж {\displaystyle \mu _{j}}

Рассмотрим квадратичную потерю сети . При оптимуме должны быть выполнены следующие условия: ЧАС [ ϕ ] = я = 1 Н ( у я ϕ ( х я ) ) 2 {\displaystyle H[\phi ^{*}]=\sum _{i=1}^{N}(y_{i}-\phi ^{*}(x_{i}))^{2}}

ЧАС ( ϕ ) а дж = 0 {\displaystyle {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}=0} , , ЧАС ( ϕ ) μ дж = 0 {\displaystyle {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}=0} ЧАС ( ϕ ) Вт = 0 {\displaystyle {\frac {\partial H(\phi ^{*})}{\partial W}}=0}

где . Тогда в методе градиентного спуска минимизирующие значения могут быть найдены как устойчивая неподвижная точка следующей динамической системы: Р дж = Вт Т Вт {\displaystyle R_{j}=W^{T}W} а дж , μ дж , Вт {\displaystyle a_{j},\mu _{j},W} ЧАС [ ϕ ] {\displaystyle H[\phi ^{*}]}

а дж ˙ = ω ЧАС ( ϕ ) а дж {\displaystyle {\dot {a_{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial a_{j}}}} , , μ дж ˙ = ω ЧАС ( ϕ ) μ дж {\displaystyle {\dot {\mu _{j}}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial \mu _{j}}}} Вт ˙ = ω ЧАС ( ϕ ) Вт {\displaystyle {\dot {W}}=-\omega {\frac {\partial H(\phi ^{*})}{\partial W}}}

где определяет скорость сходимости. ω {\displaystyle \омега}

В целом, обучение сетей HyperBF может быть вычислительно сложным. Более того, высокая степень свободы HyperBF приводит к переобучению и плохому обобщению. Однако сети HyperBF имеют важное преимущество, заключающееся в том, что для обучения сложных функций достаточно небольшого количества нейронов. [2]

Ссылки

  1. ^ T. Poggio и F. Girosi (1990). «Сети для аппроксимации и обучения». Proc. IEEE Vol. 78, No. 9 :1481-1497.
  2. ^ ab RN Mahdi, EC Rouchka (2011). «Редуцированные сети HyperBF: регуляризация с помощью явного снижения сложности и масштабируемого обучения на основе Rprop». IEEE Transactions of Neural Networks 2 :673–686.
  3. ^ Ф. Швенкер, Х. А. Кестлер и Г. Палм (2001). «Три фазы обучения для сети радиальных базисных функций» Neural Netw. 14 :439-458.
Получено с "https://en.wikipedia.org/w/index.php?title=Сеть_гипербазисных_функций&oldid=1237710667"