В машинном обучении сеть гипербазисных функций , или сеть HyperBF , является обобщением концепции сетей радиальных базисных функций (RBF) , где вместо меры евклидового расстояния используется расстояние Махаланобиса . Сети гипербазисных функций были впервые представлены Поджио и Джирози в статье 1990 года «Сети для аппроксимации и обучения». [1] [2]
Сетевая архитектура
Типичная структура сети HyperBF состоит из действительного входного вектора , скрытого слоя функций активации и линейного выходного слоя. Выход сети является скалярной функцией входного вектора, , задается как
где — число нейронов в скрытом слое, а — центр и вес нейрона . Функция активации в сети HyperBF принимает следующий вид
где — положительно определенная матрица. В зависимости от приложения обычно рассматриваются следующие типы матриц [3]
- , где . Этот случай соответствует обычной сети RBF.
- , где . В этом случае базисные функции радиально симметричны, но масштабируются с разной шириной.
- , где . Каждый нейрон имеет эллиптическую форму с переменным размером.
- Положительно определенная матрица, но не диагональная.
Обучение
Обучение сетей HyperBF включает оценку весов , формы и центров нейронов и . Poggio и Girosi (1990) описывают метод обучения с подвижными центрами и адаптируемыми формами нейронов. Краткое описание метода приведено ниже.
Рассмотрим квадратичную потерю сети . При оптимуме должны быть выполнены следующие условия:
где . Тогда в методе градиентного спуска минимизирующие значения могут быть найдены как устойчивая неподвижная точка следующей динамической системы:
где определяет скорость сходимости.
В целом, обучение сетей HyperBF может быть вычислительно сложным. Более того, высокая степень свободы HyperBF приводит к переобучению и плохому обобщению. Однако сети HyperBF имеют важное преимущество, заключающееся в том, что для обучения сложных функций достаточно небольшого количества нейронов. [2]
Ссылки
- ^ T. Poggio и F. Girosi (1990). «Сети для аппроксимации и обучения». Proc. IEEE Vol. 78, No. 9 :1481-1497.
- ^ ab RN Mahdi, EC Rouchka (2011). «Редуцированные сети HyperBF: регуляризация с помощью явного снижения сложности и масштабируемого обучения на основе Rprop». IEEE Transactions of Neural Networks 2 :673–686.
- ^ Ф. Швенкер, Х. А. Кестлер и Г. Палм (2001). «Три фазы обучения для сети радиальных базисных функций» Neural Netw. 14 :439-458.