Минимизация структурного риска (SRM) — это индуктивный принцип использования в машинном обучении . Обычно в машинном обучении обобщенная модель должна быть выбрана из конечного набора данных, с последующей проблемой переобучения — модель становится слишком сильно подогнанной под особенности обучающего набора и плохо обобщается на новые данные. Принцип SRM решает эту проблему, уравновешивая сложность модели с ее успешностью в подгонке под обучающие данные. Этот принцип был впервые изложен в книге 1974 года [1] Владимира Вапника и Алексея Червоненкиса и использует измерение VC .
На практике минимизация структурного риска реализуется путем минимизации , где — ошибка обучения, функция называется функцией регуляризации, а — константа. выбирается таким образом, чтобы принимать большие значения параметров , принадлежащих высокопроизводительным подмножествам пространства параметров. Минимизация фактически ограничивает емкость доступных подмножеств пространства параметров, тем самым контролируя компромисс между минимизацией ошибки обучения и минимизацией ожидаемого разрыва между ошибкой обучения и ошибкой тестирования. [2]
Проблему SRM можно сформулировать в терминах данных. При наличии n точек данных, состоящих из данных x и меток y, цель часто выражается следующим образом:
Первый член — это среднеквадратическая ошибка (MSE) между значением обученной модели, , и заданными метками . Этот член — ошибка обучения, , которая обсуждалась ранее. Второй член помещает априорную величину над весами, чтобы способствовать разреженности и наказывать большие веса. Коэффициент компромисса, , — это гиперпараметр, который придает большую или меньшую важность члену регуляризации. Большее значение поощряет более разреженные веса за счет более оптимальной MSE, а меньшее ослабляет регуляризацию, позволяя модели подгонять данные. Обратите внимание, что по мере того, как веса становятся нулевыми, и как , модель обычно страдает от переобучения.