Минимизация структурного риска

Минимизация структурного риска (SRM) — это индуктивный принцип использования в машинном обучении . Обычно в машинном обучении обобщенная модель должна быть выбрана из конечного набора данных, с последующей проблемой переобучения — модель становится слишком сильно подогнанной под особенности обучающего набора и плохо обобщается на новые данные. Принцип SRM решает эту проблему, уравновешивая сложность модели с ее успешностью в подгонке под обучающие данные. Этот принцип был впервые изложен в книге 1974 года [1] Владимира Вапника и Алексея Червоненкиса и использует измерение VC .

На практике минимизация структурного риска реализуется путем минимизации , где — ошибка обучения, функция называется функцией регуляризации, а — константа. выбирается таким образом, чтобы принимать большие значения параметров , принадлежащих высокопроизводительным подмножествам пространства параметров. Минимизация фактически ограничивает емкость доступных подмножеств пространства параметров, тем самым контролируя компромисс между минимизацией ошибки обучения и минимизацией ожидаемого разрыва между ошибкой обучения и ошибкой тестирования. [2] Э т г а я н + β ЧАС ( Вт ) {\displaystyle E_{train}+\beta H (W)} Э т г а я н {\displaystyle E_{поезд}} ЧАС ( Вт ) {\displaystyle H(W)} β {\displaystyle \бета} ЧАС ( Вт ) {\displaystyle H(W)} Вт {\displaystyle W} ЧАС ( Вт ) {\displaystyle H(W)}

Проблему SRM можно сформулировать в терминах данных. При наличии n точек данных, состоящих из данных x и меток y, цель часто выражается следующим образом: Дж. ( θ ) {\displaystyle J(\theta)}

Дж. ( θ ) = 1 2 н я = 1 н ( час θ ( х я ) у я ) 2 + λ 2 дж = 1 г θ дж 2 {\displaystyle J(\theta )={\frac {1}{2n}}\sum _{i=1}^{n}(h_{\theta }(x^{i})-y^{i})^{2}+{\frac {\lambda }{2}}\sum _{j=1}^{d}\theta _{j}^{2}}

Первый член — это среднеквадратическая ошибка (MSE) между значением обученной модели, , и заданными метками . Этот член — ошибка обучения, , которая обсуждалась ранее. Второй член помещает априорную величину над весами, чтобы способствовать разреженности и наказывать большие веса. Коэффициент компромисса, , — это гиперпараметр, который придает большую или меньшую важность члену регуляризации. Большее значение поощряет более разреженные веса за счет более оптимальной MSE, а меньшее ослабляет регуляризацию, позволяя модели подгонять данные. Обратите внимание, что по мере того, как веса становятся нулевыми, и как , модель обычно страдает от переобучения. час θ {\displaystyle h_{\theta }} у {\displaystyle у} Э т г а я н {\displaystyle E_{поезд}} λ {\displaystyle \лямбда} λ {\displaystyle \лямбда} λ {\displaystyle \лямбда} λ {\displaystyle \lambda \to \infty } λ 0 {\displaystyle \лямбда \to 0}


Смотрите также

Ссылки

  1. ^ Вапник, В.Н.; Червоненкис, А.Я. (1974). Теория распознавания образов . Наука, Москва.
  2. ^ ЛеКун, Янн. «Применение градиентного обучения к распознаванию документов» (PDF) .
  • Минимизация структурного риска на сайте опорных векторных машин.


Взято с "https://en.wikipedia.org/w/index.php?title=Минимизация_структурного_риска&oldid=1198145991"