Регуляризованный метод наименьших квадратов

Концепция в регрессионном анализе математики

Регуляризованный метод наименьших квадратов ( RLS ) — это семейство методов решения задачи наименьших квадратов с использованием регуляризации для дальнейшего ограничения полученного решения.

RLS используется по двум основным причинам. Первая возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обычная задача наименьших квадратов некорректна и, следовательно, не может быть подогнана, поскольку связанная с ней задача оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.

Вторая причина использования RLS возникает, когда обученная модель страдает от плохого обобщения . RLS может использоваться в таких случаях для улучшения обобщаемости модели путем ограничения ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» в некотором роде, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между признаками. Байесовского понимания этого можно достичь, показав, что методы RLS часто эквивалентны априорным данным в решении задачи наименьших квадратов.

Общая формулировка

Рассмотрим обучающую настройку, заданную вероятностным пространством , . Пусть обозначает обучающий набор пар iid относительно совместного распределения . Пусть будет функцией потерь. Определим как пространство функций, таких что ожидаемый риск: хорошо определен. Основная цель — минимизировать ожидаемый риск: Поскольку задача не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен предоставлять оценщику небольшой риск. $(X\times Y,\rho (X,Y))$ $Y\in R$ $S=\{x_{i},y_{i}\}_{i=1}^{n}$ $n$ $\ро$ $V:Y\times R\to [0;\infty)$ $F$ $\varepsilon (f)=\int V(y,f(x))\,d\rho (x,y)$ $\inf _{f\in F}\varepsilon (f)$

Поскольку совместное распределение обычно неизвестно, берется эмпирический риск. Для регуляризованных наименьших квадратов вводится функция квадратичных потерь: $\rho$ $\varepsilon (f)={\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},f(x_{i}))={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}$

Однако, если функции из относительно неограниченного пространства, например, набора квадратично-интегрируемых функций на , этот подход может переобучить обучающие данные и привести к плохому обобщению. Таким образом, он должен каким-то образом ограничить или наказать сложность функции . В RLS это достигается путем выбора функций из воспроизводящего ядра Гильбертова пространства (RKHS) и добавления члена регуляризации к целевой функции, пропорционального норме функции в : $X$ $f$ ${\mathcal {H}}$ ${\mathcal {H}}$ $\inf _{f\in F}\varepsilon (f)+\lambda R(f),\lambda >0$

Формулировка ядра

Определение РКХС

RKHS может быть определена симметричной положительно-определенной функцией ядра с воспроизводящим свойством: где . RKHS для ядра состоит из завершения пространства функций, охватываемого : , где все являются действительными числами. Некоторые часто используемые ядра включают линейное ядро, индуцирующее пространство линейных функций: полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка : и гауссово ядро: $K(x,z)$ $\langle K_{x},f\rangle _{\mathcal {H}}=f(x),$ $K_{x}(z)=K(x,z)$ $K$ $\left\{K_{x}\mid x\in X\right\}$ ${\textstyle f(x)=\sum _{i=1}^{n}\alpha _{i}K_{x_{i}}(x),\,f\in {\mathcal {H}}}$ $\alpha _{i}$ $K(x,z)=x^{\mathsf {T}}z,$ $d$ $K(x,z)=\left(x^{\mathsf {T}}z+1\right)^{d},$ $K(x,z)=e^{-{\left\|x-z\right\|^{2}}/{\sigma ^{2}}}.$

Обратите внимание, что для произвольной функции потерь этот подход определяет общий класс алгоритмов, называемых регуляризацией Тихонова. Например, использование потери шарнира приводит к алгоритму опорных векторов , а использование потери, нечувствительной к эпсилону, приводит к регрессии опорных векторов . $V$

Произвольное ядро

Теорема о представителе гарантирует, что решение можно записать в виде: для некоторых . $f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)$ $c\in \mathbb {R} ^{n}$

Проблему минимизации можно выразить следующим образом: где, с некоторой долей злоупотребления обозначениями, запись матрицы ядра (в отличие от функции ядра ) равна . $\min _{c\in \mathbb {R} ^{n}}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda \left\|f\right\|_{H}^{2},$ $i,j$ $K$ $K(\cdot ,\cdot )$ $K(x_{i},x_{j})$

Для такой функции ${\begin{aligned}\left\|f\right\|_{H}^{2}&=\langle f,f\rangle _{H}\\[1ex]&=\left\langle \sum _{i=1}^{n}c_{i}K(x_{i},\cdot ),\sum _{j=1}^{n}c_{j}K(x_{j},\cdot )\right\rangle _{H}\\[1ex]&=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}\left\langle K(x_{i},\cdot ),K(x_{j},\cdot )\right\rangle _{H}\\&=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})\\&=c^{\mathsf {T}}Kc,\end{aligned}}$

Можно получить следующую задачу минимизации: $\min _{c\in \mathbb {R} ^{n}}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}Kc.$

Поскольку сумма выпуклых функций является выпуклой, решение единственно и его минимум можно найти, установив градиент относительно к : где $c$ $0$ $-{\frac {1}{n}}K\left(Y-Kc\right)+\lambda Kc=0\Rightarrow K\left(K+\lambda nI\right)c=KY\Rightarrow c=\left(K+\lambda nI\right)^{-1}Y,$ $c\in \mathbb {R} ^{n}.$

Сложность

Сложность обучения в основном представляет собой стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, что примерно составляет . Вычисление матрицы ядра для линейного или гауссовского ядра составляет . Сложность тестирования составляет . $O(n^{3})$ $O(n^{2}D)$ $O(n)$

Прогноз

Прогноз в новой контрольной точке : $x_{*}$ $f(x_{*})=\sum _{i=1}^{n}c_{i}K(x_{i},x_{*})=K(X,X_{*})^{\mathsf {T}}c$

Линейное ядро

Для удобства введена векторная нотация. Пусть будет матрицей, где строки — входные векторы, а вектор — где записи — соответствующие выходы. В терминах векторов матрицу ядра можно записать как . Функцию обучения можно записать как: $X$ $n\times d$ $Y$ $n\times 1$ $K=XX^{\mathsf {T}}$ $f(x_{*})=K_{x_{*}}c=x_{*}^{\mathsf {T}}X^{\mathsf {T}}c=x_{*}^{\mathsf {T}}w$

Здесь мы определяем . Целевую функцию можно переписать как: $w=X^{\mathsf {T}}c,w\in \mathbb {R} ^{d}$ ${\begin{aligned}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}Kc&={\frac {1}{n}}\left\|y-XX^{\mathsf {T}}c\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}XX^{\mathsf {T}}c\\[1ex]&={\frac {1}{n}}\left\|y-Xw\right\|_{\mathbb {R} ^{n}}^{2}+\lambda \left\|w\right\|_{\mathbb {R} ^{d}}^{2}\end{aligned}}$

Первый член — это целевая функция из регрессии обычных наименьших квадратов (OLS), соответствующая остаточной сумме квадратов . Второй член — это член регуляризации, отсутствующий в OLS, который штрафует большие значения. Поскольку рассматривается гладкая конечномерная задача, и можно применять стандартные инструменты исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно и устанавливается равным нулю: $w$ $w$ $X^{\mathsf {T}}Xw-X^{\mathsf {T}}y+\lambda nw=0$ $w=\left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}X^{\mathsf {T}}y$

Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом . Если предположения регрессии OLS верны, решение , с , является несмещенной оценкой и является линейной несмещенной оценкой с минимальной дисперсией, согласно теореме Гаусса–Маркова . Таким образом, член приводит к смещенному решению; однако, он также имеет тенденцию уменьшать дисперсию. Это легко увидеть, поскольку ковариационная матрица -значений пропорциональна , и, следовательно, большие значения приведут к меньшей дисперсии. Следовательно, манипулирование соответствует компромиссу смещения и дисперсии. Для задач с оценками с высокой дисперсией, таких как случаи с относительно небольшими или коррелированными регрессорами, оптимальная точность прогнозирования может быть получена с использованием ненулевого , и, таким образом, введением некоторого смещения для уменьшения дисперсии. Кроме того, в машинном обучении нередко встречаются случаи, когда , в этом случае имеет место дефицит ранга , и для вычисления необходим ненулевой . $\lambda I$ $w=\left(X^{\mathsf {T}}X\right)^{-1}X^{\mathsf {T}}y$ $\lambda =0$ $\lambda nI$ $w$ $\left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}$ $\lambda$ $\lambda$ $w$ $n$ $\lambda$ $n<d$ $X^{\mathsf {T}}X$ $\lambda$ $\left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}$

Сложность

Параметр управляет обратимостью матрицы . Для решения указанной выше линейной системы можно использовать несколько методов, разложение Холецкого , вероятно, является методом выбора, поскольку матрица симметрична и положительно определена . Сложность этого метода заключается в обучении и тестировании. Стоимость по сути совпадает с вычислением , тогда как обратное вычисление (или, скорее , решение линейной системы) составляет примерно . $\lambda$ $X^{\mathsf {T}}X+\lambda nI$ $X^{\mathsf {T}}X+\lambda nI$ $O(nD^{2})$ $O(D)$ $O(nD^{2})$ $X^{\mathsf {T}}X$ $O(D^{3})$

Карты признаков и теорема Мерсера

В этом разделе будет показано, как расширить RLS до любого вида воспроизводящего ядра K. Вместо линейного ядра рассматривается карта признаков для некоторого гильбертова пространства , называемого пространством признаков. В этом случае ядро определяется как: Матрица теперь заменяется новой матрицей данных , где , или -й компонент . Это означает, что для заданного обучающего набора . Таким образом, целевая функция может быть записана как $\Phi :X\to F$ $F$ $X$ $\Phi$ $\Phi _{ij}=\varphi _{j}(x_{i})$ $j$ $\varphi (x_{i})$ $K(x,x')=\langle \Phi (x),\Phi (x')\rangle _{F}.$ $K=\Phi \Phi ^{\mathsf {T}}$ $\min _{c\in \mathbb {R} ^{n}}\left\|Y-\Phi \Phi ^{\mathsf {T}}c\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}\Phi \Phi ^{\mathsf {T}}c.$

Этот подход известен как трюк с ядром . Этот метод может значительно упростить вычислительные операции. Если имеет большую размерность, вычисления могут быть довольно интенсивными. Если известна явная форма функции ядра, нам просто нужно вычислить и сохранить матрицу ядра . $F$ $\varphi (x_{i})$ $n\times n$ $K$

На самом деле, гильбертово пространство не обязательно должно быть изоморфно , и может быть бесконечномерным. Это следует из теоремы Мерсера , которая гласит, что непрерывная, симметричная, положительно определенная функция ядра может быть выражена как , где образуют ортонормированный базис для , и . Если карты признаков определены с компонентами , то следует, что . Это показывает, что любое ядро может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполненного в некотором возможно более многомерном пространстве признаков. В то время как теорема Мерсера показывает, как одна карта признаков может быть связана с ядром, на самом деле несколько карт признаков могут быть связаны с данным воспроизводящим ядром. Например, карта удовлетворяет свойству для произвольного воспроизводящего ядра. $F$ $\mathbb {R} ^{m}$ $K(x,z)=\sum _{i=1}^{\infty }\sigma _{i}e_{i}(x)e_{i}(z)$ $e_{i}(x)$ $\ell ^{2}(X)$ $\sigma _{i}\in \mathbb {R}$ $\varphi (x)$ $\varphi _{i}(x)={\sqrt {\sigma _{i}}}e_{i}(x)$ $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$ $\varphi (x)=K_{x}$ $K(x,z)=\langle \varphi (x),\varphi (z)\rangle$

Байесовская интерпретация

Наименьшие квадраты можно рассматривать как максимизацию правдоподобия при предположении нормально распределенных остатков. Это связано с тем, что показатель гауссовского распределения является квадратичным в данных, как и целевая функция наименьших квадратов. В этой структуре термины регуляризации RLS можно понимать как кодирование априорных значений на . ^[1] Например, регуляризация Тихонова соответствует нормально распределенному априорному значению на , центрированному на 0. Чтобы увидеть это, сначала отметим, что цель OLS пропорциональна логарифмической функции правдоподобия, когда каждая выборка нормально распределена вокруг . Затем заметим, что нормальный априор на , центрированный на 0, имеет логарифмическую вероятность вида , где и являются константами, которые зависят от дисперсии априорного значения и не зависят от . Таким образом, минимизация логарифма правдоподобия, умноженного на априорное значение, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии. $w$ $w$ $y^{i}$ $w^{\mathsf {T}}\cdot x^{i}$ $w$ $\log P(w)=q-\alpha \sum _{j=1}^{d}w_{j}^{2}$ $q$ $\alpha$ $w$

Это дает более интуитивное толкование того, почему регуляризация Тихонова приводит к единственному решению задачи наименьших квадратов: существует бесконечно много векторов, удовлетворяющих ограничениям, полученным из данных, но поскольку мы подходим к задаче с априорным убеждением, которое нормально распределено вокруг начала координат, мы в конечном итоге выберем решение с учетом этого ограничения. $w$ $w$

Другие методы регуляризации соответствуют различным априорам. Более подробную информацию см. в списке ниже.

Конкретные примеры

Регрессия гребня (или регуляризация Тихонова)

Одним из особенно распространенных вариантов для штрафной функции является квадрат нормы , т. е., и решение находится как Наиболее распространенные названия для этого — регуляризация Тихонова и гребневая регрессия . Она допускает решение в замкнутой форме для : Название гребневая регрессия намекает на тот факт, что этот термин добавляет положительные элементы вдоль диагонального «гребня» матрицы ковариации выборки . $R$ $\ell _{2}$ $R(w)=\sum _{j=1}^{d}w_{j}^{2}$ ${\hat {w}}={\text{argmin}}_{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \sum _{j=1}^{d}\left|w_{j}\right|^{2}$ $w$ ${\hat {w}}=\left({\frac {1}{n}}X^{\mathsf {T}}X+\lambda I\right)^{-1}{\frac {1}{n}}X^{\mathsf {T}}Y=\left(X^{\mathsf {T}}X+n\lambda I\right)^{-1}X^{\mathsf {T}}Y$ $\lambda I$ ${\frac {1}{n}}X^{\mathsf {T}}X$

Когда , т. е. в случае обычных наименьших квадратов , условие, которое приводит к тому, что матрица ковариации выборки не имеет полного ранга и поэтому не может быть инвертирована для получения единственного решения. Вот почему может быть бесконечное множество решений задачи обычных наименьших квадратов , когда . Однако, когда , т. е. когда используется гребневая регрессия, добавление к матрице ковариации выборки гарантирует, что все ее собственные значения будут строго больше 0. Другими словами, она становится обратимой, и тогда решение становится единственным. $\lambda =0$ $d>n$ ${\frac {1}{n}}X^{\mathsf {T}}X$ $d>n$ $\lambda >0$ $\lambda I$

По сравнению с обычными наименьшими квадратами, гребневая регрессия не является несмещенной. Она принимает смещение для уменьшения дисперсии и среднеквадратической ошибки .

Упрощения и автоматическая регуляризация

Если мы хотим найти различные значения коэффициента регуляризации (который мы обозначим ), мы можем использовать разложение по собственным значениям ковариационной матрицы , где столбцы являются собственными векторами , а - ее собственными значениями. ${\hat {w}}$ $\lambda$ ${\hat {w}}(\lambda )$ ${\frac {1}{n}}X^{\mathsf {T}}X=Q{\text{diag}}(\alpha _{1},\ldots ,\alpha _{d})Q^{\mathsf {T}}$ $Q\in \mathbb {R} ^{d\times d}$ ${\frac {1}{n}}X^{\mathsf {T}}X$ $\alpha _{1},\ldots ,\alpha _{d}$ $d$

Решение тогда дается формулой : ${\hat {w}}(\lambda )=Q{\text{diag}}^{-1}(\alpha _{1}+\lambda ,\ldots ,\alpha _{d}+\lambda )Z$ $Z={\frac {1}{n}}Q^{\mathsf {T}}X^{\mathsf {T}}Y=[Z_{1},\ldots ,Z_{d}]^{\mathsf {T}}.$

Используя приведенные выше результаты, алгоритм нахождения оценки максимального правдоподобия можно определить следующим образом: ^[2] $\lambda$

$\lambda \leftarrow {\frac {1}{n}}\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}\left[{\frac {{\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}}{\|{\hat {w}}(\lambda )\|^{2}}}+\lambda \right].$

Этот алгоритм для автоматической (в отличие от эвристической) регуляризации получается как решение с фиксированной точкой при оценке максимального правдоподобия параметров. ^[2] Хотя гарантии сходимости не предоставляются, примеры показывают, что удовлетворительное решение может быть получено после пары итераций.

Разложение по собственным значениям упрощает вывод алгоритма, а также упрощает вычисления: $\|{\hat {w}}(\lambda )\|^{2}=\sum _{i=1}^{d}{\frac {|Z_{i}|^{2}}{(\alpha _{i}+\lambda )^{2}}},$ ${\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}=\sum _{i=1}^{d}{\frac {|Z_{i}|^{2}}{\alpha _{i}+\lambda }}.$

Альтернативный алгоритм с фиксированной точкой, известный как алгоритм Гулла-Маккея ^[2], обычно имеет более быструю сходимость, но может использоваться только если . Таким образом, хотя его можно использовать без проблем для осторожность рекомендуется для . $\lambda \leftarrow {\frac {{\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}}{\left[{\frac {n}{\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}}}-1\right]\|{\hat {w}}(\lambda )\|^{2}}}$ $n>\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}$ $n>d$ $n<d$

Лассо-регрессия

Метод наименьшего абсолютного выбора и сжатия (LASSO) является еще одним популярным выбором. В регрессии лассо функция штрафа лассо является нормой , т.е. $R$ $\ell _{1}$ $R(w)=\sum _{j=1}^{d}\left|w_{j}\right|$ ${\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \sum _{j=1}^{d}|w_{j}|\rightarrow \min _{w\in \mathbb {R} ^{d}}$

Обратите внимание, что функция штрафа лассо выпукла, но не строго выпукла. В отличие от регуляризации Тихонова , эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с помощью квадратичного программирования или более общих методов выпуклой оптимизации , а также с помощью специальных алгоритмов, таких как алгоритм регрессии наименьшего угла .

Важное различие между регрессией лассо и регуляризацией Тихонова заключается в том, что регрессия лассо заставляет больше элементов из фактически равняться 0, чем в противном случае. Напротив, хотя регуляризация Тихонова заставляет элементы быть малыми, она не заставляет больше из них быть равными 0, чем было бы в противном случае. Таким образом, регуляризация ЛАССО более подходит, чем регуляризация Тихонова, в случаях, когда мы ожидаем, что число ненулевых элементов будет малым, а регуляризация Тихонова более подходит, когда мы ожидаем, что элементы из будут в целом малыми, но не обязательно нулевыми. Какой из этих режимов более уместен, зависит от конкретного набора данных под рукой. $w$ $w$ $w$ $w$

Помимо описанного выше выбора признаков, LASSO имеет некоторые ограничения. Гребневая регрессия обеспечивает лучшую точность в случае сильно коррелированных переменных. ^[3] В другом случае, LASSO выбирает большинство переменных. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует. $n>d$ $n<d$ $n$

ℓ₀Пенализация

${\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \left\|w_{j}\right\|_{0}\rightarrow \min _{w\in \mathbb {R} ^{d}}$ Самый экстремальный способ принудительного обеспечения разреженности — сказать, что фактическая величина коэффициентов не имеет значения; скорее, единственное, что определяет сложность — это количество ненулевых записей. Это соответствует установке в качестве нормы . Эта функция регуляризации, хотя и привлекательна для разреженности, которую она гарантирует, очень сложна для решения, поскольку для этого требуется оптимизация функции, которая даже не является слабо выпуклой . Лассо-регрессия — это минимально возможное ослабление штрафования, которое приводит к слабо выпуклой задаче оптимизации. $w$ $w$ $R(w)$ $\ell _{0}$ $w$ $\ell _{0}$

Эластичная сетка

Для любого неотрицательного и цель имеет следующий вид: $\lambda _{1}$ $\lambda _{2}$ ${\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda _{1}\sum _{j=1}^{d}\left|w_{j}\right|+\lambda _{2}\sum _{j=1}^{d}\left|w_{j}\right|^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}$

Пусть , тогда решение задачи минимизации описывается как: для некоторого . $\alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}$ ${\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}{\text{ s.t. }}(1-\alpha )\left\|w\right\|_{1}+\alpha \left\|w\right\|_{2}\leq t$ $t$

Рассмотрим как функцию штрафа эластичной сети. $(1-\alpha )\left\|w\right\|_{1}+\alpha \left\|w\right\|_{2}\leq t$

Когда эластичная сеть становится регрессией гребня, тогда как она становится Лассо. Штрафная функция эластичной сети не имеет первой производной в 0 и является строго выпуклой, принимая свойства как регрессии лассо , так и регрессии гребня . $\alpha =1$ $\alpha =0$ $\forall \alpha \in (0,1]$ $\forall \alpha >0$

Одним из основных свойств Elastic Net является то, что она может выбирать группы коррелированных переменных. Разница между весовыми векторами выборок и определяется как: где . ^[4] $x_{i}$ $x_{j}$ $\left|w_{i}^{*}(\lambda _{1},\lambda _{2})-w_{j}^{*}(\lambda _{1},\lambda _{2})\right|\leq {\frac {\sum _{i=1}^{n}|y_{i}|}{\lambda _{2}}}{\sqrt {2(1-\rho _{ij})}},$ $\rho _{ij}=x_{i}^{\mathsf {T}}x_{j}$

Если и сильно коррелируют ( ), весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ) выборки могут быть взяты. Подводя итог, для сильно коррелированных переменных весовые векторы, как правило, равны с точностью до знака в случае отрицательно коррелированных переменных. $x_{i}$ $x_{j}$ $\rho _{ij}\to 1$ $\rho _{ij}\to -1$ $-x_{j}$

Частичный список методов RLS

Ниже приведен список возможных вариантов функции регуляризации , а также название каждого из них, соответствующее априорное распределение, если оно простое, и способы вычисления решения результирующей задачи оптимизации. $R(\cdot )$

Имя	Функция регуляризации	Соответствующий предшествующий	Методы решения
Регуляризация Тихонова	$\left\\|w\right\\|_{2}^{2}$	Нормальный	Закрытая форма
Лассо-регрессия	$\left\\|w\right\\|_{1}$	Лаплас	Проксимальный градиентный спуск , регрессия с наименьшим углом
$\ell _{0}$ пенализация	$\left\\|w\right\\|_{0}$	–	Прямой отбор , обратное исключение , использование априорных данных, таких как пик и слэб
Эластичные сетки	$\beta \left\\|w\right\\|_{1}+(1-\beta )\left\\|w\right\\|_{2}^{2}$	Нормальная и Лапласа смесь	Проксимальный градиентный спуск
Регуляризация полной вариации	$\sum _{j=1}^{d-1}\left\|w_{j+1}-w_{j}\right\|$	–	Метод Сплита–Брегмана и другие

Смотрите также

Наименьшие квадраты
Регуляризация в математике.
Ошибка обобщения — одна из причин использования регуляризации.
Регуляризация Тихонова
Лассо-регрессия
Эластичная сетевая регуляризация
Регрессия наименьшего угла

Ссылки

^ Хуан, Юньфэй.; и др. (2022 ) . «Разреженный вывод и активное обучение стохастических дифференциальных уравнений на основе данных». Scientific Reports . 12 (1): 21691. doi : 10.1038/s41598-022-25638-9 . PMC 9755218. PMID 36522347.
^ abc Gomes de Pinho Zanco, Daniel; Szczecinski, Leszek; Benesty, Jacob (2025). "Автоматическая регуляризация для линейных фильтров MMSE". Обработка сигналов . 230 .
^ Тибширани Роберт (1996). «Регрессионное сокращение и выбор через лассо» (PDF) . Журнал Королевского статистического общества, Серия B. 58: стр . 266–288 . doi : 10.1111 /j.2517-6161.1996.tb02080.x.
^ Хуэй, Цзоу ; Хасти, Тревор (2003). «Регуляризация и выбор переменных с помощью эластичной сети» (PDF) . Журнал Королевского статистического общества, серия B. 67 ( 2): стр. 301–320.

Внешние ссылки

http://www.stanford.edu/~hastie/TALKS/enet_talk.pdf Регуляризация и выбор переменных с помощью эластичной сети (презентация)
Регуляризованные наименьшие квадраты и опорные векторные машины (презентация)
Регуляризованный метод наименьших квадратов (презентация)

[1] ^ Хуан, Юньфэй.; и др. (2022 ) . «Разреженный вывод и активное обучение стохастических дифференциальных уравнений на основе данных». Scientific Reports . 12 (1): 21691. doi : 10.1038/s41598-022-25638-9 . PMC 9755218. PMID 36522347.

[Zanco-2] Gomes de Pinho Zanco, Daniel; Szczecinski, Leszek; Benesty, Jacob (2025). "Автоматическая регуляризация для линейных фильтров MMSE". Обработка сигналов . 230 .

[3] Тибширани Роберт (1996). «Регрессионное сокращение и выбор через лассо» (PDF) . Журнал Королевского статистического общества, Серия B. 58: стр . 266–288 . doi : 10.1111 /j.2517-6161.1996.tb02080.x.

[4] Хуэй, Цзоу ; Хасти, Тревор (2003). «Регуляризация и выбор переменных с помощью эластичной сети» (PDF) . Журнал Королевского статистического общества, серия B. 67 ( 2): стр. 301–320.

Регуляризованный метод наименьших квадратов

Общая формулировка

Формулировка ядра

Определение РКХС

Произвольное ядро

Сложность

Прогноз

Линейное ядро

Сложность

Карты признаков и теорема Мерсера

Байесовская интерпретация

Конкретные примеры

Регрессия гребня (или регуляризация Тихонова)

Упрощения и автоматическая регуляризация

Лассо-регрессия

ℓ0Пенализация

Эластичная сетка

Частичный список методов RLS

Смотрите также

Ссылки

Внешние ссылки

ℓ₀Пенализация