Регуляризованный метод наименьших квадратов

Концепция в регрессионном анализе математики

Регуляризованный метод наименьших квадратов ( RLS ) — это семейство методов решения задачи наименьших квадратов с использованием регуляризации для дальнейшего ограничения полученного решения.

RLS используется по двум основным причинам. Первая возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обычная задача наименьших квадратов некорректна и, следовательно, не может быть подогнана, поскольку связанная с ней задача оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.

Вторая причина использования RLS возникает, когда обученная модель страдает от плохого обобщения . RLS может использоваться в таких случаях для улучшения обобщаемости модели путем ограничения ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» в некотором роде, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между признаками. Байесовского понимания этого можно достичь, показав, что методы RLS часто эквивалентны априорным данным в решении задачи наименьших квадратов.

Общая формулировка

Рассмотрим обучающую настройку, заданную вероятностным пространством , . Пусть обозначает обучающий набор пар iid относительно совместного распределения . Пусть будет функцией потерь. Определим как пространство функций, таких что ожидаемый риск: хорошо определен. Основная цель — минимизировать ожидаемый риск: Поскольку задача не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен предоставлять оценщику небольшой риск. ( Х × И , ρ ( Х , И ) ) {\displaystyle (X\times Y,\rho (X,Y))} И Р {\displaystyle Y\in R} С = { х я , у я } я = 1 н {\displaystyle S=\{x_{i},y_{i}\}_{i=1}^{n}} н {\displaystyle n} ρ {\displaystyle \ро} В : И × Р [ 0 ; ) {\displaystyle V:Y\times R\to [0;\infty)} Ф {\displaystyle F} ε ( ф ) = В ( у , ф ( х ) ) г ρ ( х , у ) {\displaystyle \varepsilon (f)=\int V(y,f(x))\,d\rho (x,y)} инф ф Ф ε ( ф ) {\displaystyle \inf _{f\in F}\varepsilon (f)}

Поскольку совместное распределение обычно неизвестно, берется эмпирический риск. Для регуляризованных наименьших квадратов вводится функция квадратичных потерь: ρ {\displaystyle \rho } ε ( f ) = 1 n i = 1 n V ( y i , f ( x i ) ) = 1 n i = 1 n ( y i f ( x i ) ) 2 {\displaystyle \varepsilon (f)={\frac {1}{n}}\sum _{i=1}^{n}V(y_{i},f(x_{i}))={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}}

Однако, если функции из относительно неограниченного пространства, например, набора квадратично-интегрируемых функций на , этот подход может переобучить обучающие данные и привести к плохому обобщению. Таким образом, он должен каким-то образом ограничить или наказать сложность функции . В RLS это достигается путем выбора функций из воспроизводящего ядра Гильбертова пространства (RKHS) и добавления члена регуляризации к целевой функции, пропорционального норме функции в : X {\displaystyle X} f {\displaystyle f} H {\displaystyle {\mathcal {H}}} H {\displaystyle {\mathcal {H}}} inf f F ε ( f ) + λ R ( f ) , λ > 0 {\displaystyle \inf _{f\in F}\varepsilon (f)+\lambda R(f),\lambda >0}

Формулировка ядра

Определение РКХС

RKHS может быть определена симметричной положительно-определенной функцией ядра с воспроизводящим свойством: где . RKHS для ядра состоит из завершения пространства функций, охватываемого : , где все являются действительными числами. Некоторые часто используемые ядра включают линейное ядро, индуцирующее пространство линейных функций: полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка : и гауссово ядро: K ( x , z ) {\displaystyle K(x,z)} K x , f H = f ( x ) , {\displaystyle \langle K_{x},f\rangle _{\mathcal {H}}=f(x),} K x ( z ) = K ( x , z ) {\displaystyle K_{x}(z)=K(x,z)} K {\displaystyle K} { K x x X } {\displaystyle \left\{K_{x}\mid x\in X\right\}} f ( x ) = i = 1 n α i K x i ( x ) , f H {\textstyle f(x)=\sum _{i=1}^{n}\alpha _{i}K_{x_{i}}(x),\,f\in {\mathcal {H}}} α i {\displaystyle \alpha _{i}} K ( x , z ) = x T z , {\displaystyle K(x,z)=x^{\mathsf {T}}z,} d {\displaystyle d} K ( x , z ) = ( x T z + 1 ) d , {\displaystyle K(x,z)=\left(x^{\mathsf {T}}z+1\right)^{d},} K ( x , z ) = e x z 2 / σ 2 . {\displaystyle K(x,z)=e^{-{\left\|x-z\right\|^{2}}/{\sigma ^{2}}}.}

Обратите внимание, что для произвольной функции потерь этот подход определяет общий класс алгоритмов, называемых регуляризацией Тихонова. Например, использование потери шарнира приводит к алгоритму опорных векторов , а использование потери, нечувствительной к эпсилону, приводит к регрессии опорных векторов . V {\displaystyle V}

Произвольное ядро

Теорема о представителе гарантирует, что решение можно записать в виде: для некоторых . f ( x ) = i = 1 n c i K ( x i , x ) {\displaystyle f(x)=\sum _{i=1}^{n}c_{i}K(x_{i},x)} c R n {\displaystyle c\in \mathbb {R} ^{n}}

Проблему минимизации можно выразить следующим образом: где, с некоторой долей злоупотребления обозначениями, запись матрицы ядра (в отличие от функции ядра ) равна . min c R n 1 n Y K c R n 2 + λ f H 2 , {\displaystyle \min _{c\in \mathbb {R} ^{n}}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda \left\|f\right\|_{H}^{2},} i , j {\displaystyle i,j} K {\displaystyle K} K ( , ) {\displaystyle K(\cdot ,\cdot )} K ( x i , x j ) {\displaystyle K(x_{i},x_{j})}

Для такой функции f H 2 = f , f H = i = 1 n c i K ( x i , ) , j = 1 n c j K ( x j , ) H = i = 1 n j = 1 n c i c j K ( x i , ) , K ( x j , ) H = i = 1 n j = 1 n c i c j K ( x i , x j ) = c T K c , {\displaystyle {\begin{aligned}\left\|f\right\|_{H}^{2}&=\langle f,f\rangle _{H}\\[1ex]&=\left\langle \sum _{i=1}^{n}c_{i}K(x_{i},\cdot ),\sum _{j=1}^{n}c_{j}K(x_{j},\cdot )\right\rangle _{H}\\[1ex]&=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}\left\langle K(x_{i},\cdot ),K(x_{j},\cdot )\right\rangle _{H}\\&=\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})\\&=c^{\mathsf {T}}Kc,\end{aligned}}}

Можно получить следующую задачу минимизации: min c R n 1 n Y K c R n 2 + λ c T K c . {\displaystyle \min _{c\in \mathbb {R} ^{n}}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}Kc.}

Поскольку сумма выпуклых функций является выпуклой, решение единственно и его минимум можно найти, установив градиент относительно к : где c {\displaystyle c} 0 {\displaystyle 0} 1 n K ( Y K c ) + λ K c = 0 K ( K + λ n I ) c = K Y c = ( K + λ n I ) 1 Y , {\displaystyle -{\frac {1}{n}}K\left(Y-Kc\right)+\lambda Kc=0\Rightarrow K\left(K+\lambda nI\right)c=KY\Rightarrow c=\left(K+\lambda nI\right)^{-1}Y,} c R n . {\displaystyle c\in \mathbb {R} ^{n}.}

Сложность

Сложность обучения в основном представляет собой стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, что примерно составляет . Вычисление матрицы ядра для линейного или гауссовского ядра составляет . Сложность тестирования составляет . O ( n 3 ) {\displaystyle O(n^{3})} O ( n 2 D ) {\displaystyle O(n^{2}D)} O ( n ) {\displaystyle O(n)}

Прогноз

Прогноз в новой контрольной точке : x {\displaystyle x_{*}} f ( x ) = i = 1 n c i K ( x i , x ) = K ( X , X ) T c {\displaystyle f(x_{*})=\sum _{i=1}^{n}c_{i}K(x_{i},x_{*})=K(X,X_{*})^{\mathsf {T}}c}

Линейное ядро

Для удобства введена векторная нотация. Пусть будет матрицей, где строки — входные векторы, а вектор — где записи — соответствующие выходы. В терминах векторов матрицу ядра можно записать как . Функцию обучения можно записать как: X {\displaystyle X} n × d {\displaystyle n\times d} Y {\displaystyle Y} n × 1 {\displaystyle n\times 1} K = X X T {\displaystyle K=XX^{\mathsf {T}}} f ( x ) = K x c = x T X T c = x T w {\displaystyle f(x_{*})=K_{x_{*}}c=x_{*}^{\mathsf {T}}X^{\mathsf {T}}c=x_{*}^{\mathsf {T}}w}

Здесь мы определяем . Целевую функцию можно переписать как: w = X T c , w R d {\displaystyle w=X^{\mathsf {T}}c,w\in \mathbb {R} ^{d}} 1 n Y K c R n 2 + λ c T K c = 1 n y X X T c R n 2 + λ c T X X T c = 1 n y X w R n 2 + λ w R d 2 {\displaystyle {\begin{aligned}{\frac {1}{n}}\left\|Y-Kc\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}Kc&={\frac {1}{n}}\left\|y-XX^{\mathsf {T}}c\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}XX^{\mathsf {T}}c\\[1ex]&={\frac {1}{n}}\left\|y-Xw\right\|_{\mathbb {R} ^{n}}^{2}+\lambda \left\|w\right\|_{\mathbb {R} ^{d}}^{2}\end{aligned}}}

Первый член — это целевая функция из регрессии обычных наименьших квадратов (OLS), соответствующая остаточной сумме квадратов . Второй член — это член регуляризации, отсутствующий в OLS, который штрафует большие значения. Поскольку рассматривается гладкая конечномерная задача, и можно применять стандартные инструменты исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно и устанавливается равным нулю: w {\displaystyle w} w {\displaystyle w} X T X w X T y + λ n w = 0 {\displaystyle X^{\mathsf {T}}Xw-X^{\mathsf {T}}y+\lambda nw=0} w = ( X T X + λ n I ) 1 X T y {\displaystyle w=\left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}X^{\mathsf {T}}y}

Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом . Если предположения регрессии OLS верны, решение , с , является несмещенной оценкой и является линейной несмещенной оценкой с минимальной дисперсией, согласно теореме Гаусса–Маркова . Таким образом, член приводит к смещенному решению; однако, он также имеет тенденцию уменьшать дисперсию. Это легко увидеть, поскольку ковариационная матрица -значений пропорциональна , и, следовательно, большие значения приведут к меньшей дисперсии. Следовательно, манипулирование соответствует компромиссу смещения и дисперсии. Для задач с оценками с высокой дисперсией, таких как случаи с относительно небольшими или коррелированными регрессорами, оптимальная точность прогнозирования может быть получена с использованием ненулевого , и, таким образом, введением некоторого смещения для уменьшения дисперсии. Кроме того, в машинном обучении нередко встречаются случаи, когда , в этом случае имеет место дефицит ранга , и для вычисления необходим ненулевой . λ I {\displaystyle \lambda I} w = ( X T X ) 1 X T y {\displaystyle w=\left(X^{\mathsf {T}}X\right)^{-1}X^{\mathsf {T}}y} λ = 0 {\displaystyle \lambda =0} λ n I {\displaystyle \lambda nI} w {\displaystyle w} ( X T X + λ n I ) 1 {\displaystyle \left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}} λ {\displaystyle \lambda } λ {\displaystyle \lambda } w {\displaystyle w} n {\displaystyle n} λ {\displaystyle \lambda } n < d {\displaystyle n<d} X T X {\displaystyle X^{\mathsf {T}}X} λ {\displaystyle \lambda } ( X T X + λ n I ) 1 {\displaystyle \left(X^{\mathsf {T}}X+\lambda nI\right)^{-1}}

Сложность

Параметр управляет обратимостью матрицы . Для решения указанной выше линейной системы можно использовать несколько методов, разложение Холецкого , вероятно, является методом выбора, поскольку матрица симметрична и положительно определена . Сложность этого метода заключается в обучении и тестировании. Стоимость по сути совпадает с вычислением , тогда как обратное вычисление (или, скорее , решение линейной системы) составляет примерно . λ {\displaystyle \lambda } X T X + λ n I {\displaystyle X^{\mathsf {T}}X+\lambda nI} X T X + λ n I {\displaystyle X^{\mathsf {T}}X+\lambda nI} O ( n D 2 ) {\displaystyle O(nD^{2})} O ( D ) {\displaystyle O(D)} O ( n D 2 ) {\displaystyle O(nD^{2})} X T X {\displaystyle X^{\mathsf {T}}X} O ( D 3 ) {\displaystyle O(D^{3})}

Карты признаков и теорема Мерсера

В этом разделе будет показано, как расширить RLS до любого вида воспроизводящего ядра K. Вместо линейного ядра рассматривается карта признаков для некоторого гильбертова пространства , называемого пространством признаков. В этом случае ядро ​​определяется как: Матрица теперь заменяется новой матрицей данных , где , или -й компонент . Это означает, что для заданного обучающего набора . Таким образом, целевая функция может быть записана как Φ : X F {\displaystyle \Phi :X\to F} F {\displaystyle F} X {\displaystyle X} Φ {\displaystyle \Phi } Φ i j = φ j ( x i ) {\displaystyle \Phi _{ij}=\varphi _{j}(x_{i})} j {\displaystyle j} φ ( x i ) {\displaystyle \varphi (x_{i})} K ( x , x ) = Φ ( x ) , Φ ( x ) F . {\displaystyle K(x,x')=\langle \Phi (x),\Phi (x')\rangle _{F}.} K = Φ Φ T {\displaystyle K=\Phi \Phi ^{\mathsf {T}}} min c R n Y Φ Φ T c R n 2 + λ c T Φ Φ T c . {\displaystyle \min _{c\in \mathbb {R} ^{n}}\left\|Y-\Phi \Phi ^{\mathsf {T}}c\right\|_{\mathbb {R} ^{n}}^{2}+\lambda c^{\mathsf {T}}\Phi \Phi ^{\mathsf {T}}c.}

Этот подход известен как трюк с ядром . Этот метод может значительно упростить вычислительные операции. Если имеет большую размерность, вычисления могут быть довольно интенсивными. Если известна явная форма функции ядра, нам просто нужно вычислить и сохранить матрицу ядра . F {\displaystyle F} φ ( x i ) {\displaystyle \varphi (x_{i})} n × n {\displaystyle n\times n} K {\displaystyle K}

На самом деле, гильбертово пространство не обязательно должно быть изоморфно , и может быть бесконечномерным. Это следует из теоремы Мерсера , которая гласит, что непрерывная, симметричная, положительно определенная функция ядра может быть выражена как , где образуют ортонормированный базис для , и . Если карты признаков определены с компонентами , то следует, что . Это показывает, что любое ядро ​​может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполненного в некотором возможно более многомерном пространстве признаков. В то время как теорема Мерсера показывает, как одна карта признаков может быть связана с ядром, на самом деле несколько карт признаков могут быть связаны с данным воспроизводящим ядром. Например, карта удовлетворяет свойству для произвольного воспроизводящего ядра. F {\displaystyle F} R m {\displaystyle \mathbb {R} ^{m}} K ( x , z ) = i = 1 σ i e i ( x ) e i ( z ) {\displaystyle K(x,z)=\sum _{i=1}^{\infty }\sigma _{i}e_{i}(x)e_{i}(z)} e i ( x ) {\displaystyle e_{i}(x)} 2 ( X ) {\displaystyle \ell ^{2}(X)} σ i R {\displaystyle \sigma _{i}\in \mathbb {R} } φ ( x ) {\displaystyle \varphi (x)} φ i ( x ) = σ i e i ( x ) {\displaystyle \varphi _{i}(x)={\sqrt {\sigma _{i}}}e_{i}(x)} K ( x , z ) = φ ( x ) , φ ( z ) {\displaystyle K(x,z)=\langle \varphi (x),\varphi (z)\rangle } φ ( x ) = K x {\displaystyle \varphi (x)=K_{x}} K ( x , z ) = φ ( x ) , φ ( z ) {\displaystyle K(x,z)=\langle \varphi (x),\varphi (z)\rangle }

Байесовская интерпретация

Наименьшие квадраты можно рассматривать как максимизацию правдоподобия при предположении нормально распределенных остатков. Это связано с тем, что показатель гауссовского распределения является квадратичным в данных, как и целевая функция наименьших квадратов. В этой структуре термины регуляризации RLS можно понимать как кодирование априорных значений на . [1] Например, регуляризация Тихонова соответствует нормально распределенному априорному значению на , центрированному на 0. Чтобы увидеть это, сначала отметим, что цель OLS пропорциональна логарифмической функции правдоподобия, когда каждая выборка нормально распределена вокруг . Затем заметим, что нормальный априор на , центрированный на 0, имеет логарифмическую вероятность вида , где и являются константами, которые зависят от дисперсии априорного значения и не зависят от . Таким образом, минимизация логарифма правдоподобия, умноженного на априорное значение, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии. w {\displaystyle w} w {\displaystyle w} y i {\displaystyle y^{i}} w T x i {\displaystyle w^{\mathsf {T}}\cdot x^{i}} w {\displaystyle w} log P ( w ) = q α j = 1 d w j 2 {\displaystyle \log P(w)=q-\alpha \sum _{j=1}^{d}w_{j}^{2}} q {\displaystyle q} α {\displaystyle \alpha } w {\displaystyle w}

Это дает более интуитивное толкование того, почему регуляризация Тихонова приводит к единственному решению задачи наименьших квадратов: существует бесконечно много векторов, удовлетворяющих ограничениям, полученным из данных, но поскольку мы подходим к задаче с априорным убеждением, которое нормально распределено вокруг начала координат, мы в конечном итоге выберем решение с учетом этого ограничения. w {\displaystyle w} w {\displaystyle w}

Другие методы регуляризации соответствуют различным априорам. Более подробную информацию см. в списке ниже.

Конкретные примеры

Регрессия гребня (или регуляризация Тихонова)

Одним из особенно распространенных вариантов для штрафной функции является квадрат нормы , т. е., и решение находится как Наиболее распространенные названия для этого — регуляризация Тихонова и гребневая регрессия . Она допускает решение в замкнутой форме для : Название гребневая регрессия намекает на тот факт, что этот термин добавляет положительные элементы вдоль диагонального «гребня» матрицы ковариации выборки . R {\displaystyle R} 2 {\displaystyle \ell _{2}} R ( w ) = j = 1 d w j 2 {\displaystyle R(w)=\sum _{j=1}^{d}w_{j}^{2}} w ^ = argmin w R d 1 n Y X w 2 2 + λ j = 1 d | w j | 2 {\displaystyle {\hat {w}}={\text{argmin}}_{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \sum _{j=1}^{d}\left|w_{j}\right|^{2}} w {\displaystyle w} w ^ = ( 1 n X T X + λ I ) 1 1 n X T Y = ( X T X + n λ I ) 1 X T Y {\displaystyle {\hat {w}}=\left({\frac {1}{n}}X^{\mathsf {T}}X+\lambda I\right)^{-1}{\frac {1}{n}}X^{\mathsf {T}}Y=\left(X^{\mathsf {T}}X+n\lambda I\right)^{-1}X^{\mathsf {T}}Y} λ I {\displaystyle \lambda I} 1 n X T X {\displaystyle {\frac {1}{n}}X^{\mathsf {T}}X}

Когда , т. е. в случае обычных наименьших квадратов , условие, которое приводит к тому, что матрица ковариации выборки не имеет полного ранга и поэтому не может быть инвертирована для получения единственного решения. Вот почему может быть бесконечное множество решений задачи обычных наименьших квадратов , когда . Однако, когда , т. е. когда используется гребневая регрессия, добавление к матрице ковариации выборки гарантирует, что все ее собственные значения будут строго больше 0. Другими словами, она становится обратимой, и тогда решение становится единственным. λ = 0 {\displaystyle \lambda =0} d > n {\displaystyle d>n} 1 n X T X {\displaystyle {\frac {1}{n}}X^{\mathsf {T}}X} d > n {\displaystyle d>n} λ > 0 {\displaystyle \lambda >0} λ I {\displaystyle \lambda I}

По сравнению с обычными наименьшими квадратами, гребневая регрессия не является несмещенной. Она принимает смещение для уменьшения дисперсии и среднеквадратической ошибки .

Упрощения и автоматическая регуляризация

Если мы хотим найти различные значения коэффициента регуляризации (который мы обозначим ), мы можем использовать разложение по собственным значениям ковариационной матрицы , где столбцы являются собственными векторами , а - ее собственными значениями. w ^ {\displaystyle {\hat {w}}} λ {\displaystyle \lambda } w ^ ( λ ) {\displaystyle {\hat {w}}(\lambda )} 1 n X T X = Q diag ( α 1 , , α d ) Q T {\displaystyle {\frac {1}{n}}X^{\mathsf {T}}X=Q{\text{diag}}(\alpha _{1},\ldots ,\alpha _{d})Q^{\mathsf {T}}} Q R d × d {\displaystyle Q\in \mathbb {R} ^{d\times d}} 1 n X T X {\displaystyle {\frac {1}{n}}X^{\mathsf {T}}X} α 1 , , α d {\displaystyle \alpha _{1},\ldots ,\alpha _{d}} d {\displaystyle d}

Решение тогда дается формулой : w ^ ( λ ) = Q diag 1 ( α 1 + λ , , α d + λ ) Z {\displaystyle {\hat {w}}(\lambda )=Q{\text{diag}}^{-1}(\alpha _{1}+\lambda ,\ldots ,\alpha _{d}+\lambda )Z} Z = 1 n Q T X T Y = [ Z 1 , , Z d ] T . {\displaystyle Z={\frac {1}{n}}Q^{\mathsf {T}}X^{\mathsf {T}}Y=[Z_{1},\ldots ,Z_{d}]^{\mathsf {T}}.}

Используя приведенные выше результаты, алгоритм нахождения оценки максимального правдоподобия можно определить следующим образом: [2] λ {\displaystyle \lambda }


λ 1 n i = 1 d α i α i + λ [ 1 n Y X w ^ ( λ ) 2 w ^ ( λ ) 2 + λ ] . {\displaystyle \lambda \leftarrow {\frac {1}{n}}\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}\left[{\frac {{\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}}{\|{\hat {w}}(\lambda )\|^{2}}}+\lambda \right].}

Этот алгоритм для автоматической (в отличие от эвристической) регуляризации получается как решение с фиксированной точкой при оценке максимального правдоподобия параметров. [2] Хотя гарантии сходимости не предоставляются, примеры показывают, что удовлетворительное решение может быть получено после пары итераций.

Разложение по собственным значениям упрощает вывод алгоритма, а также упрощает вычисления: w ^ ( λ ) 2 = i = 1 d | Z i | 2 ( α i + λ ) 2 , {\displaystyle \|{\hat {w}}(\lambda )\|^{2}=\sum _{i=1}^{d}{\frac {|Z_{i}|^{2}}{(\alpha _{i}+\lambda )^{2}}},} 1 n Y X w ^ ( λ ) 2 = i = 1 d | Z i | 2 α i + λ . {\displaystyle {\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}=\sum _{i=1}^{d}{\frac {|Z_{i}|^{2}}{\alpha _{i}+\lambda }}.}

Альтернативный алгоритм с фиксированной точкой, известный как алгоритм Гулла-Маккея [2], обычно имеет более быструю сходимость, но может использоваться только если . Таким образом, хотя его можно использовать без проблем для осторожность рекомендуется для . λ 1 n Y X w ^ ( λ ) 2 [ n i = 1 d α i α i + λ 1 ] w ^ ( λ ) 2 {\displaystyle \lambda \leftarrow {\frac {{\frac {1}{n}}\|Y-X{\hat {w}}(\lambda )\|^{2}}{\left[{\frac {n}{\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}}}-1\right]\|{\hat {w}}(\lambda )\|^{2}}}} n > i = 1 d α i α i + λ {\displaystyle n>\sum _{i=1}^{d}{\frac {\alpha _{i}}{\alpha _{i}+\lambda }}} n > d {\displaystyle n>d} n < d {\displaystyle n<d}

Лассо-регрессия

Метод наименьшего абсолютного выбора и сжатия (LASSO) является еще одним популярным выбором. В регрессии лассо функция штрафа лассо является нормой , т.е. R {\displaystyle R} 1 {\displaystyle \ell _{1}} R ( w ) = j = 1 d | w j | {\displaystyle R(w)=\sum _{j=1}^{d}\left|w_{j}\right|} 1 n Y X w 2 2 + λ j = 1 d | w j | min w R d {\displaystyle {\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \sum _{j=1}^{d}|w_{j}|\rightarrow \min _{w\in \mathbb {R} ^{d}}}

Обратите внимание, что функция штрафа лассо выпукла, но не строго выпукла. В отличие от регуляризации Тихонова , эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с помощью квадратичного программирования или более общих методов выпуклой оптимизации , а также с помощью специальных алгоритмов, таких как алгоритм регрессии наименьшего угла .

Важное различие между регрессией лассо и регуляризацией Тихонова заключается в том, что регрессия лассо заставляет больше элементов из фактически равняться 0, чем в противном случае. Напротив, хотя регуляризация Тихонова заставляет элементы быть малыми, она не заставляет больше из них быть равными 0, чем было бы в противном случае. Таким образом, регуляризация ЛАССО более подходит, чем регуляризация Тихонова, в случаях, когда мы ожидаем, что число ненулевых элементов будет малым, а регуляризация Тихонова более подходит, когда мы ожидаем, что элементы из будут в целом малыми, но не обязательно нулевыми. Какой из этих режимов более уместен, зависит от конкретного набора данных под рукой. w {\displaystyle w} w {\displaystyle w} w {\displaystyle w} w {\displaystyle w}

Помимо описанного выше выбора признаков, LASSO имеет некоторые ограничения. Гребневая регрессия обеспечивает лучшую точность в случае сильно коррелированных переменных. [3] В другом случае, LASSO выбирает большинство переменных. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует. n > d {\displaystyle n>d} n < d {\displaystyle n<d} n {\displaystyle n}

0Пенализация

1 n Y X w 2 2 + λ w j 0 min w R d {\displaystyle {\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda \left\|w_{j}\right\|_{0}\rightarrow \min _{w\in \mathbb {R} ^{d}}} Самый экстремальный способ принудительного обеспечения разреженности — сказать, что фактическая величина коэффициентов не имеет значения; скорее, единственное, что определяет сложность — это количество ненулевых записей. Это соответствует установке в качестве нормы . Эта функция регуляризации, хотя и привлекательна для разреженности, которую она гарантирует, очень сложна для решения, поскольку для этого требуется оптимизация функции, которая даже не является слабо выпуклой . Лассо-регрессия — это минимально возможное ослабление штрафования, которое приводит к слабо выпуклой задаче оптимизации. w {\displaystyle w} w {\displaystyle w} R ( w ) {\displaystyle R(w)} 0 {\displaystyle \ell _{0}} w {\displaystyle w} 0 {\displaystyle \ell _{0}}

Эластичная сетка

Для любого неотрицательного и цель имеет следующий вид: λ 1 {\displaystyle \lambda _{1}} λ 2 {\displaystyle \lambda _{2}} 1 n Y X w 2 2 + λ 1 j = 1 d | w j | + λ 2 j = 1 d | w j | 2 min w R d {\displaystyle {\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}+\lambda _{1}\sum _{j=1}^{d}\left|w_{j}\right|+\lambda _{2}\sum _{j=1}^{d}\left|w_{j}\right|^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}}

Пусть , тогда решение задачи минимизации описывается как: для некоторого . α = λ 1 λ 1 + λ 2 {\displaystyle \alpha ={\frac {\lambda _{1}}{\lambda _{1}+\lambda _{2}}}} 1 n Y X w 2 2 min w R d  s.t.  ( 1 α ) w 1 + α w 2 t {\displaystyle {\frac {1}{n}}\left\|Y-Xw\right\|_{2}^{2}\rightarrow \min _{w\in \mathbb {R} ^{d}}{\text{ s.t. }}(1-\alpha )\left\|w\right\|_{1}+\alpha \left\|w\right\|_{2}\leq t} t {\displaystyle t}

Рассмотрим как функцию штрафа эластичной сети. ( 1 α ) w 1 + α w 2 t {\displaystyle (1-\alpha )\left\|w\right\|_{1}+\alpha \left\|w\right\|_{2}\leq t}

Когда эластичная сеть становится регрессией гребня, тогда как она становится Лассо. Штрафная функция эластичной сети не имеет первой производной в 0 и является строго выпуклой, принимая свойства как регрессии лассо , так и регрессии гребня . α = 1 {\displaystyle \alpha =1} α = 0 {\displaystyle \alpha =0} α ( 0 , 1 ] {\displaystyle \forall \alpha \in (0,1]} α > 0 {\displaystyle \forall \alpha >0}

Одним из основных свойств Elastic Net является то, что она может выбирать группы коррелированных переменных. Разница между весовыми векторами выборок и определяется как: где . [4] x i {\displaystyle x_{i}} x j {\displaystyle x_{j}} | w i ( λ 1 , λ 2 ) w j ( λ 1 , λ 2 ) | i = 1 n | y i | λ 2 2 ( 1 ρ i j ) , {\displaystyle \left|w_{i}^{*}(\lambda _{1},\lambda _{2})-w_{j}^{*}(\lambda _{1},\lambda _{2})\right|\leq {\frac {\sum _{i=1}^{n}|y_{i}|}{\lambda _{2}}}{\sqrt {2(1-\rho _{ij})}},} ρ i j = x i T x j {\displaystyle \rho _{ij}=x_{i}^{\mathsf {T}}x_{j}}

Если и сильно коррелируют ( ), весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ) выборки могут быть взяты. Подводя итог, для сильно коррелированных переменных весовые векторы, как правило, равны с точностью до знака в случае отрицательно коррелированных переменных. x i {\displaystyle x_{i}} x j {\displaystyle x_{j}} ρ i j 1 {\displaystyle \rho _{ij}\to 1} ρ i j 1 {\displaystyle \rho _{ij}\to -1} x j {\displaystyle -x_{j}}

Частичный список методов RLS

Ниже приведен список возможных вариантов функции регуляризации , а также название каждого из них, соответствующее априорное распределение, если оно простое, и способы вычисления решения результирующей задачи оптимизации. R ( ) {\displaystyle R(\cdot )}

ИмяФункция регуляризацииСоответствующий предшествующийМетоды решения
Регуляризация Тихонова w 2 2 {\displaystyle \left\|w\right\|_{2}^{2}} НормальныйЗакрытая форма
Лассо-регрессия w 1 {\displaystyle \left\|w\right\|_{1}} ЛапласПроксимальный градиентный спуск , регрессия с наименьшим углом
0 {\displaystyle \ell _{0}} пенализация w 0 {\displaystyle \left\|w\right\|_{0}} Прямой отбор , обратное исключение , использование априорных данных, таких как пик и слэб
Эластичные сетки β w 1 + ( 1 β ) w 2 2 {\displaystyle \beta \left\|w\right\|_{1}+(1-\beta )\left\|w\right\|_{2}^{2}} Нормальная и Лапласа смесьПроксимальный градиентный спуск
Регуляризация полной вариации j = 1 d 1 | w j + 1 w j | {\displaystyle \sum _{j=1}^{d-1}\left|w_{j+1}-w_{j}\right|} Метод Сплита–Брегмана и другие

Смотрите также

Ссылки

  1. ^ Хуан, Юньфэй.; и др. (2022 ) . «Разреженный вывод и активное обучение стохастических дифференциальных уравнений на основе данных». Scientific Reports . 12 (1): 21691. doi : 10.1038/s41598-022-25638-9 . PMC  9755218. PMID  36522347.
  2. ^ abc Gomes de Pinho Zanco, Daniel; Szczecinski, Leszek; Benesty, Jacob (2025). "Автоматическая регуляризация для линейных фильтров MMSE". Обработка сигналов . 230 .
  3. ^ Тибширани Роберт (1996). «Регрессионное сокращение и выбор через лассо» (PDF) . Журнал Королевского статистического общества, Серия B. 58: стр . 266–288 . doi : 10.1111 /j.2517-6161.1996.tb02080.x.
  4. ^ Хуэй, Цзоу ; Хасти, Тревор (2003). «Регуляризация и выбор переменных с помощью эластичной сети» (PDF) . Журнал Королевского статистического общества, серия B. 67 ( 2): стр. 301–320.
  • http://www.stanford.edu/~hastie/TALKS/enet_talk.pdf Регуляризация и выбор переменных с помощью эластичной сети (презентация)
  • Регуляризованные наименьшие квадраты и опорные векторные машины (презентация)
  • Регуляризованный метод наименьших квадратов (презентация)
Retrieved from "https://en.wikipedia.org/w/index.php?title=Regularized_least_squares&oldid=1271796297#ℓ0_Penalization"