Эта статья должна быть обобщена в Least squares#Regularization и ссылка должна быть предоставлена оттуда сюда с использованием шаблона. ( Ноябрь 2020 г. ) {{Main}} |
Часть серии статей о |
Регрессионный анализ |
---|
Модели |
Оценка |
|
Фон |
Регуляризованный метод наименьших квадратов ( RLS ) — это семейство методов решения задачи наименьших квадратов с использованием регуляризации для дальнейшего ограничения полученного решения.
RLS используется по двум основным причинам. Первая возникает, когда количество переменных в линейной системе превышает количество наблюдений. В таких условиях обычная задача наименьших квадратов некорректна и, следовательно, не может быть подогнана, поскольку связанная с ней задача оптимизации имеет бесконечно много решений. RLS позволяет вводить дополнительные ограничения, которые однозначно определяют решение.
Вторая причина использования RLS возникает, когда обученная модель страдает от плохого обобщения . RLS может использоваться в таких случаях для улучшения обобщаемости модели путем ограничения ее во время обучения. Это ограничение может либо заставить решение быть «разреженным» в некотором роде, либо отражать другие предшествующие знания о проблеме, такие как информация о корреляциях между признаками. Байесовского понимания этого можно достичь, показав, что методы RLS часто эквивалентны априорным данным в решении задачи наименьших квадратов.
Рассмотрим обучающую настройку, заданную вероятностным пространством , . Пусть обозначает обучающий набор пар iid относительно совместного распределения . Пусть будет функцией потерь. Определим как пространство функций, таких что ожидаемый риск: хорошо определен. Основная цель — минимизировать ожидаемый риск: Поскольку задача не может быть решена точно, необходимо указать, как измерить качество решения. Хороший алгоритм обучения должен предоставлять оценщику небольшой риск.
Поскольку совместное распределение обычно неизвестно, берется эмпирический риск. Для регуляризованных наименьших квадратов вводится функция квадратичных потерь:
Однако, если функции из относительно неограниченного пространства, например, набора квадратично-интегрируемых функций на , этот подход может переобучить обучающие данные и привести к плохому обобщению. Таким образом, он должен каким-то образом ограничить или наказать сложность функции . В RLS это достигается путем выбора функций из воспроизводящего ядра Гильбертова пространства (RKHS) и добавления члена регуляризации к целевой функции, пропорционального норме функции в :
RKHS может быть определена симметричной положительно-определенной функцией ядра с воспроизводящим свойством: где . RKHS для ядра состоит из завершения пространства функций, охватываемого : , где все являются действительными числами. Некоторые часто используемые ядра включают линейное ядро, индуцирующее пространство линейных функций: полиномиальное ядро, индуцирующее пространство полиномиальных функций порядка : и гауссово ядро:
Обратите внимание, что для произвольной функции потерь этот подход определяет общий класс алгоритмов, называемых регуляризацией Тихонова. Например, использование потери шарнира приводит к алгоритму опорных векторов , а использование потери, нечувствительной к эпсилону, приводит к регрессии опорных векторов .
Теорема о представителе гарантирует, что решение можно записать в виде: для некоторых .
Проблему минимизации можно выразить следующим образом: где, с некоторой долей злоупотребления обозначениями, запись матрицы ядра (в отличие от функции ядра ) равна .
Для такой функции
Можно получить следующую задачу минимизации:
Поскольку сумма выпуклых функций является выпуклой, решение единственно и его минимум можно найти, установив градиент относительно к : где
Сложность обучения в основном представляет собой стоимость вычисления матрицы ядра плюс стоимость решения линейной системы, что примерно составляет . Вычисление матрицы ядра для линейного или гауссовского ядра составляет . Сложность тестирования составляет .
Прогноз в новой контрольной точке :
Для удобства введена векторная нотация. Пусть будет матрицей, где строки — входные векторы, а вектор — где записи — соответствующие выходы. В терминах векторов матрицу ядра можно записать как . Функцию обучения можно записать как:
Здесь мы определяем . Целевую функцию можно переписать как:
Первый член — это целевая функция из регрессии обычных наименьших квадратов (OLS), соответствующая остаточной сумме квадратов . Второй член — это член регуляризации, отсутствующий в OLS, который штрафует большие значения. Поскольку рассматривается гладкая конечномерная задача, и можно применять стандартные инструменты исчисления. Чтобы минимизировать целевую функцию, градиент вычисляется относительно и устанавливается равным нулю:
Это решение очень похоже на решение стандартной линейной регрессии с дополнительным членом . Если предположения регрессии OLS верны, решение , с , является несмещенной оценкой и является линейной несмещенной оценкой с минимальной дисперсией, согласно теореме Гаусса–Маркова . Таким образом, член приводит к смещенному решению; однако, он также имеет тенденцию уменьшать дисперсию. Это легко увидеть, поскольку ковариационная матрица -значений пропорциональна , и, следовательно, большие значения приведут к меньшей дисперсии. Следовательно, манипулирование соответствует компромиссу смещения и дисперсии. Для задач с оценками с высокой дисперсией, таких как случаи с относительно небольшими или коррелированными регрессорами, оптимальная точность прогнозирования может быть получена с использованием ненулевого , и, таким образом, введением некоторого смещения для уменьшения дисперсии. Кроме того, в машинном обучении нередко встречаются случаи, когда , в этом случае имеет место дефицит ранга , и для вычисления необходим ненулевой .
Параметр управляет обратимостью матрицы . Для решения указанной выше линейной системы можно использовать несколько методов, разложение Холецкого , вероятно, является методом выбора, поскольку матрица симметрична и положительно определена . Сложность этого метода заключается в обучении и тестировании. Стоимость по сути совпадает с вычислением , тогда как обратное вычисление (или, скорее , решение линейной системы) составляет примерно .
В этом разделе будет показано, как расширить RLS до любого вида воспроизводящего ядра K. Вместо линейного ядра рассматривается карта признаков для некоторого гильбертова пространства , называемого пространством признаков. В этом случае ядро определяется как: Матрица теперь заменяется новой матрицей данных , где , или -й компонент . Это означает, что для заданного обучающего набора . Таким образом, целевая функция может быть записана как
Этот подход известен как трюк с ядром . Этот метод может значительно упростить вычислительные операции. Если имеет большую размерность, вычисления могут быть довольно интенсивными. Если известна явная форма функции ядра, нам просто нужно вычислить и сохранить матрицу ядра .
На самом деле, гильбертово пространство не обязательно должно быть изоморфно , и может быть бесконечномерным. Это следует из теоремы Мерсера , которая гласит, что непрерывная, симметричная, положительно определенная функция ядра может быть выражена как , где образуют ортонормированный базис для , и . Если карты признаков определены с компонентами , то следует, что . Это показывает, что любое ядро может быть связано с картой признаков, и что RLS обычно состоит из линейного RLS, выполненного в некотором возможно более многомерном пространстве признаков. В то время как теорема Мерсера показывает, как одна карта признаков может быть связана с ядром, на самом деле несколько карт признаков могут быть связаны с данным воспроизводящим ядром. Например, карта удовлетворяет свойству для произвольного воспроизводящего ядра.
Наименьшие квадраты можно рассматривать как максимизацию правдоподобия при предположении нормально распределенных остатков. Это связано с тем, что показатель гауссовского распределения является квадратичным в данных, как и целевая функция наименьших квадратов. В этой структуре термины регуляризации RLS можно понимать как кодирование априорных значений на . [1] Например, регуляризация Тихонова соответствует нормально распределенному априорному значению на , центрированному на 0. Чтобы увидеть это, сначала отметим, что цель OLS пропорциональна логарифмической функции правдоподобия, когда каждая выборка нормально распределена вокруг . Затем заметим, что нормальный априор на , центрированный на 0, имеет логарифмическую вероятность вида , где и являются константами, которые зависят от дисперсии априорного значения и не зависят от . Таким образом, минимизация логарифма правдоподобия, умноженного на априорное значение, эквивалентна минимизации суммы функции потерь OLS и члена регуляризации гребневой регрессии.
Это дает более интуитивное толкование того, почему регуляризация Тихонова приводит к единственному решению задачи наименьших квадратов: существует бесконечно много векторов, удовлетворяющих ограничениям, полученным из данных, но поскольку мы подходим к задаче с априорным убеждением, которое нормально распределено вокруг начала координат, мы в конечном итоге выберем решение с учетом этого ограничения.
Другие методы регуляризации соответствуют различным априорам. Более подробную информацию см. в списке ниже.
Одним из особенно распространенных вариантов для штрафной функции является квадрат нормы , т. е., и решение находится как Наиболее распространенные названия для этого — регуляризация Тихонова и гребневая регрессия . Она допускает решение в замкнутой форме для : Название гребневая регрессия намекает на тот факт, что этот термин добавляет положительные элементы вдоль диагонального «гребня» матрицы ковариации выборки .
Когда , т. е. в случае обычных наименьших квадратов , условие, которое приводит к тому, что матрица ковариации выборки не имеет полного ранга и поэтому не может быть инвертирована для получения единственного решения. Вот почему может быть бесконечное множество решений задачи обычных наименьших квадратов , когда . Однако, когда , т. е. когда используется гребневая регрессия, добавление к матрице ковариации выборки гарантирует, что все ее собственные значения будут строго больше 0. Другими словами, она становится обратимой, и тогда решение становится единственным.
По сравнению с обычными наименьшими квадратами, гребневая регрессия не является несмещенной. Она принимает смещение для уменьшения дисперсии и среднеквадратической ошибки .
Если мы хотим найти различные значения коэффициента регуляризации (который мы обозначим ), мы можем использовать разложение по собственным значениям ковариационной матрицы , где столбцы являются собственными векторами , а - ее собственными значениями.
Решение тогда дается формулой :
Используя приведенные выше результаты, алгоритм нахождения оценки максимального правдоподобия можно определить следующим образом: [2]
Этот алгоритм для автоматической (в отличие от эвристической) регуляризации получается как решение с фиксированной точкой при оценке максимального правдоподобия параметров. [2] Хотя гарантии сходимости не предоставляются, примеры показывают, что удовлетворительное решение может быть получено после пары итераций.
Разложение по собственным значениям упрощает вывод алгоритма, а также упрощает вычисления:
Альтернативный алгоритм с фиксированной точкой, известный как алгоритм Гулла-Маккея [2], обычно имеет более быструю сходимость, но может использоваться только если . Таким образом, хотя его можно использовать без проблем для осторожность рекомендуется для .
Метод наименьшего абсолютного выбора и сжатия (LASSO) является еще одним популярным выбором. В регрессии лассо функция штрафа лассо является нормой , т.е.
Обратите внимание, что функция штрафа лассо выпукла, но не строго выпукла. В отличие от регуляризации Тихонова , эта схема не имеет удобного решения в замкнутой форме: вместо этого решение обычно находится с помощью квадратичного программирования или более общих методов выпуклой оптимизации , а также с помощью специальных алгоритмов, таких как алгоритм регрессии наименьшего угла .
Важное различие между регрессией лассо и регуляризацией Тихонова заключается в том, что регрессия лассо заставляет больше элементов из фактически равняться 0, чем в противном случае. Напротив, хотя регуляризация Тихонова заставляет элементы быть малыми, она не заставляет больше из них быть равными 0, чем было бы в противном случае. Таким образом, регуляризация ЛАССО более подходит, чем регуляризация Тихонова, в случаях, когда мы ожидаем, что число ненулевых элементов будет малым, а регуляризация Тихонова более подходит, когда мы ожидаем, что элементы из будут в целом малыми, но не обязательно нулевыми. Какой из этих режимов более уместен, зависит от конкретного набора данных под рукой.
Помимо описанного выше выбора признаков, LASSO имеет некоторые ограничения. Гребневая регрессия обеспечивает лучшую точность в случае сильно коррелированных переменных. [3] В другом случае, LASSO выбирает большинство переменных. Более того, LASSO имеет тенденцию выбирать некоторые произвольные переменные из группы сильно коррелированных выборок, поэтому эффект группировки отсутствует.
Самый экстремальный способ принудительного обеспечения разреженности — сказать, что фактическая величина коэффициентов не имеет значения; скорее, единственное, что определяет сложность — это количество ненулевых записей. Это соответствует установке в качестве нормы . Эта функция регуляризации, хотя и привлекательна для разреженности, которую она гарантирует, очень сложна для решения, поскольку для этого требуется оптимизация функции, которая даже не является слабо выпуклой . Лассо-регрессия — это минимально возможное ослабление штрафования, которое приводит к слабо выпуклой задаче оптимизации.
Для любого неотрицательного и цель имеет следующий вид:
Пусть , тогда решение задачи минимизации описывается как: для некоторого .
Рассмотрим как функцию штрафа эластичной сети.
Когда эластичная сеть становится регрессией гребня, тогда как она становится Лассо. Штрафная функция эластичной сети не имеет первой производной в 0 и является строго выпуклой, принимая свойства как регрессии лассо , так и регрессии гребня .
Одним из основных свойств Elastic Net является то, что она может выбирать группы коррелированных переменных. Разница между весовыми векторами выборок и определяется как: где . [4]
Если и сильно коррелируют ( ), весовые векторы очень близки. В случае отрицательно коррелированных выборок ( ) выборки могут быть взяты. Подводя итог, для сильно коррелированных переменных весовые векторы, как правило, равны с точностью до знака в случае отрицательно коррелированных переменных.
Ниже приведен список возможных вариантов функции регуляризации , а также название каждого из них, соответствующее априорное распределение, если оно простое, и способы вычисления решения результирующей задачи оптимизации.
Имя | Функция регуляризации | Соответствующий предшествующий | Методы решения |
---|---|---|---|
Регуляризация Тихонова | Нормальный | Закрытая форма | |
Лассо-регрессия | Лаплас | Проксимальный градиентный спуск , регрессия с наименьшим углом | |
пенализация | – | Прямой отбор , обратное исключение , использование априорных данных, таких как пик и слэб | |
Эластичные сетки | Нормальная и Лапласа смесь | Проксимальный градиентный спуск | |
Регуляризация полной вариации | – | Метод Сплита–Брегмана и другие |