Всего наименьших квадратов

Статистический метод
Двумерный (регрессия Деминга) случай общих наименьших квадратов. Красные линии показывают ошибку как по x, так и по y . Это отличается от традиционного метода наименьших квадратов, который измеряет ошибку параллельно оси y . Показанный случай с отклонениями, измеренными перпендикулярно, возникает, когда ошибки по x и y имеют равные дисперсии.

В прикладной статистике метод наименьших квадратов является типом регрессии ошибок в переменных , методом наименьших квадратов для моделирования данных, в котором учитываются ошибки наблюдений как зависимых, так и независимых переменных. Это обобщение регрессии Деминга , а также ортогональной регрессии , и может применяться как к линейным, так и к нелинейным моделям.

Общая аппроксимация данных методом наименьших квадратов в общем случае эквивалентна наилучшей, в норме Фробениуса , аппроксимации матрицы данных низкого ранга . [1]

Линейная модель

Фон

В методе наименьших квадратов моделирования данных целевая функция , которую необходимо минимизировать, S , представляет собой квадратичную форму :

С = г Т Вт г , {\displaystyle S=\mathbf {r^{T}Wr} ,}

где r — вектор остатков , а W — весовая матрица. В линейном методе наименьших квадратов модель содержит уравнения, которые линейны по параметрам, появляющимся в векторе параметров , поэтому остатки задаются как β {\displaystyle {\boldsymbol {\beta }}}

г = у Х β . {\displaystyle \mathbf {r=yX{\boldsymbol {\beta }}} .}

Имеется m наблюдений в y и n параметров в β с m > n . X - это матрица m × n , элементы которой являются либо константами, либо функциями независимых переменных x . Весовая матрица W в идеале является обратной матрицей дисперсии-ковариации наблюдений y . Предполагается, что независимые переменные не содержат ошибок. Оценки параметров находятся путем установки градиентных уравнений в ноль, что приводит к нормальным уравнениям [примечание 1] М у {\displaystyle \mathbf {М} _{y}}

Х Т Вт Х β = Х Т Вт у . {\displaystyle \mathbf {X^{T}WX{\boldsymbol {\beta }}=X^{T}Wy} .}

Допуская ошибки наблюдения во всех переменных

Теперь предположим, что оба x и y наблюдаются с учетом ошибки, с матрицами дисперсии-ковариации и соответственно. В этом случае целевая функция может быть записана как М х {\displaystyle \mathbf {M} _{x}} М у {\displaystyle \mathbf {М} _{y}}

С = г х Т М х 1 г х + г у Т М у 1 г у , {\displaystyle S=\mathbf {r_{x}^{T}M_{x}^{-1}r_{x}+r_{y}^{T}M_{y}^{-1}r_{y}} ,}

где и являются остатками по x и y соответственно. Очевидно [ необходимо дополнительное объяснение ] эти остатки не могут быть независимыми друг от друга, но они должны быть ограничены каким-то отношением. Записывая модельную функцию как , ограничения выражаются m уравнениями условий. [2] г х {\displaystyle \mathbf {r} _{x}} r y {\displaystyle \mathbf {r} _{y}} f ( r x , r y , β ) {\displaystyle \mathbf {f(r_{x},r_{y},{\boldsymbol {\beta }})} }

F = Δ y f r x r x f r y r y X Δ β = 0 . {\displaystyle \mathbf {F=\Delta y-{\frac {\partial f}{\partial r_{x}}}r_{x}-{\frac {\partial f}{\partial r_{y}}}r_{y}-X\Delta {\boldsymbol {\beta }}=0} .}

Таким образом, задача состоит в минимизации целевой функции при ограничениях m . Она решается с помощью множителей Лагранжа . После некоторых алгебраических манипуляций [3] получается результат.

X T M 1 X Δ β = X T M 1 Δ y , {\displaystyle \mathbf {X^{T}M^{-1}X\Delta {\boldsymbol {\beta }}=X^{T}M^{-1}\Delta y} ,}

или альтернативно, где M — матрица дисперсии-ковариации относительно как независимых, так и зависимых переменных. X T M 1 X β = X T M 1 y , {\displaystyle \mathbf {X^{T}M^{-1}X{\boldsymbol {\beta }}=X^{T}M^{-1}y} ,}

M = K x M x K x T + K y M y K y T ;   K x = f r x ,   K y = f r y . {\displaystyle \mathbf {M=K_{x}M_{x}K_{x}^{T}+K_{y}M_{y}K_{y}^{T};\ K_{x}=-{\frac {\partial f}{\partial r_{x}}},\ K_{y}=-{\frac {\partial f}{\partial r_{y}}}} .}

Пример

Когда ошибки данных некоррелированы, все матрицы M и W диагональны. Тогда возьмем пример подгонки прямой линией.

f ( x i , β ) = α + β x i {\displaystyle f(x_{i},\beta )=\alpha +\beta x_{i}}

в этом случае

M i i = σ y , i 2 + β 2 σ x , i 2 {\displaystyle M_{ii}=\sigma _{y,i}^{2}+\beta ^{2}\sigma _{x,i}^{2}}

показывая, как дисперсия в точке i определяется дисперсиями как независимых, так и зависимых переменных и моделью, используемой для подгонки данных. Выражение можно обобщить, отметив, что параметром является наклон линии. β {\displaystyle \beta }

M i i = σ y , i 2 + ( d y d x ) i 2 σ x , i 2 {\displaystyle M_{ii}=\sigma _{y,i}^{2}+\left({\frac {dy}{dx}}\right)_{i}^{2}\sigma _{x,i}^{2}}

Выражение этого типа используется при подгонке данных титрования pH , где небольшая ошибка по x приводит к большой ошибке по y при большом наклоне.

Алгебраическая точка зрения

Как было показано в 1980 году Голубом и Ван Лоаном, проблема TLS в общем случае не имеет решения. [4] Далее рассматривается простой случай, когда существует единственное решение без каких-либо конкретных предположений.

Вычисление TLS с использованием сингулярного разложения (SVD) описано в стандартных текстах. [5] Мы можем решить уравнение

X B Y {\displaystyle XB\approx Y}

для B , где X - это m на n , а Y - это m на k . [примечание 2]

То есть, мы стремимся найти B , который минимизирует матрицы ошибок E и F для X и Y соответственно. То есть,

a r g m i n B , E , F [ E F ] F , ( X + E ) B = Y + F {\displaystyle \mathrm {argmin} _{B,E,F}\|[E\;F]\|_{F},\qquad (X+E)B=Y+F}

где — расширенная матрица с E и F, стоящими рядом, а — норма Фробениуса , квадратный корень из суммы квадратов всех элементов матрицы и, что эквивалентно, квадратный корень из суммы квадратов длин строк или столбцов матрицы. [ E F ] {\displaystyle [E\;F]} F {\displaystyle \|\cdot \|_{F}}

Это можно переписать как

[ ( X + E ) ( Y + F ) ] [ B I k ] = 0. {\displaystyle [(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0.}

где — единичная матрица. Цель состоит в том, чтобы найти , что уменьшает ранг на k . Определим как сингулярное значение разложения расширенной матрицы . I k {\displaystyle I_{k}} k × k {\displaystyle k\times k} [ E F ] {\displaystyle [E\;F]} [ X Y ] {\displaystyle [X\;Y]} [ U ] [ Σ ] [ V ] {\displaystyle [U][\Sigma ][V]^{*}} [ X Y ] {\displaystyle [X\;Y]}

[ X Y ] = [ U X U Y ] [ Σ X 0 0 Σ Y ] [ V X X V X Y V Y X V Y Y ] = [ U X U Y ] [ Σ X 0 0 Σ Y ] [ V X X V Y X V X Y V Y Y ] {\displaystyle [X\;Y]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}^{*}&V_{YX}^{*}\\V_{XY}^{*}&V_{YY}^{*}\end{bmatrix}}}

где V разбито на блоки , соответствующие форме X и Y.

Используя теорему Эккарта–Янга , приближение, минимизирующее норму ошибки, таково, что матрицы и остаются неизменными, а наименьшие сингулярные значения заменяются нулями. То есть, мы хотим U {\displaystyle U} V {\displaystyle V} k {\displaystyle k}

[ ( X + E ) ( Y + F ) ] = [ U X U Y ] [ Σ X 0 0 0 k × k ] [ V X X V X Y V Y X V Y Y ] {\displaystyle [(X+E)\;(Y+F)]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&0_{k\times k}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}}

поэтому по линейности,

[ E F ] = [ U X U Y ] [ 0 n × n 0 0 Σ Y ] [ V X X V X Y V Y X V Y Y ] . {\displaystyle [E\;F]=-[U_{X}\;U_{Y}]{\begin{bmatrix}0_{n\times n}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}.}

Затем мы можем удалить блоки из матриц U и Σ, упростив до

[ E F ] = U Y Σ Y [ V X Y V Y Y ] = [ X Y ] [ V X Y V Y Y ] [ V X Y V Y Y ] . {\displaystyle [E\;F]=-U_{Y}\Sigma _{Y}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}=-[X\;Y]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}.}

Это обеспечивает E и F, так что

[ ( X + E ) ( Y + F ) ] [ V X Y V Y Y ] = 0. {\displaystyle [(X+E)\;(Y+F)]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}=0.}

Теперь, если является невырожденной, что не всегда так (обратите внимание, что поведение TLS, когда является вырожденной, пока не очень хорошо изучено), мы можем умножить обе стороны справа на , чтобы привести нижний блок правой матрицы к отрицательному тождеству, что дает [6] V Y Y {\displaystyle V_{YY}} V Y Y {\displaystyle V_{YY}} V Y Y 1 {\displaystyle -V_{YY}^{-1}}

[ ( X + E ) ( Y + F ) ] [ V X Y V Y Y 1 V Y Y V Y Y 1 ] = [ ( X + E ) ( Y + F ) ] [ B I k ] = 0 , {\displaystyle [(X+E)\;(Y+F)]{\begin{bmatrix}-V_{XY}V_{YY}^{-1}\\-V_{YY}V_{YY}^{-1}\end{bmatrix}}=[(X+E)\;(Y+F)]{\begin{bmatrix}B\\-I_{k}\end{bmatrix}}=0,}

и так

B = V X Y V Y Y 1 . {\displaystyle B=-V_{XY}V_{YY}^{-1}.}

Простейшая реализация этого на GNU Octave выглядит так:

функция  B = tls ( X, Y )  [ m n ] = размер ( X ); % n - ширина X (X - это m на n) Z = [ X Y ]; % Z - это X, дополненный Y. [ U S V ] = svd ( Z , 0 ); % найти SVD Z. VXY = V ( 1 : n , 1 + n : end ); % Берем блок V, состоящий из первых n строк и столбцов с n+1 по последний VYY = V ( 1 + n : end , 1 + n : end ); % Берем нижний правый блок V. B = - VXY / VYY ;                          конец

Описанный выше способ решения задачи, требующий, чтобы матрица была невырожденной, можно немного расширить с помощью так называемого классического алгоритма TLS . [7] V Y Y {\displaystyle V_{YY}}

Вычисление

Стандартная реализация классического алгоритма TLS доступна через Netlib, см. также. [8] [9] Все современные реализации, основанные, например, на решении последовательности обычных задач наименьших квадратов, аппроксимируют матрицу (обозначаемую в литературе), как это было введено Ван Хаффелем и Вандевалле. Стоит отметить, что это , однако, не является решением TLS во многих случаях. [10] [11] B {\displaystyle B} X {\displaystyle X} B {\displaystyle B}

Нелинейная модель

Для нелинейных систем аналогичные рассуждения показывают, что нормальные уравнения для итерационного цикла можно записать в виде

J T M 1 J Δ β = J T M 1 Δ y , {\displaystyle \mathbf {J^{T}M^{-1}J\Delta {\boldsymbol {\beta }}=J^{T}M^{-1}\Delta y} ,}

где — матрица Якоби . J {\displaystyle \mathbf {J} }

Геометрическая интерпретация

Когда независимая переменная не содержит ошибок, остаток представляет собой «вертикальное» расстояние между наблюдаемой точкой данных и подобранной кривой (или поверхностью). В методе наименьших квадратов остаток представляет собой расстояние между точкой данных и подобранной кривой, измеренное вдоль некоторого направления. Фактически, если обе переменные измеряются в одних и тех же единицах и ошибки по обеим переменным одинаковы, то остаток представляет собой кратчайшее расстояние между точкой данных и подобранной кривой , то есть вектор остатка перпендикулярен касательной к кривой. По этой причине этот тип регрессии иногда называют двумерной евклидовой регрессией (Stein, 1983) [12] или ортогональной регрессией .

Масштабно-инвариантные методы

Серьезная трудность возникает, если переменные не измеряются в одних и тех же единицах. Сначала рассмотрим измерение расстояния между точкой данных и линией: каковы единицы измерения для этого расстояния? Если мы рассмотрим измерение расстояния на основе теоремы Пифагора, то ясно, что мы будем складывать величины, измеренные в разных единицах, что бессмысленно. Во-вторых, если мы изменим масштаб одной из переменных, например, измерим в граммах, а не в килограммах, то мы получим другие результаты (другую линию). Чтобы избежать этих проблем, иногда предлагается преобразовать их в безразмерные переменные — это можно назвать нормализацией или стандартизацией. Однако существуют различные способы сделать это, и они приводят к подобранным моделям, которые не эквивалентны друг другу. Один из подходов заключается в нормализации по известной (или предполагаемой) точности измерения, тем самым минимизируя расстояние Махаланобиса от точек до линии, обеспечивая решение с максимальным правдоподобием ; [ требуется ссылка ] неизвестные точности можно найти с помощью дисперсионного анализа .

Короче говоря, метод наименьших квадратов не обладает свойством инвариантности к единицам, т. е. он не инвариантен к масштабу . Для осмысленной модели нам необходимо, чтобы это свойство сохранялось. Путь вперед — понять, что остатки (расстояния), измеренные в разных единицах, могут быть объединены, если вместо сложения использовать умножение. Рассмотрим подгонку линии: для каждой точки данных произведение вертикальных и горизонтальных остатков равно удвоенной площади треугольника, образованного линиями остатков и подогнанной линией. Мы выбираем линию, которая минимизирует сумму этих площадей. Нобелевский лауреат Пол Самуэльсон доказал в 1942 году, что в двух измерениях это единственная линия, выражаемая исключительно через отношения стандартных отклонений и коэффициент корреляции, которая (1) соответствует правильному уравнению, когда наблюдения попадают на прямую линию, (2) демонстрирует инвариантность к масштабу и (3) демонстрирует инвариантность при замене переменных. [13] Это решение было заново открыто в различных дисциплинах и известно под разными названиями: стандартизированная большая ось (Ricker 1975, Warton et al., 2006), [14] [15] редуцированная большая ось , геометрическое среднее функциональное отношение (Draper and Smith, 1998), [16] регрессия наименьших продуктов , диагональная регрессия , линия органической корреляции и линия наименьших площадей (Tofallis, 2002). [17]

Tofallis (2015, 2023) [18] [19] расширил этот подход для работы с несколькими переменными. Расчеты проще, чем для наименьших квадратов, поскольку они требуют только знания ковариаций и могут быть вычислены с использованием стандартных функций электронных таблиц.

Смотрите также

Примечания

  1. ^ Альтернативная форма: , где — сдвиг параметра от некоторой начальной оценки, а — разница между y и значением, рассчитанным с использованием начального значения X T W X Δ β = X T W Δ y {\displaystyle \mathbf {X^{T}WX{\boldsymbol {\Delta }}{\boldsymbol {\beta }}=X^{T}W{\boldsymbol {\Delta }}y} } Δ β {\displaystyle {\boldsymbol {\Delta }}{\boldsymbol {\beta }}} β {\displaystyle {\boldsymbol {\beta }}} Δ y {\displaystyle {\boldsymbol {\Delta }}\mathbf {y} } β {\displaystyle {\boldsymbol {\beta }}}
  2. ^ Обозначение XB  ≈  Y используется здесь для отражения обозначения, использованного в предыдущей части статьи. В вычислительной литературе проблема чаще представляется как AX  ≈  B , т.е. с буквой X, используемой для матрицы n -на -k неизвестных коэффициентов регрессии.

Ссылки

  1. ^ И. Марковский и С. Ван Хаффель , Обзор методов наименьших квадратов. Обработка сигналов, т. 87, стр. 2283–2302, 2007. препринт
  2. ^ У. Э. Деминг, Статистическая корректировка данных, Wiley, 1943
  3. ^ Ганс, Питер (1992). Подгонка данных в химических науках. Wiley. ISBN 9780471934127. Получено 4 декабря 2012 г.
  4. ^ GH Golub и CF Van Loan, Анализ общей задачи наименьших квадратов. Numer. Anal., 17, 1980, стр. 883–893.
  5. ^ Голуб, Джин Х.; Ван Лоан, Чарльз Ф. (1996). Матричные вычисления (3-е изд.). Издательство Университета Джонса Хопкинса .стр. 596.
  6. ^ Бьёрк, Аке (1996) Численные методы решения задач наименьших квадратов , Общество промышленной и прикладной математики. ISBN 978-0898713602 [ нужна страница ] 
  7. ^ S. Van Huffel и J. Vandewalle (1991) Задачи о наименьших квадратах: вычислительные аспекты и анализ . SIAM Publications, Филадельфия, Пенсильвания.
  8. ^ S. Van Huffel , Документированные программы Fortran 77 расширенного классического алгоритма наименьших квадратов, алгоритма частичного сингулярного разложения и алгоритма частичного наименьших квадратов, Внутренний отчет ESAT-KUL 88/1, Лаборатория ESAT, Кафедра электротехники, Католический университет Лёвена, 1988.
  9. ^ С. Ван Хаффель , Расширенный классический алгоритм наименьших квадратов, J. Comput. Appl. Math., 25, стр. 111–119, 1989.
  10. ^ М. Плешингер, Проблема наименьших квадратов и сокращение данных в AX ≈ B. Докторская диссертация, Технический университет Либерец и Институт компьютерных наук, АН ЧР, Прага, 2008. Кандидатская диссертация
  11. ^ И. Гнетынкова, М. Плешингер, Д. М. Сима, З. Стракош и С. Ван Хаффель , Общая задача наименьших квадратов в AX ≈ B. Новая классификация со связью с классическими работами. SIMAX т. 32 выпуск 3 (2011), стр. 748–770.
  12. ^ Штейн, Яаков Й. «Двумерная евклидова регрессия» (PDF) . {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  13. ^ Самуэльсон, Пол А. (1942). «Заметка об альтернативных регрессиях». Econometrica . 10 (1): 80–83. doi :10.2307/1907024. JSTOR  1907024.
  14. ^ Рикер, У. Э. (1975). «Заметка относительно комментариев профессора Жоликёра». Журнал Совета по исследованию рыболовства Канады . 32 (8): 1494–1498. doi :10.1139/f75-172.
  15. ^ Уортон, Дэвид И.; Райт, Ян Дж.; Фальстер, Дэниел С.; Уэстоби, Марк (2006). «Методы подгонки двумерных линий для аллометрии». Biological Reviews . 81 (2): 259–291. CiteSeerX 10.1.1.461.9154 . doi :10.1017/S1464793106007007. PMID  16573844. S2CID  16462731. 
  16. ^ Дрейпер, Н. Р. и Смит, Х. Прикладной регрессионный анализ , 3-е издание, стр. 92–96. 1998
  17. ^ Tofallis, Chris (2002). "Подгонка модели для нескольких переменных путем минимизации геометрического среднего отклонения". В Van Huffel, Sabine ; Lemmerling, P. (ред.). Моделирование методом наименьших квадратов и ошибок в переменных: анализ, алгоритмы и приложения . Дордрехт: Kluwer Academic Publ. ISBN 978-1402004766. СГРН  1077322.
  18. ^ Тофаллис, Крис (2015). «Подгонка уравнений к данным с идеальной корреляционной связью». SSRN  2707593.
  19. ^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957

Другие

  • I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš и S. Van Huffel , The total least squares problem in AX ≈ B. Новая классификация с отношением к классическим работам. SIMAX vol. 32 issue 3 (2011), pp. 748–770. Доступно в виде препринта.
  • M. Плешингер, Проблема наименьших квадратов и сокращение данных в AX ≈ B. Докторская диссертация, Технический университет Либерец и Институт компьютерных наук, АН ЧР, Прага, 2008. Кандидатская диссертация
  • CC Paige, Z. Strakoš, Основные проблемы в линейных алгебраических системах. SIAM J. Matrix Anal. Appl. 27, 2006, стр. 861–875. doi :10.1137/040616991
  • S. Van Huffel и P. Lemmerling, Total Least Squares and Errors-in-Variables Modeling: Analysis, Algorithms and Applications . Дордрехт, Нидерланды: Kluwer Academic Publishers, 2002.
  • S. Jo и SW Kim, Последовательная нормализованная фильтрация по методу наименьших квадратов с зашумленной матрицей данных. IEEE Trans. Signal Process., т. 53, № 6, стр. 2112–2123, июнь 2005 г.
  • RD DeGroat и EM Dowling, Задача наименьших квадратов данных и выравнивание канала. IEEE Trans. Signal Process., т. 41, № 1, стр. 407–411, январь 1993 г.
  • S. Van Huffel и J. Vandewalle, The Total Least Squares Problems: Computational Aspects and Analysis. SIAM Publications, Филадельфия, Пенсильвания, 1991. doi : 10.1137/1.9781611971002
  • T. Abatzoglou и J. Mendel, Ограниченные общие наименьшие квадраты , в Трудах Международной конференции IEEE по акустике, речи и обработке сигналов (ICASSP'87), апрель 1987 г., т. 12, стр. 1485–1488.
  • П. де Гроен. Введение в метод наименьших квадратов , в Nieuw Archief voor Wiskunde, серия Vierde, 14 декабря 1996 г., стр. 237–253 arxiv.org.
  • GH Golub и CF Van Loan, Анализ проблемы наименьших квадратов. SIAM J. on Numer. Anal., 17, 1980, стр. 883–893. doi :10.1137/0717073
  • Перпендикулярная регрессия линии в MathPages
  • AR Amiri-Simkooei и S. Jazaeri Взвешенные общие наименьшие квадраты, сформулированные с помощью стандартной теории наименьших квадратов , в Journal of Geodetic Science, 2 (2): 113–124, 2012 [1].
Retrieved from "https://en.wikipedia.org/w/index.php?title=Total_least_squares&oldid=1253930267#Scale_invariant_methods"