Общая аппроксимация данных методом наименьших квадратов в общем случае эквивалентна наилучшей, в норме Фробениуса , аппроксимации матрицы данных низкого ранга . [1]
где r — вектор остатков , а W — весовая матрица. В линейном методе наименьших квадратов модель содержит уравнения, которые линейны по параметрам, появляющимся в векторе параметров , поэтому остатки задаются как
Имеется m наблюдений в y и n параметров в β с m > n . X - это матрица m × n , элементы которой являются либо константами, либо функциями независимых переменных x . Весовая матрица W в идеале является обратной матрицей дисперсии-ковариации наблюдений y . Предполагается, что независимые переменные не содержат ошибок. Оценки параметров находятся путем установки градиентных уравнений в ноль, что приводит к нормальным уравнениям [примечание 1]
Допуская ошибки наблюдения во всех переменных
Теперь предположим, что оба x и y наблюдаются с учетом ошибки, с матрицами дисперсии-ковариации и соответственно. В этом случае целевая функция может быть записана как
где и являются остатками по x и y соответственно. Очевидно [ необходимо дополнительное объяснение ] эти остатки не могут быть независимыми друг от друга, но они должны быть ограничены каким-то отношением. Записывая модельную функцию как , ограничения выражаются m уравнениями условий. [2]
Таким образом, задача состоит в минимизации целевой функции при ограничениях m . Она решается с помощью множителей Лагранжа . После некоторых алгебраических манипуляций [3] получается результат.
или альтернативно,
где M — матрица дисперсии-ковариации относительно как независимых, так и зависимых переменных.
Пример
Когда ошибки данных некоррелированы, все матрицы M и W диагональны. Тогда возьмем пример подгонки прямой линией.
в этом случае
показывая, как дисперсия в точке i определяется дисперсиями как независимых, так и зависимых переменных и моделью, используемой для подгонки данных. Выражение можно обобщить, отметив, что параметром является наклон линии.
Выражение этого типа используется при подгонке данных титрования pH , где небольшая ошибка по x приводит к большой ошибке по y при большом наклоне.
Алгебраическая точка зрения
Как было показано в 1980 году Голубом и Ван Лоаном, проблема TLS в общем случае не имеет решения. [4] Далее рассматривается простой случай, когда существует единственное решение без каких-либо конкретных предположений.
Вычисление TLS с использованием сингулярного разложения (SVD) описано в стандартных текстах. [5] Мы можем решить уравнение
для B , где X - это m на n , а Y - это m на k . [примечание 2]
То есть, мы стремимся найти B , который минимизирует матрицы ошибок E и F для X и Y соответственно. То есть,
где — расширенная матрица с E и F, стоящими рядом, а — норма Фробениуса , квадратный корень из суммы квадратов всех элементов матрицы и, что эквивалентно, квадратный корень из суммы квадратов длин строк или столбцов матрицы.
Это можно переписать как
где — единичная матрица. Цель состоит в том, чтобы найти , что уменьшает ранг на k . Определим как сингулярное значение разложения расширенной матрицы .
где V разбито на блоки , соответствующие форме X и Y.
Используя теорему Эккарта–Янга , приближение, минимизирующее норму ошибки, таково, что матрицы и остаются неизменными, а наименьшие сингулярные значения заменяются нулями. То есть, мы хотим
поэтому по линейности,
Затем мы можем удалить блоки из матриц U и Σ, упростив до
Это обеспечивает E и F, так что
Теперь, если является невырожденной, что не всегда так (обратите внимание, что поведение TLS, когда является вырожденной, пока не очень хорошо изучено), мы можем умножить обе стороны справа на , чтобы привести нижний блок правой матрицы к отрицательному тождеству, что дает [6]
функция B = tls ( X, Y )[ m n ] = размер ( X ); % n - ширина X (X - это m на n) Z = [ X Y ]; % Z - это X, дополненный Y. [ U S V ] = svd ( Z , 0 ); % найти SVD Z. VXY = V ( 1 : n , 1 + n : end ); % Берем блок V, состоящий из первых n строк и столбцов с n+1 по последний VYY = V ( 1 + n : end , 1 + n : end ); % Берем нижний правый блок V. B = - VXY / VYY ;конец
Описанный выше способ решения задачи, требующий, чтобы матрица была невырожденной, можно немного расширить с помощью так называемого классического алгоритма TLS . [7]
Вычисление
Стандартная реализация классического алгоритма TLS доступна через Netlib, см. также. [8] [9] Все современные реализации, основанные, например, на решении последовательности обычных задач наименьших квадратов, аппроксимируют матрицу (обозначаемую в литературе), как это было введено Ван Хаффелем и Вандевалле. Стоит отметить, что это , однако, не является решением TLS во многих случаях. [10] [11]
Нелинейная модель
Для нелинейных систем аналогичные рассуждения показывают, что нормальные уравнения для итерационного цикла можно записать в виде
Когда независимая переменная не содержит ошибок, остаток представляет собой «вертикальное» расстояние между наблюдаемой точкой данных и подобранной кривой (или поверхностью). В методе наименьших квадратов остаток представляет собой расстояние между точкой данных и подобранной кривой, измеренное вдоль некоторого направления. Фактически, если обе переменные измеряются в одних и тех же единицах и ошибки по обеим переменным одинаковы, то остаток представляет собой кратчайшее расстояние между точкой данных и подобранной кривой , то есть вектор остатка перпендикулярен касательной к кривой. По этой причине этот тип регрессии иногда называют двумерной евклидовой регрессией (Stein, 1983) [12] или ортогональной регрессией .
Масштабно-инвариантные методы
Серьезная трудность возникает, если переменные не измеряются в одних и тех же единицах. Сначала рассмотрим измерение расстояния между точкой данных и линией: каковы единицы измерения для этого расстояния? Если мы рассмотрим измерение расстояния на основе теоремы Пифагора, то ясно, что мы будем складывать величины, измеренные в разных единицах, что бессмысленно. Во-вторых, если мы изменим масштаб одной из переменных, например, измерим в граммах, а не в килограммах, то мы получим другие результаты (другую линию). Чтобы избежать этих проблем, иногда предлагается преобразовать их в безразмерные переменные — это можно назвать нормализацией или стандартизацией. Однако существуют различные способы сделать это, и они приводят к подобранным моделям, которые не эквивалентны друг другу. Один из подходов заключается в нормализации по известной (или предполагаемой) точности измерения, тем самым минимизируя расстояние Махаланобиса от точек до линии, обеспечивая решение с максимальным правдоподобием ; [ требуется ссылка ] неизвестные точности можно найти с помощью дисперсионного анализа .
Короче говоря, метод наименьших квадратов не обладает свойством инвариантности к единицам, т. е. он не инвариантен к масштабу . Для осмысленной модели нам необходимо, чтобы это свойство сохранялось. Путь вперед — понять, что остатки (расстояния), измеренные в разных единицах, могут быть объединены, если вместо сложения использовать умножение. Рассмотрим подгонку линии: для каждой точки данных произведение вертикальных и горизонтальных остатков равно удвоенной площади треугольника, образованного линиями остатков и подогнанной линией. Мы выбираем линию, которая минимизирует сумму этих площадей. Нобелевский лауреат Пол Самуэльсон доказал в 1942 году, что в двух измерениях это единственная линия, выражаемая исключительно через отношения стандартных отклонений и коэффициент корреляции, которая (1) соответствует правильному уравнению, когда наблюдения попадают на прямую линию, (2) демонстрирует инвариантность к масштабу и (3) демонстрирует инвариантность при замене переменных. [13] Это решение было заново открыто в различных дисциплинах и известно под разными названиями: стандартизированная большая ось (Ricker 1975, Warton et al., 2006), [14] [15] редуцированная большая ось , геометрическое среднее функциональное отношение (Draper and Smith, 1998), [16] регрессия наименьших продуктов , диагональная регрессия , линия органической корреляции и линия наименьших площадей (Tofallis, 2002). [17]
Tofallis (2015, 2023) [18] [19] расширил этот подход для работы с несколькими переменными. Расчеты проще, чем для наименьших квадратов, поскольку они требуют только знания ковариаций и могут быть вычислены с использованием стандартных функций электронных таблиц.
^ Альтернативная форма: , где — сдвиг параметра от некоторой начальной оценки, а — разница между y и значением, рассчитанным с использованием начального значения
^ Обозначение XB ≈ Y используется здесь для отражения обозначения, использованного в предыдущей части статьи. В вычислительной литературе проблема чаще представляется как AX ≈ B , т.е. с буквой X, используемой для матрицы n -на -k неизвестных коэффициентов регрессии.
Ссылки
^ И. Марковский и С. Ван Хаффель , Обзор методов наименьших квадратов. Обработка сигналов, т. 87, стр. 2283–2302, 2007. препринт
^ У. Э. Деминг, Статистическая корректировка данных, Wiley, 1943
^ Ганс, Питер (1992). Подгонка данных в химических науках. Wiley. ISBN9780471934127. Получено 4 декабря 2012 г.
^ GH Golub и CF Van Loan, Анализ общей задачи наименьших квадратов. Numer. Anal., 17, 1980, стр. 883–893.
^ Бьёрк, Аке (1996) Численные методы решения задач наименьших квадратов , Общество промышленной и прикладной математики. ISBN 978-0898713602 [ нужна страница ]
^ S. Van Huffel и J. Vandewalle (1991) Задачи о наименьших квадратах: вычислительные аспекты и анализ . SIAM Publications, Филадельфия, Пенсильвания.
^ S. Van Huffel , Документированные программы Fortran 77 расширенного классического алгоритма наименьших квадратов, алгоритма частичного сингулярного разложения и алгоритма частичного наименьших квадратов, Внутренний отчет ESAT-KUL 88/1, Лаборатория ESAT, Кафедра электротехники, Католический университет Лёвена, 1988.
^ С. Ван Хаффель , Расширенный классический алгоритм наименьших квадратов, J. Comput. Appl. Math., 25, стр. 111–119, 1989.
^ М. Плешингер, Проблема наименьших квадратов и сокращение данных в AX ≈ B. Докторская диссертация, Технический университет Либерец и Институт компьютерных наук, АН ЧР, Прага, 2008. Кандидатская диссертация
^ И. Гнетынкова, М. Плешингер, Д. М. Сима, З. Стракош и С. Ван Хаффель , Общая задача наименьших квадратов в AX ≈ B. Новая классификация со связью с классическими работами. SIMAX т. 32 выпуск 3 (2011), стр. 748–770.
^ Штейн, Яаков Й. «Двумерная евклидова регрессия» (PDF) .{{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ Самуэльсон, Пол А. (1942). «Заметка об альтернативных регрессиях». Econometrica . 10 (1): 80–83. doi :10.2307/1907024. JSTOR 1907024.
^ Рикер, У. Э. (1975). «Заметка относительно комментариев профессора Жоликёра». Журнал Совета по исследованию рыболовства Канады . 32 (8): 1494–1498. doi :10.1139/f75-172.
^ Уортон, Дэвид И.; Райт, Ян Дж.; Фальстер, Дэниел С.; Уэстоби, Марк (2006). «Методы подгонки двумерных линий для аллометрии». Biological Reviews . 81 (2): 259–291. CiteSeerX 10.1.1.461.9154 . doi :10.1017/S1464793106007007. PMID 16573844. S2CID 16462731.
^ Дрейпер, Н. Р. и Смит, Х. Прикладной регрессионный анализ , 3-е издание, стр. 92–96. 1998
^ Tofallis, Chris (2002). "Подгонка модели для нескольких переменных путем минимизации геометрического среднего отклонения". В Van Huffel, Sabine ; Lemmerling, P. (ред.). Моделирование методом наименьших квадратов и ошибок в переменных: анализ, алгоритмы и приложения . Дордрехт: Kluwer Academic Publ. ISBN978-1402004766. СГРН 1077322.
^ Тофаллис, Крис (2015). «Подгонка уравнений к данным с идеальной корреляционной связью». SSRN 2707593.
^ Тофаллис, К. (2023). Подгонка уравнения к данным беспристрастно. Математика, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
Другие
I. Hnětynková, M. Plešinger, DM Sima, Z. Strakoš и S. Van Huffel , The total least squares problem in AX ≈ B. Новая классификация с отношением к классическим работам. SIMAX vol. 32 issue 3 (2011), pp. 748–770. Доступно в виде препринта.
M. Плешингер, Проблема наименьших квадратов и сокращение данных в AX ≈ B. Докторская диссертация, Технический университет Либерец и Институт компьютерных наук, АН ЧР, Прага, 2008. Кандидатская диссертация
CC Paige, Z. Strakoš, Основные проблемы в линейных алгебраических системах. SIAM J. Matrix Anal. Appl. 27, 2006, стр. 861–875. doi :10.1137/040616991
S. Van Huffel и P. Lemmerling, Total Least Squares and Errors-in-Variables Modeling: Analysis, Algorithms and Applications . Дордрехт, Нидерланды: Kluwer Academic Publishers, 2002.
S. Jo и SW Kim, Последовательная нормализованная фильтрация по методу наименьших квадратов с зашумленной матрицей данных. IEEE Trans. Signal Process., т. 53, № 6, стр. 2112–2123, июнь 2005 г.
RD DeGroat и EM Dowling, Задача наименьших квадратов данных и выравнивание канала. IEEE Trans. Signal Process., т. 41, № 1, стр. 407–411, январь 1993 г.
S. Van Huffel и J. Vandewalle, The Total Least Squares Problems: Computational Aspects and Analysis. SIAM Publications, Филадельфия, Пенсильвания, 1991. doi : 10.1137/1.9781611971002
T. Abatzoglou и J. Mendel, Ограниченные общие наименьшие квадраты , в Трудах Международной конференции IEEE по акустике, речи и обработке сигналов (ICASSP'87), апрель 1987 г., т. 12, стр. 1485–1488.
П. де Гроен. Введение в метод наименьших квадратов , в Nieuw Archief voor Wiskunde, серия Vierde, 14 декабря 1996 г., стр. 237–253 arxiv.org.
GH Golub и CF Van Loan, Анализ проблемы наименьших квадратов. SIAM J. on Numer. Anal., 17, 1980, стр. 883–893. doi :10.1137/0717073
Перпендикулярная регрессия линии в MathPages
AR Amiri-Simkooei и S. Jazaeri Взвешенные общие наименьшие квадраты, сформулированные с помощью стандартной теории наименьших квадратов , в Journal of Geodetic Science, 2 (2): 113–124, 2012 [1].