Принцип ортогональности

Условие оптимальности байесовской оценки

В статистике и обработке сигналов принцип ортогональности является необходимым и достаточным условием оптимальности байесовского оценщика . Грубо говоря, принцип ортогональности гласит, что вектор ошибок оптимального оценщика (в смысле среднеквадратической ошибки ) ортогонален любому возможному оценщику. Принцип ортогональности чаще всего формулируется для линейных оценщиков, но возможны и более общие формулировки. Поскольку принцип является необходимым и достаточным условием оптимальности, его можно использовать для нахождения минимальной среднеквадратической ошибки оценщика.

Принцип ортогональности для линейных оценок

Принцип ортогональности чаще всего используется в условиях линейной оценки. [1] В этом контексте пусть x будет неизвестным случайным вектором , который должен быть оценен на основе вектора наблюдения y . Требуется построить линейную оценку для некоторой матрицы H и вектора c . Тогда принцип ортогональности гласит, что оценка достигает минимальной среднеквадратической ошибки тогда и только тогда, когда х ^ = ЧАС у + с {\displaystyle {\hat {x}}=Hy+c} х ^ {\displaystyle {\хэт {x}}}

  • Э { ( х ^ х ) у Т } = 0 , {\displaystyle \operatorname {E} \{({\hat {x}}-x)y^{T}\}=0,} и
  • Э { х ^ х } = 0. {\displaystyle \operatorname {E} \{{\hat {x}}-x\}=0.}

Если x и y имеют нулевое среднее значение, то достаточно потребовать выполнения первого условия.

Пример

Предположим, что xгауссовская случайная величина со средним значением m и дисперсией. Предположим также, что мы наблюдаем значение , где w — гауссовский шум, который не зависит от x и имеет среднее значение 0 и дисперсию. Мы хотим найти линейную оценку, минимизирующую MSE. Подставляя выражение в два требования принципа ортогональности, получаем σ х 2 . {\displaystyle \сигма _{x}^{2}.} у = х + ж , {\displaystyle y=x+w,} σ ж 2 . {\displaystyle \sigma _{w}^{2}.} х ^ = час у + с {\displaystyle {\hat {x}}=hy+c} х ^ = час у + с {\displaystyle {\hat {x}}=hy+c}

0 = Э { ( х ^ х ) у } {\displaystyle 0=\operatorname {E} \{({\hat {x}}-x)y\}}
0 = Э { ( час х + час ж + с х ) ( х + ж ) } {\displaystyle 0=\operatorname {E} \{(hx+hw+cx)(x+w)\}}
0 = час ( σ х 2 + σ ж 2 ) + час м 2 + с м σ х 2 м 2 {\displaystyle 0=h(\sigma _{x}^{2}+\sigma _{w}^{2})+hm^{2}+cm-\sigma _{x}^{2}-m^{2}}

и

0 = Э { х ^ х } {\displaystyle 0=\operatorname {E} \{{\hat {x}}-x\}}
0 = Э { час х + час ж + с х } {\displaystyle 0=\operatorname {E} \{hx+hw+cx\}}
0 = ( час 1 ) м + с . {\displaystyle 0=(h-1)m+c.}

Решение этих двух линейных уравнений относительно h и c приводит к

h = σ x 2 σ x 2 + σ w 2 , c = σ w 2 σ x 2 + σ w 2 m , {\displaystyle h={\frac {\sigma _{x}^{2}}{\sigma _{x}^{2}+\sigma _{w}^{2}}},\quad c={\frac {\sigma _{w}^{2}}{\sigma _{x}^{2}+\sigma _{w}^{2}}}m,}

так что линейная оценка минимальной среднеквадратической ошибки определяется выражением

x ^ = σ x 2 σ x 2 + σ w 2 y + σ w 2 σ x 2 + σ w 2 m . {\displaystyle {\hat {x}}={\frac {\sigma _{x}^{2}}{\sigma _{x}^{2}+\sigma _{w}^{2}}}y+{\frac {\sigma _{w}^{2}}{\sigma _{x}^{2}+\sigma _{w}^{2}}}m.}

Эту оценку можно интерпретировать как средневзвешенное значение между шумными измерениями y и априорным ожидаемым значением m . Если дисперсия шума мала по сравнению с дисперсией априорного значения (что соответствует высокому SNR ), то большая часть веса дается измерениям y , которые считаются более надежными, чем априорная информация. И наоборот, если дисперсия шума относительно выше, то оценка будет близка к m , поскольку измерения недостаточно надежны, чтобы перевесить априорную информацию. σ w 2 {\displaystyle \sigma _{w}^{2}} σ x 2 {\displaystyle \sigma _{x}^{2}}

Наконец, обратите внимание, что поскольку переменные x и y являются совместно гауссовыми, минимальная оценка MSE является линейной. [2] Следовательно, в этом случае оценка выше минимизирует MSE среди всех оценок, а не только линейных оценок.

Общая формулировка

Пусть будет гильбертовым пространством случайных величин со скалярным произведением , определяемым как . Предположим, что является замкнутым подпространством , представляющим пространство всех возможных оценок. Требуется найти вектор , который будет аппроксимировать вектор . Точнее, требуется минимизировать среднюю квадратичную ошибку (MSE) между и . V {\displaystyle V} x , y = E { x H y } {\displaystyle \langle x,y\rangle =\operatorname {E} \{x^{H}y\}} W {\displaystyle W} V {\displaystyle V} x ^ W {\displaystyle {\hat {x}}\in W} x V {\displaystyle x\in V} E x x ^ 2 {\displaystyle \operatorname {E} \|x-{\hat {x}}\|^{2}} x ^ {\displaystyle {\hat {x}}} x {\displaystyle x}

В частном случае линейных оценщиков, описанном выше, пространство представляет собой множество всех функций от и , в то время как представляет собой множество линейных оценщиков, т. е. линейных функций только от . Другие настройки, которые можно сформулировать таким образом, включают подпространство каузальных линейных фильтров и подпространство всех (возможно, нелинейных) оценщиков. V {\displaystyle V} x {\displaystyle x} y {\displaystyle y} W {\displaystyle W} y {\displaystyle y}

Геометрически мы можем увидеть эту проблему с помощью следующего простого случая, где — одномерное подпространство: W {\displaystyle W}

Мы хотим найти ближайшее приближение к вектору вектором в пространстве . Из геометрической интерпретации интуитивно понятно, что наилучшее приближение или наименьшая ошибка возникает, когда вектор ошибки, , ортогонален векторам в пространстве . x {\displaystyle x} x ^ {\displaystyle {\hat {x}}} W {\displaystyle W} e {\displaystyle e} W {\displaystyle W}

Точнее, общий принцип ортогональности утверждает следующее: если задано замкнутое подпространство оценок в гильбертовом пространстве и элемент в , то элемент достигает минимальной среднеквадратической ошибки среди всех элементов в тогда и только тогда, когда для всех W {\displaystyle W} V {\displaystyle V} x {\displaystyle x} V {\displaystyle V} x ^ W {\displaystyle {\hat {x}}\in W} W {\displaystyle W} E { ( x x ^ ) y T } = 0 {\displaystyle \operatorname {E} \{(x-{\hat {x}})y^{T}\}=0} y W . {\displaystyle y\in W.}

Изложенный таким образом, этот принцип является просто утверждением теоремы о проекции Гильберта . Тем не менее, широкое использование этого результата в обработке сигналов привело к названию «принцип ортогональности».

Решение проблем минимизации ошибок

Ниже представлен один из способов нахождения минимальной оценки среднеквадратической ошибки с использованием принципа ортогональности.

Мы хотим иметь возможность аппроксимировать вектор с помощью x {\displaystyle x}

x = x ^ + e {\displaystyle x={\hat {x}}+e\,}

где

x ^ = i c i p i {\displaystyle {\hat {x}}=\sum _{i}c_{i}p_{i}}

является приближением как линейной комбинации векторов в подпространстве, охватываемом Поэтому мы хотим иметь возможность решить относительно коэффициентов, , чтобы мы могли записать наше приближение в известных терминах. x {\displaystyle x} W {\displaystyle W} p 1 , p 2 , . {\displaystyle p_{1},p_{2},\ldots .} c i {\displaystyle c_{i}}

По теореме ортогональности квадратная норма вектора ошибок минимизируется, когда для всех j , e 2 {\displaystyle \left\Vert e\right\Vert ^{2}}

x i c i p i , p j = 0. {\displaystyle \left\langle x-\sum _{i}c_{i}p_{i},p_{j}\right\rangle =0.}

Развивая это уравнение, получаем

x , p j = i c i p i , p j = i c i p i , p j . {\displaystyle \left\langle x,p_{j}\right\rangle =\left\langle \sum _{i}c_{i}p_{i},p_{j}\right\rangle =\sum _{i}c_{i}\left\langle p_{i},p_{j}\right\rangle .}

Если имеется конечное число векторов , то это уравнение можно записать в матричной форме как n {\displaystyle n} p i {\displaystyle p_{i}}

[ x , p 1 x , p 2 x , p n ] = [ p 1 , p 1 p 2 , p 1 p n , p 1 p 1 , p 2 p 2 , p 2 p n , p 2 p 1 , p n p 2 , p n p n , p n ] [ c 1 c 2 c n ] . {\displaystyle {\begin{bmatrix}\left\langle x,p_{1}\right\rangle \\\left\langle x,p_{2}\right\rangle \\\vdots \\\left\langle x,p_{n}\right\rangle \end{bmatrix}}={\begin{bmatrix}\left\langle p_{1},p_{1}\right\rangle &\left\langle p_{2},p_{1}\right\rangle &\cdots &\left\langle p_{n},p_{1}\right\rangle \\\left\langle p_{1},p_{2}\right\rangle &\left\langle p_{2},p_{2}\right\rangle &\cdots &\left\langle p_{n},p_{2}\right\rangle \\\vdots &\vdots &\ddots &\vdots \\\left\langle p_{1},p_{n}\right\rangle &\left\langle p_{2},p_{n}\right\rangle &\cdots &\left\langle p_{n},p_{n}\right\rangle \end{bmatrix}}{\begin{bmatrix}c_{1}\\c_{2}\\\vdots \\c_{n}\end{bmatrix}}.}

Предполагая, что линейно независимы , матрицу Грама можно инвертировать, чтобы получить p i {\displaystyle p_{i}}

[ c 1 c 2 c n ] = [ p 1 , p 1 p 2 , p 1 p n , p 1 p 1 , p 2 p 2 , p 2 p n , p 2 p 1 , p n p 2 , p n p n , p n ] 1 [ x , p 1 x , p 2 x , p n ] , {\displaystyle {\begin{bmatrix}c_{1}\\c_{2}\\\vdots \\c_{n}\end{bmatrix}}={\begin{bmatrix}\left\langle p_{1},p_{1}\right\rangle &\left\langle p_{2},p_{1}\right\rangle &\cdots &\left\langle p_{n},p_{1}\right\rangle \\\left\langle p_{1},p_{2}\right\rangle &\left\langle p_{2},p_{2}\right\rangle &\cdots &\left\langle p_{n},p_{2}\right\rangle \\\vdots &\vdots &\ddots &\vdots \\\left\langle p_{1},p_{n}\right\rangle &\left\langle p_{2},p_{n}\right\rangle &\cdots &\left\langle p_{n},p_{n}\right\rangle \end{bmatrix}}^{-1}{\begin{bmatrix}\left\langle x,p_{1}\right\rangle \\\left\langle x,p_{2}\right\rangle \\\vdots \\\left\langle x,p_{n}\right\rangle \end{bmatrix}},}

таким образом, получая выражение для коэффициентов оценки минимальной среднеквадратической ошибки. c i {\displaystyle c_{i}}

Смотрите также

Примечания

Ссылки

  • Кей, СМ (1993). Основы статистической обработки сигналов: теория оценки . Prentice Hall. ISBN 0-13-042268-1.
  • Мун, Тодд К. (2000). Математические методы и алгоритмы обработки сигналов . Prentice-Hall. ISBN 0-201-36186-8.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Orthogonality_principle&oldid=1090176857"