Распределение фон Мизеса–Фишера

Распределение вероятностей на гиперсфере произвольного размера

В направленной статистике распределение фон Мизеса–Фишера (названное в честь Ричарда фон Мизеса и Рональда Фишера ) — это распределение вероятностей на - сфере в . Если распределение сводится к распределению фон Мизеса на окружности . ( п 1 ) {\displaystyle (p-1)} Р п {\displaystyle \mathbb {R} ^{p}} п = 2 {\displaystyle p=2}

Определение

Функция плотности вероятности распределения фон Мизеса–Фишера для случайного p -мерного единичного вектора определяется выражением: х {\displaystyle \mathbf {x} }

ф п ( х ; μ , к ) = С п ( к ) эксп ( к μ Т х ) , {\displaystyle f_ {p}(\mathbf {x}; {\boldsymbol {\mu }},\kappa)=C_ {p}(\kappa)\exp \left({\kappa {\boldsymbol {\mu} }^{\mathsf {T}}\mathbf {x} }\right),}

где и константа нормировки равна к 0 , μ = 1 {\displaystyle \каппа \geq 0,\left\Vert {\boldsymbol {\mu }}\right\Vert =1} С п ( к ) {\displaystyle C_{p}(\kappa)}

С п ( к ) = к п / 2 1 ( 2 π ) п / 2 я п / 2 1 ( к ) , {\displaystyle C_{p}(\kappa)={\frac {\kappa ^{p/2-1}}{(2\pi)^{p/2}I_{p/2-1}(\kappa )}},}

где обозначает модифицированную функцию Бесселя первого рода при порядке . Если , то константа нормировки уменьшается до я в {\displaystyle I_{v}} в {\displaystyle v} п = 3 {\displaystyle p=3}

С 3 ( к ) = к 4 π грех к = к 2 π ( е к е к ) . {\displaystyle C_{3}(\kappa)={\frac {\kappa }{4\pi \sinh \kappa }} = {\frac {\kappa }{2\pi (e^{\kappa } -e ^{-\каппа })}}.}

Параметры и называются средним направлением и параметром концентрации соответственно. Чем больше значение , тем выше концентрация распределения вокруг среднего направления . Распределение унимодально для , и равномерно на сфере для . μ {\displaystyle {\boldsymbol {\mu }}} к {\displaystyle \каппа} к {\displaystyle \каппа} μ {\displaystyle {\boldsymbol {\mu }}} к > 0 {\displaystyle \каппа >0} к = 0 {\displaystyle \каппа =0}

Распределение фон Мизеса–Фишера для также называется распределением Фишера . [1] [2] Впервые оно было использовано для моделирования взаимодействия электрических диполей в электрическом поле . [3] Другие приложения можно найти в геологии , биоинформатике и анализе текстов . п = 3 {\displaystyle p=3}

Примечание о константе нормализации

В учебнике « Направленная статистика » [3] Мардиа и Джаппа константа нормализации, данная для плотности вероятности Мизеса-Фишера, по-видимому, отличается от приведенной здесь: . В этой книге константа нормализации указана как: С п ( к ) {\displaystyle C_{p}(\kappa)}

С п ( к ) = ( к 2 ) п / 2 1 Г ( п / 2 ) я п / 2 1 ( к ) {\displaystyle C_{p}^{*}(\kappa )={\frac {({\frac {\kappa }{2}})^{p/2-1}}{\Gamma (p/2)I_{p/2-1}(\kappa )}}}

где - гамма-функция . Это решается, если отметить, что Мардиа и Юпп дают плотность "относительно равномерного распределения", тогда как плотность здесь указана обычным образом, относительно меры Лебега . Плотность (относительно меры Лебега) равномерного распределения является обратной величиной площади поверхности (p-1)-сферы , так что функция равномерной плотности задается константой: Г {\displaystyle \Гамма}

С п ( 0 ) = Г ( п / 2 ) 2 π п / 2 {\displaystyle C_{p}(0)={\frac {\Gamma (p/2)}{2\pi ^{p/2}}}}

Из этого следует, что:

С п ( к ) = С п ( к ) С п ( 0 ) {\displaystyle C_{p}^{*}(\каппа )={\frac {C_{p}(\каппа )}{C_{p}(0)}}}

Хотя значение для было получено выше через площадь поверхности, тот же результат можно получить, установив в приведенной выше формуле для . Это можно сделать, заметив, что разложение ряда для , деленное на , имеет только один ненулевой член при . (Чтобы оценить этот член, нужно использовать определение .) С п ( 0 ) {\displaystyle C_{p}(0)} к = 0 {\displaystyle \каппа =0} С п ( к ) {\displaystyle C_{p}(\kappa)} я п / 2 1 ( к ) {\displaystyle I_{p/2-1}(\ каппа)} к п / 2 1 {\displaystyle \ каппа ^{p/2-1}} к = 0 {\displaystyle \каппа =0} 0 0 = 1 {\displaystyle 0^{0}=1}

Поддерживать

Носителем распределения Мизеса–Фишера является гиперсфера , или , точнее, -сфера , обозначаемая как ( п 1 ) {\displaystyle (p-1)}

С п 1 = { х Р п : х = 1 } {\displaystyle S^{p-1}=\left\{\mathbf {x} \in \mathbb {R} ^{p}:\left\|\mathbf {x} \right\|=1\right\}}

Это -мерное многообразие, вложенное в -мерное евклидово пространство . ( п 1 ) {\displaystyle (p-1)} п {\displaystyle p} Р п {\displaystyle \mathbb {R} ^{p}}

Отношение к нормальному распределению

Начиная с нормального распределения с изотропной ковариацией и средним значением длины , функция плотности которого имеет вид: к 1 я {\displaystyle \каппа ^{-1}\mathbf {I} } μ {\displaystyle {\boldsymbol {\mu }}} г > 0 {\displaystyle r>0}

Г п ( х ; μ , к ) = ( к 2 π ) п эксп ( к ( х μ ) Т ( х μ ) 2 ) , {\displaystyle G_{p}(\mathbf {x};{\boldsymbol {\mu }},\kappa)=\left({\sqrt {\frac {\kappa }{2\pi }}}\right) ^{p}\exp \left(-\kappa {\frac {(\mathbf {x} -{\boldsymbol {\mu }})^{\mathsf {T}}(\mathbf {x} -{\boldsymbol {\mu }})}{2}}\right),}

Распределение Мизеса–Фишера получается путем обусловливания . Разлагая х = 1 {\displaystyle \left\|\mathbf {x} \right\|=1}

( х μ ) Т ( х μ ) = х Т х + μ Т μ 2 μ Т х , {\displaystyle (\mathbf {x} -{\boldsymbol {\mu }})^{\mathsf {T}}(\mathbf {x} -{\boldsymbol {\mu }})=\mathbf {x} ^{\mathsf {T}}\mathbf {x} +{\boldsymbol {\mu }}^{\mathsf {T}}{\boldsymbol {\mu }}-2{\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} ,}

и используя тот факт, что первые два члена правой стороны фиксированы, плотность Мизеса-Фишера восстанавливается путем пересчета константы нормализации путем интегрирования по единичной сфере. Если , мы получаем равномерное распределение с плотностью . ф п ( х ; г 1 μ , г к ) {\displaystyle f_{p}(\mathbf {x};r^{-1}{\boldsymbol {\mu }},r\kappa)} х {\displaystyle \mathbf {x} } г = 0 {\displaystyle r=0} ф п ( х ; 0 , 0 ) {\displaystyle f_{p}(\mathbf {x} ;{\boldsymbol {0}},0)}

Более кратко, ограничение любой изотропной многомерной нормальной плотности единичной гиперсферой дает плотность Мизеса-Фишера с точностью до нормализации.

Эту конструкцию можно обобщить, начав с нормального распределения с общей ковариационной матрицей, в этом случае обусловливание дает распределение Фишера-Бингама . х = 1 {\displaystyle \left\|\mathbf {x} \right\|=1}

Оценка параметров

Среднее направление

Серия из N независимых единичных векторов выводится из распределения фон Мизеса-Фишера. Максимальные оценки правдоподобия среднего направления — это просто нормализованное арифметическое среднее , достаточная статистика : [3] х я {\displaystyle x_{i}} μ {\displaystyle \мю}

μ = х ¯ / Р ¯ , где  х ¯ = 1 Н я Н х я , и  Р ¯ = х ¯ , {\displaystyle \mu ={\bar {x}}/{\bar {R}},{\text{where }}{\bar {x}}={\frac {1}{N}}\sum _{i}^{N}x_{i},{\text{and }}{\bar {R}}=\|{\bar {x}}\|,}

Параметр концентрации

Используйте модифицированную функцию Бесселя первого рода для определения

A p ( κ ) = I p / 2 ( κ ) I p / 2 1 ( κ ) . {\displaystyle A_{p}(\kappa )={\frac {I_{p/2}(\kappa )}{I_{p/2-1}(\kappa )}}.}

Затем:

κ = A p 1 ( R ¯ ) . {\displaystyle \kappa =A_{p}^{-1}({\bar {R}}).}

Вот решение κ {\displaystyle \kappa }

A p ( κ ) = i N x i N = R ¯ . {\displaystyle A_{p}(\kappa )={\frac {\left\|\sum _{i}^{N}x_{i}\right\|}{N}}={\bar {R}}.}

Простейшее приближение к (Sra, 2011) κ {\displaystyle \kappa }

κ ^ = R ¯ ( p R ¯ 2 ) 1 R ¯ 2 , {\displaystyle {\hat {\kappa }}={\frac {{\bar {R}}(p-{\bar {R}}^{2})}{1-{\bar {R}}^{2}}},}

Более точную инверсию можно получить, повторив метод Ньютона несколько раз.

κ ^ 1 = κ ^ A p ( κ ^ ) R ¯ 1 A p ( κ ^ ) 2 p 1 κ ^ A p ( κ ^ ) , {\displaystyle {\hat {\kappa }}_{1}={\hat {\kappa }}-{\frac {A_{p}({\hat {\kappa }})-{\bar {R}}}{1-A_{p}({\hat {\kappa }})^{2}-{\frac {p-1}{\hat {\kappa }}}A_{p}({\hat {\kappa }})}},}
κ ^ 2 = κ ^ 1 A p ( κ ^ 1 ) R ¯ 1 A p ( κ ^ 1 ) 2 p 1 κ ^ 1 A p ( κ ^ 1 ) . {\displaystyle {\hat {\kappa }}_{2}={\hat {\kappa }}_{1}-{\frac {A_{p}({\hat {\kappa }}_{1})-{\bar {R}}}{1-A_{p}({\hat {\kappa }}_{1})^{2}-{\frac {p-1}{{\hat {\kappa }}_{1}}}A_{p}({\hat {\kappa }}_{1})}}.}

Стандартная ошибка

Для N  ≥ 25 предполагаемая сферическая стандартная ошибка выборочного среднего направления может быть вычислена как: [4]

σ ^ = ( d N R ¯ 2 ) 1 / 2 {\displaystyle {\hat {\sigma }}=\left({\frac {d}{N{\bar {R}}^{2}}}\right)^{1/2}}

где

d = 1 1 N i N ( μ T x i ) 2 {\displaystyle d=1-{\frac {1}{N}}\sum _{i}^{N}\left(\mu ^{T}x_{i}\right)^{2}}

Тогда можно аппроксимировать сферический доверительный интервал ( доверительный конус ) с полувертикальным углом: 100 ( 1 α ) % {\displaystyle 100(1-\alpha )\%} μ {\displaystyle \mu }

q = arcsin ( e α 1 / 2 σ ^ ) , {\displaystyle q=\arcsin \left(e_{\alpha }^{1/2}{\hat {\sigma }}\right),} где e α = ln ( α ) . {\displaystyle e_{\alpha }=-\ln(\alpha ).}

Например, для конуса уверенности 95%, и, таким образом, α = 0.05 , e α = ln ( 0.05 ) = 2.996 , {\displaystyle \alpha =0.05,e_{\alpha }=-\ln(0.05)=2.996,} q = arcsin ( 1.731 σ ^ ) . {\displaystyle q=\arcsin(1.731{\hat {\sigma }}).}

Ожидаемое значение

Ожидаемое значение распределения Мизеса–Фишера не находится на единичной гиперсфере, но вместо этого имеет длину меньше единицы. Эта длина задается как определено выше. Для распределения Мизеса–Фишера со средним направлением и концентрацией ожидаемое значение равно: A p ( κ ) {\displaystyle A_{p}(\kappa )} μ {\displaystyle {\boldsymbol {\mu }}} κ > 0 {\displaystyle \kappa >0}

A p ( κ ) μ {\displaystyle A_{p}(\kappa ){\boldsymbol {\mu }}} .

Для , ожидаемое значение находится в начале координат. Для конечного , длина ожидаемого значения строго между нулем и единицей и является монотонно возрастающей функцией . κ = 0 {\displaystyle \kappa =0} κ > 0 {\displaystyle \kappa >0} κ {\displaystyle \kappa }

Эмпирическое среднее ( арифметическое среднее ) набора точек на единичной гиперсфере ведет себя аналогичным образом, находясь близко к началу координат для широко распространенных данных и близко к сфере для концентрированных данных. Действительно, для распределения Мизеса–Фишера ожидаемое значение оценки максимального правдоподобия, основанной на наборе точек, равно эмпирическому среднему этих точек.

Энтропия и KL-дивергенция

Ожидаемое значение можно использовать для вычисления дифференциальной энтропии и дивергенции KL .

Дифференциальная энтропия равна : VMF ( μ , κ ) {\displaystyle {\text{VMF}}({\boldsymbol {\mu }},\kappa )}

log f p ( x ; μ , κ ) x VMF ( μ , κ ) = log f p ( A p ( κ ) μ ; μ , κ ) = log C p ( κ ) κ A p ( κ ) {\displaystyle {\bigl \langle }-\log f_{p}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa ){\bigr \rangle }_{\mathbf {x} \sim {\text{VMF}}({\boldsymbol {\mu }},\kappa )}=-\log f_{p}(A_{p}(\kappa ){\boldsymbol {\mu }};{\boldsymbol {\mu }},\kappa )=-\log C_{p}(\kappa )-\kappa A_{p}(\kappa )}

где угловые скобки обозначают ожидание. Обратите внимание, что энтропия является функцией только. κ {\displaystyle \kappa }

Расхождение KL между и равно: VMF ( μ 0 , κ 0 ) {\displaystyle {\text{VMF}}({\boldsymbol {\mu _{0}}},\kappa _{0})} VMF ( μ 1 , κ 1 ) {\displaystyle {\text{VMF}}({\boldsymbol {\mu _{1}}},\kappa _{1})}

log f p ( x ; μ 0 , κ 0 ) f p ( x ; μ 1 , κ 1 ) x VMF ( μ 0 , κ 0 ) = log f p ( A p ( κ 0 ) μ 0 ; μ 0 , κ 0 ) f p ( A p ( κ 0 ) μ 0 ; μ 1 , κ 1 ) {\displaystyle {\Bigl \langle }\log {\frac {f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{0}}},\kappa _{0})}{f_{p}(\mathbf {x} ;{\boldsymbol {\mu _{1}}},\kappa _{1})}}{\Bigr \rangle }_{\mathbf {x} \sim {\text{VMF}}({\boldsymbol {\mu _{0}}},\kappa _{0})}=\log {\frac {f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{0}}},\kappa _{0})}{f_{p}(A_{p}(\kappa _{0}){\boldsymbol {\mu _{0}}};{\boldsymbol {\mu _{1}}},\kappa _{1})}}}

Трансформация

Распределения Мизеса-Фишера (VMF) замкнуты относительно ортогональных линейных преобразований. Пусть будет матрицей ортогональности . Пусть и применим обратимое линейное преобразование: . Обратное преобразование равно , поскольку обратная ортогональной матрица является ее транспонированной : . Якобиан преобразования равен , для которого абсолютное значение его определителя равно 1, также из-за ортогональности. Используя эти факты и форму плотности VMF, следует, что: U {\displaystyle \mathbf {U} } p {\displaystyle p} p {\displaystyle p} x VMF ( μ , κ ) {\displaystyle \mathbf {x} \sim {\text{VMF}}({\boldsymbol {\mu }},\kappa )} y = U x {\displaystyle \mathbf {y} =\mathbf {Ux} } x = U y {\displaystyle \mathbf {x} =\mathbf {U'y} } U 1 = U {\displaystyle \mathbf {U} ^{-1}=\mathbf {U} '} U {\displaystyle \mathbf {U} }

y VMF ( U μ , κ ) . {\displaystyle \mathbf {y} \sim {\text{VMF}}(\mathbf {U} {\boldsymbol {\mu }},\kappa ).}

Можно проверить, что поскольку и являются единичными векторами, то по ортогональности также являются и . μ {\displaystyle {\boldsymbol {\mu }}} x {\displaystyle \mathbf {x} } U μ {\displaystyle \mathbf {U} {\boldsymbol {\mu }}} y {\displaystyle \mathbf {y} }

Генерация псевдослучайных чисел

Общий случай

Алгоритм для получения псевдослучайных выборок из распределения Мизеса Фишера (VMF) был предложен Ульрихом [5] и позднее исправлен Вудом. [6] Реализация на языке R дана Хорником и Грюном; [7] а быстрая реализация на Python описана Пинзоном и Юнгом. [8]

Для моделирования из распределения VMF на -мерной единичной сфере , со средним направлением , эти алгоритмы используют следующее радиально-тангенциальное разложение для точки  : ( p 1 ) {\displaystyle (p-1)} S p 1 {\displaystyle S^{p-1}} μ S p 1 {\displaystyle {\boldsymbol {\mu }}\in S^{p-1}} x S p 1 R p {\displaystyle \mathbf {x} \in S^{p-1}\subset \mathbb {R} ^{p}}

x = t μ + 1 t 2 v {\displaystyle \mathbf {x} =t{\boldsymbol {\mu }}+{\sqrt {1-t^{2}}}\mathbf {v} }

где живет в тангенциальной -мерной единичной подсфере, которая центрирована в и перпендикулярна ; в то время как . Чтобы извлечь выборку из VMF с параметрами и , необходимо извлечь из равномерного распределения на тангенциальной подсфере; а радиальная составляющая, , должна быть извлечена независимо из распределения с плотностью: v R p {\displaystyle \mathbf {v} \in \mathbb {R} ^{p}} ( p 2 ) {\displaystyle (p-2)} μ {\displaystyle {\boldsymbol {\mu }}} t [ 1 , 1 ] {\displaystyle t\in [-1,1]} x {\displaystyle \mathbf {x} } μ {\displaystyle {\boldsymbol {\mu }}} κ {\displaystyle \kappa } v {\displaystyle \mathbf {v} } t {\displaystyle t}

f radial ( t ; κ , p ) = ( κ / 2 ) ν Γ ( 1 2 ) Γ ( ν + 1 2 ) I ν ( κ ) e t κ ( 1 t 2 ) ν 1 2 {\displaystyle f_{\text{radial}}(t;\kappa ,p)={\frac {(\kappa /2)^{\nu }}{\Gamma ({\frac {1}{2}})\Gamma (\nu +{\frac {1}{2}})I_{\nu }(\kappa )}}e^{t\kappa }(1-t^{2})^{\nu -{\frac {1}{2}}}}

где . Нормировочную константу для этой плотности можно проверить, используя: ν = p 2 1 {\displaystyle \nu ={\frac {p}{2}}-1}

I ν ( κ ) = ( κ / 2 ) ν Γ ( 1 2 ) Γ ( ν + 1 2 ) 1 1 e t κ ( 1 t 2 ) ν 1 2 d t {\displaystyle I_{\nu }(\kappa )={\frac {(\kappa /2)^{\nu }}{\Gamma ({\frac {1}{2}})\Gamma (\nu +{\frac {1}{2}})}}\int _{-1}^{1}e^{t\kappa }(1-t^{2})^{\nu -{\frac {1}{2}}}\,dt}

как указано в Приложении 1 (A.3) в Направленной статистике . [3] Рисование выборок из этой плотности с использованием алгоритма выборки с отклонением объясняется в приведенных выше ссылках. Чтобы нарисовать равномерные выборки перпендикулярно , см. алгоритм в [8] или в противном случае можно использовать преобразование Хаусхолдера , как описано в Алгоритме 1 в [9] t {\displaystyle t} v {\displaystyle \mathbf {v} } μ {\displaystyle {\boldsymbol {\mu }}}

3-D сфера

Чтобы сгенерировать распределенный по Мизесу–Фишеру псевдослучайный сферический трехмерный единичный вектор [10] [11] на сфере для заданных и , определим X s {\textstyle \mathbf {X} _{s}} S 2 {\textstyle S^{2}} μ {\textstyle \mu } κ {\textstyle \kappa }

X s = [ r , θ , ϕ ] {\displaystyle \mathbf {X} _{s}=[r,\theta ,\phi ]}

где - полярный угол, азимутальный угол и расстояние до центра сферы θ {\textstyle \theta } ϕ {\textstyle \phi } r = 1 {\textstyle r=1}

для псевдослучайного триплета тогда задается выражением μ = [ 0 , ( . ) , 1 ] {\textstyle \mathbf {\mu } =[0,(.),1]}

X s = [ 1 , arccos W , V ] {\displaystyle \mathbf {X} _{s}=[1,\arccos W,V]}

где выбирается из непрерывного равномерного распределения с нижней границей и верхней границей V {\textstyle V} U ( a , b ) {\textstyle U(a,b)} a {\textstyle a} b {\textstyle b}

V U ( 0 , 2 π ) {\displaystyle V\sim U(0,2\pi )}

и

W = cos θ = 1 + 1 κ ( ln ξ + ln ( 1 ξ 1 ξ e 2 κ ) ) {\displaystyle W=\cos \theta =1+{\frac {1}{\kappa }}(\ln \xi +\ln(1-{\frac {\xi -1}{\xi }}e^{-2\kappa }))}

где выбирается из стандартного непрерывного равномерного распределения ξ {\textstyle \xi } U ( 0 , 1 ) {\textstyle U(0,1)}

ξ U ( 0 , 1 ) {\displaystyle \xi \sim U(0,1)}

здесь следует установить значение when и повернуть для соответствия любому другому желаемому значению . W {\textstyle W} W = 1 {\textstyle W=1} ξ = 0 {\textstyle \mathbf {\xi } =0} X s {\textstyle \mathbf {X} _{s}} μ {\textstyle \mu }

Распределение полярного угла

Для , угол θ между и удовлетворяет . Он имеет распределение p = 3 {\displaystyle p=3} x {\displaystyle \mathbf {x} } μ {\displaystyle {\boldsymbol {\mu }}} cos θ = μ T x {\displaystyle \cos \theta ={\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} }

p ( θ ) = d 2 x f ( x ; μ , κ ) δ ( θ arc cos ( μ T x ) ) {\displaystyle p(\theta )=\int d^{2}xf(x;{\boldsymbol {\mu }},\kappa )\,\delta \left(\theta -{\text{arc cos}}({\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} )\right)} ,

что можно легко оценить как

p ( θ ) = 2 π C 3 ( κ ) sin θ e κ cos θ {\displaystyle p(\theta )=2\pi C_{3}(\kappa )\,\sin \theta \,e^{\kappa \cos \theta }} .

Для общего случая распределение для косинуса этого угла: p 2 {\displaystyle p\geq 2}

cos θ = t = μ T x {\displaystyle \cos \theta =t={\boldsymbol {\mu }}^{\mathsf {T}}\mathbf {x} }

определяется как , как объяснено выше. f radial ( t ; κ , p ) {\displaystyle f_{\text{radial}}(t;\kappa ,p)}

Равномерное распределение гиперсфер

При , распределение Мизеса–Фишера на упрощается до равномерного распределения на . Плотность постоянна со значением . Псевдослучайные выборки могут быть получены путем генерации выборок в из стандартного многомерного нормального распределения с последующей нормализацией до единичной нормы. κ = 0 {\displaystyle \kappa =0} VMF ( μ , κ ) {\displaystyle {\text{VMF}}({\boldsymbol {\mu }},\kappa )} S p 1 {\displaystyle S^{p-1}} S p 1 R p {\displaystyle S^{p-1}\subset \mathbb {R} ^{p}} C p ( 0 ) {\displaystyle C_{p}(0)} R p {\displaystyle \mathbb {R} ^{p}}

Компонент маргинал равномерного распределения

Для пусть будет любой компонентой . Маргинальное распределение для имеет плотность: [12] [13] 1 i p {\displaystyle 1\leq i\leq p} x i {\displaystyle x_{i}} x S p 1 {\displaystyle \mathbf {x} \in S^{p-1}} x i {\displaystyle x_{i}}

f i ( x i ; p ) = f radial ( x i ; κ = 0 , p ) = ( 1 x i 2 ) p 1 2 1 B ( 1 2 , p 1 2 ) {\displaystyle f_{i}(x_{i};p)=f_{\text{radial}}(x_{i};\kappa =0,p)={\frac {(1-x_{i}^{2})^{{\frac {p-1}{2}}-1}}{B{\bigl (}{\frac {1}{2}},{\frac {p-1}{2}}{\bigr )}}}}

где бета -функция . Это распределение можно лучше понять, выделив его связь с бета-распределением : B ( α , β ) {\displaystyle B(\alpha ,\beta )}

x i 2 Beta ( 1 2 , p 1 2 ) and x i + 1 2 Beta ( p 1 2 , p 1 2 ) {\displaystyle {\begin{aligned}x_{i}^{2}&\sim {\text{Beta}}{\bigl (}{\frac {1}{2}},{\frac {p-1}{2}}{\bigr )}&&{\text{and}}&{\frac {x_{i}+1}{2}}&\sim {\text{Beta}}{\bigl (}{\frac {p-1}{2}},{\frac {p-1}{2}}{\bigr )}\end{aligned}}}

где формула удвоения Лежандра полезна для понимания взаимосвязей между константами нормализации различных плотностей, указанных выше.

Обратите внимание, что компоненты не являются независимыми, поэтому равномерная плотность не является произведением предельных плотностей и не может быть собрана путем независимой выборки компонентов. x S p 1 {\displaystyle \mathbf {x} \in S^{p-1}} x {\displaystyle \mathbf {x} }

Распределение скалярных произведений

В машинном обучении , особенно в классификации изображений , классифицируемые входные данные (например, изображения) часто сравниваются с использованием косинусного сходства , которое является скалярным произведением между промежуточными представлениями в форме единичных векторов (называемых вложениями ). Размерность обычно высока, по крайней мере, несколько сотен. Глубокие нейронные сети , которые извлекают вложения для классификации, должны научиться распределять классы как можно дальше друг от друга, и в идеале это должно давать классы, которые равномерно распределены по . [14] Для лучшего статистического понимания межклассового косинусного сходства может быть полезным распределение скалярных произведений между единичными векторами, независимо выбранными из равномерного распределения. p {\displaystyle p} S p 1 {\displaystyle S^{p-1}}


Пусть будут единичными векторами в , независимо выбранными из равномерного распределения. Определим: x , y S p 1 {\displaystyle \mathbf {x} ,\mathbf {y} \in S^{p-1}} R p {\displaystyle \mathbb {R} ^{p}}

t = x y [ 1 , 1 ] , r = t + 1 2 [ 0 , 1 ] , s = logit ( r ) = log 1 + t 1 t R {\displaystyle {\begin{aligned}t&=\mathbf {x} '\mathbf {y} \in [-1,1],&r&={\frac {t+1}{2}}\in [0,1],&s&={\text{logit}}(r)=\log {\frac {1+t}{1-t}}\in \mathbb {R} \end{aligned}}}

где — скалярное произведение, а — его преобразованные версии. Тогда распределение для совпадает с распределением маргинальных компонентов , приведенным выше ; [13] распределение для — симметричная бета, а распределение для — симметричная логистическая бета : t {\displaystyle t} r , s {\displaystyle r,s} t {\displaystyle t} r {\displaystyle r} s {\displaystyle s}

r Beta ( p 1 2 , p 1 2 ) , s B σ ( p 1 2 , p 1 2 ) {\displaystyle {\begin{aligned}r&\sim {\text{Beta}}{\bigl (}{\frac {p-1}{2}},{\frac {p-1}{2}}{\bigr )},&s&\sim B_{\sigma }{\bigl (}{\frac {p-1}{2}},{\frac {p-1}{2}}{\bigr )}\end{aligned}}}

Средние значения и дисперсии:

E [ t ] = 0 , E [ r ] = 1 2 , E [ s ] = 0 , {\displaystyle {\begin{aligned}E[t]&=0,&E[r]&={\frac {1}{2}},&E[s]&=0,\end{aligned}}}

и

var [ t ] = 1 p , var [ r ] = 1 4 p , var [ s ] = 2 ψ ( p 1 2 ) 4 p 1 {\displaystyle {\begin{aligned}{\text{var}}[t]&={\frac {1}{p}},&{\text{var}}[r]&={\frac {1}{4p}},&{\text{var}}[s]&=2\psi '{\bigl (}{\frac {p-1}{2}}{\bigr )}\approx {\frac {4}{p-1}}\end{aligned}}}

где — первая полигамма-функция . Дисперсии уменьшаются, распределения всех трех переменных становятся более гауссовыми, а окончательное приближение улучшается по мере увеличения размерности, . ψ = ψ ( 1 ) {\displaystyle \psi '=\psi ^{(1)}} p {\displaystyle p}

Обобщения

Матрица фон Мизеса-Фишера

Матричное распределение фон Мизеса-Фишера (также известное как матричное распределение Ланжевена [15] [16] ) имеет плотность

f n , p ( X ; F ) exp ( tr ( F T X ) ) {\displaystyle f_{n,p}(\mathbf {X} ;\mathbf {F} )\propto \exp(\operatorname {tr} (\mathbf {F} ^{\mathsf {T}}\mathbf {X} ))}

поддерживаемый на многообразии Штифеля ортонормированных p-фреймов , где — произвольная вещественная матрица. [17] [18 ] n × p {\displaystyle n\times p} X {\displaystyle \mathbf {X} } F {\displaystyle \mathbf {F} } n × p {\displaystyle n\times p}

Распределения пил

Ульрих [5] при разработке алгоритма выборки из распределения VMF использует семейство распределений, названное в честь Джона Г. Со и исследованное им. [19] Распределение Со представляет собой распределение на -сфере , с модальным вектором и концентрацией , и функция плотности которого имеет вид: ( p 1 ) {\displaystyle (p-1)} S p 1 {\displaystyle S^{p-1}} μ S p 1 {\displaystyle {\boldsymbol {\mu }}\in S^{p-1}} κ 0 {\displaystyle \kappa \geq 0}

f Saw ( x ; μ , κ ) = g ( κ x μ ) K p ( κ ) {\displaystyle f_{\text{Saw}}(\mathbf {x} ;{\boldsymbol {\mu }},\kappa )={\frac {g(\kappa \mathbf {x} '{\boldsymbol {\mu }})}{K_{p}(\kappa )}}}

где - неотрицательная, возрастающая функция; и где - константа нормировки. Вышеупомянутое радиально-тангенциальное разложение обобщается на семейство Saw и радиальный компонент, имеет плотность: g {\displaystyle g} K P ( κ ) {\displaystyle K_{P}(\kappa )} t = x μ {\displaystyle t=\mathbf {x} '{\boldsymbol {\mu }}}

f Saw-radial ( t ; κ ) = 2 π p / 2 Γ ( p / 2 ) g ( κ t ) ( 1 t 2 ) ( p 3 ) / 2 B ( 1 2 , p 1 2 ) K p ( κ ) . {\displaystyle f_{\text{Saw-radial}}(t;\kappa )={\frac {2\pi ^{p/2}}{\Gamma (p/2)}}{\frac {g(\kappa t)(1-t^{2})^{(p-3)/2}}{B{\bigl (}{\frac {1}{2}},{\frac {p-1}{2}}{\bigr )}K_{p}(\kappa )}}.}

где — бета-функция. Также обратите внимание, что левый множитель радиальной плотности — это площадь поверхности . B {\displaystyle B} S p 1 {\displaystyle S^{p-1}}

Установив , можно восстановить распределение VMF. g ( κ x μ ) = e κ x μ {\displaystyle g(\kappa \mathbf {x} '{\boldsymbol {\mu }})=e^{\kappa \mathbf {x} '{\boldsymbol {\mu }}}}

Взвешенное распределение Радемахера

Определение распределения Мизеса-Фишера можно расширить, включив также случай, когда , так что носитель представляет собой 0-мерную гиперсферу, которая при встраивании в 1-мерное евклидово пространство является дискретным множеством, . Среднее направление равно , а концентрация равна . Функция массы вероятности для равна: p = 1 {\displaystyle p=1} { 1 , 1 } {\displaystyle \{-1,1\}} μ { 1 , 1 } {\displaystyle \mu \in \{-1,1\}} κ 0 {\displaystyle \kappa \geq 0} x { 1 , 1 } {\displaystyle x\in \{-1,1\}}

f 1 ( x μ , κ ) = e κ μ x e κ + e κ = σ ( 2 κ μ x ) {\displaystyle f_{1}(x\mid \mu ,\kappa )={\frac {e^{\kappa \mu x}}{e^{-\kappa }+e^{\kappa }}}=\sigma (2\kappa \mu x)}

где — логистический сигмоид . Ожидаемое значение равно . В однородном случае при это распределение вырождается в распределение Радемахера . σ ( z ) = 1 / ( 1 + e z ) {\displaystyle \sigma (z)=1/(1+e^{-z})} μ tanh ( κ ) {\displaystyle \mu \,{\text{tanh}}(\kappa )} κ = 0 {\displaystyle \kappa =0}

Смотрите также

Ссылки

  1. ^ Фишер, РА (1953). «Дисперсия на сфере». Proc. R. Soc. Lond. A. 217 ( 1130): 295– 305. Bibcode :1953RSPSA.217..295F. doi :10.1098/rspa.1953.0064. S2CID  123166853.
  2. ^ Уотсон, GS (1980). «Распределения на окружности и на сфере». J. Appl. Probab . 19 : 265– 280. doi :10.2307/3213566. JSTOR  3213566. S2CID  222325569.
  3. ^ abcd Мардия, Канти ; Юпп, ЧП (1999). Направленная статистика . ISBN компании John Wiley & Sons Ltd. 978-0-471-95333-3.
  4. ^ Эмблтон, NI Фишер, T. Льюис, BJJ (1993). Статистический анализ сферических данных (1-е изд.). Кембридж: Cambridge University Press. С. 115–116. ISBN 0-521-45699-1.{{cite book}}: CS1 maint: multiple names: authors list (link)
  5. ^ ab Ulrich, Gary (1984). «Компьютерная генерация распределений на m-сфере». Прикладная статистика . 33 (2): 158– 163. doi :10.2307/2347441. JSTOR  2347441.
  6. ^ Вуд, Эндрю Т. (1994). «Моделирование распределения Мизеса-Фишера». Communications in Statistics - Simulation and Computation . 23 (1): 157– 164. doi :10.1080/03610919408813161.
  7. ^ Хорник, Курт; Грюн, Беттина (2014). "movMF: Пакет R для подгонки смесей распределений фон Мизеса-Фишера". Журнал статистического программного обеспечения . 58 (10). doi : 10.18637/jss.v058.i10 . S2CID  13171102.
  8. ^ ab Pinzón, Carlos; Jung, Kangsoo (2023-03-03), Быстрый сэмплер Python для распределения фон Мизеса-Фишера , получено 2023-03-30
  9. ^ Де Као, Никола; Азиз, Вилкер (13 февраля 2023 г.). «Сферическое распределение мощности». arXiv : 2006.04437 [stat.ML].
  10. ^ Pakyuz-Charrier, Evren; Lindsay, Mark; Ogarko, Vitaliy; Giraud, Jeremie; Jessell, Mark (2018-04-06). «Моделирование Монте-Карло для оценки неопределенности структурных данных в неявном трехмерном геологическом моделировании, руководство по выбору и параметризации распределения возмущений». Solid Earth . 9 (2): 385– 402. Bibcode :2018SolE....9..385P. doi : 10.5194/se-9-385-2018 . ISSN  1869-9510.
  11. ^ A., Wood, Andrew T. (1992). Моделирование распределения Мизеса-Фишера. Центр математики и ее приложений, Австралийский национальный университет. OCLC  221030477.{{cite book}}: CS1 maint: multiple names: authors list (link)
  12. ^ Госманн, Дж.; Элиасмит, К. (2016). «Оптимизация представлений семантических указателей для обработки символов в импульсных нейронных сетях». PLOS ONE . 11 (2): e0149928. Bibcode : 2016PLoSO..1149928G. doi : 10.1371/journal.pone.0149928 . PMC 4762696. PMID  26900931 . 
  13. ^ ab Voelker, Aaron R.; Gosmann, Jan; Stewart, Terrence C. «Эффективная выборка векторов и координат из n-сферы и n-шара» (PDF) . Centre for Theoretical Neuroscience – Technical Report, 2017 . Получено 22 апреля 2023 г. .
  14. ^ Ван, Тунчжоу; Изола, Филлип (2020). «Понимание контрастного представления обучения через выравнивание и однородность на гиперсфере». Международная конференция по машинному обучению (ICML) . arXiv : 2005.10242 .
  15. ^ Пал, Субхадип; Сенгупта, Субхаджит; Митра, Ритен; Банерджи, Арунава (2020). «Сопряженные априорные распределения и апостериорный вывод для матричного распределения Ланжевена на многообразии Штифеля». Байесовский анализ . 15 (3): 871– 908. doi : 10.1214/19-BA1176 . ISSN  1936-0975.
  16. ^ Чикусе, Ясуко (1 мая 2003 г.). «Концентрированные матричные распределения Ланжевена». Журнал многомерного анализа . 85 (2): 375–394 . doi : 10.1016/S0047-259X(02)00065-9 . ISSN  0047-259X.
  17. ^ Jupp (1979). "Оценки максимального правдоподобия для матрицы фон Мизеса-Фишера и распределений Бингама". Анналы статистики . 7 (3): 599– 606. doi : 10.1214/aos/1176344681 .
  18. ^ Даунс (1972). «Ориентационная статистика». Biometrika . 59 (3): 665– 676. doi :10.1093/biomet/59.3.665.
  19. ^ Со, Джон Г. (1978). «Семейство распределений на m-сфере и некоторые проверки гипотез». Biometrika . 65 (`): 69– 73. doi :10.2307/2335278. JSTOR  2335278.

Дальнейшее чтение

  • Диллон, И., Сра, С. (2003) «Моделирование данных с использованием направленных распределений». Технический представитель, Техасский университет, Остин.
  • Банерджи, А., Диллон, И. С., Гош, Дж. и Сра, С. (2005). «Кластеризация на единичной гиперсфере с использованием распределений фон Мизеса-Фишера». Журнал исследований машинного обучения, 6 (сентябрь), 1345-1382.
  • Sra, S. (2011). "Краткая заметка о параметрической аппроксимации распределений фон Мизеса-Фишера: и быстрая реализация I_s(x)". Computational Statistics . 27 : 177– 190. CiteSeerX  10.1.1.186.1887 . doi :10.1007/s00180-011-0232-x. S2CID  3654195.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Von_Mises–Fisher_distribution&oldid=1242459615#Matrix_Von_Mises-Fisher"