Функция плотности вероятности распределения фон Мизеса–Фишера для случайного p -мерного единичного вектора определяется выражением:
где и константа нормировки равна
где обозначает модифицированную функцию Бесселя первого рода при порядке . Если , то константа нормировки уменьшается до
Параметры и называются средним направлением и параметром концентрации соответственно. Чем больше значение , тем выше концентрация распределения вокруг среднего направления . Распределение унимодально для , и равномерно на сфере для .
В учебнике « Направленная статистика » [3] Мардиа и Джаппа константа нормализации, данная для плотности вероятности Мизеса-Фишера, по-видимому, отличается от приведенной здесь: . В этой книге константа нормализации указана как:
где - гамма-функция . Это решается, если отметить, что Мардиа и Юпп дают плотность "относительно равномерного распределения", тогда как плотность здесь указана обычным образом, относительно меры Лебега . Плотность (относительно меры Лебега) равномерного распределения является обратной величиной площади поверхности (p-1)-сферы , так что функция равномерной плотности задается константой:
Из этого следует, что:
Хотя значение для было получено выше через площадь поверхности, тот же результат можно получить, установив в приведенной выше формуле для . Это можно сделать, заметив, что разложение ряда для , деленное на , имеет только один ненулевой член при . (Чтобы оценить этот член, нужно использовать определение .)
Поддерживать
Носителем распределения Мизеса–Фишера является гиперсфера , или , точнее, -сфера , обозначаемая как
Это -мерное многообразие, вложенное в -мерное евклидово пространство .
Распределение Мизеса–Фишера получается путем обусловливания . Разлагая
и используя тот факт, что первые два члена правой стороны фиксированы, плотность Мизеса-Фишера восстанавливается путем пересчета константы нормализации путем интегрирования по единичной сфере. Если , мы получаем равномерное распределение с плотностью .
Более кратко, ограничение любой изотропной многомерной нормальной плотности единичной гиперсферой дает плотность Мизеса-Фишера с точностью до нормализации.
Эту конструкцию можно обобщить, начав с нормального распределения с общей ковариационной матрицей, в этом случае обусловливание дает распределение Фишера-Бингама .
Более точную инверсию можно получить, повторив метод Ньютона несколько раз.
Стандартная ошибка
Для N ≥ 25 предполагаемая сферическая стандартная ошибка выборочного среднего направления может быть вычислена как: [4]
где
Тогда можно аппроксимировать сферический доверительный интервал ( доверительный конус ) с полувертикальным углом:
где
Например, для конуса уверенности 95%, и, таким образом,
Ожидаемое значение
Ожидаемое значение распределения Мизеса–Фишера не находится на единичной гиперсфере, но вместо этого имеет длину меньше единицы. Эта длина задается как определено выше. Для распределения Мизеса–Фишера со средним направлением и концентрацией ожидаемое значение равно:
.
Для , ожидаемое значение находится в начале координат. Для конечного , длина ожидаемого значения строго между нулем и единицей и является монотонно возрастающей функцией .
Эмпирическое среднее ( арифметическое среднее ) набора точек на единичной гиперсфере ведет себя аналогичным образом, находясь близко к началу координат для широко распространенных данных и близко к сфере для концентрированных данных. Действительно, для распределения Мизеса–Фишера ожидаемое значение оценки максимального правдоподобия, основанной на наборе точек, равно эмпирическому среднему этих точек.
где угловые скобки обозначают ожидание. Обратите внимание, что энтропия является функцией только.
Расхождение KL между и равно:
Трансформация
Распределения Мизеса-Фишера (VMF) замкнуты относительно ортогональных линейных преобразований. Пусть будет матрицей ортогональности . Пусть и применим обратимое линейное преобразование: . Обратное преобразование равно , поскольку обратная ортогональной матрица является ее транспонированной : . Якобиан преобразования равен , для которого абсолютное значение его определителя равно 1, также из-за ортогональности. Используя эти факты и форму плотности VMF, следует, что:
Можно проверить, что поскольку и являются единичными векторами, то по ортогональности также являются и .
Генерация псевдослучайных чисел
Общий случай
Алгоритм для получения псевдослучайных выборок из распределения Мизеса Фишера (VMF) был предложен Ульрихом [5] и позднее исправлен Вудом. [6] Реализация на языке R дана Хорником и Грюном; [7] а быстрая реализация на Python описана Пинзоном и Юнгом. [8]
Для моделирования из распределения VMF на -мерной единичной сфере , со средним направлением , эти алгоритмы используют следующее радиально-тангенциальное разложение для точки :
где живет в тангенциальной -мерной единичной подсфере, которая центрирована в и перпендикулярна ; в то время как . Чтобы извлечь выборку из VMF с параметрами и , необходимо извлечь из равномерного распределения на тангенциальной подсфере; а радиальная составляющая, , должна быть извлечена независимо из распределения с плотностью:
где . Нормировочную константу для этой плотности можно проверить, используя:
как указано в Приложении 1 (A.3) в Направленной статистике . [3] Рисование выборок из этой плотности с использованием алгоритма выборки с отклонением объясняется в приведенных выше ссылках. Чтобы нарисовать равномерные выборки перпендикулярно , см. алгоритм в [8] или в противном случае можно использовать преобразование Хаусхолдера , как описано в Алгоритме 1 в [9]
3-D сфера
Чтобы сгенерировать распределенный по Мизесу–Фишеру псевдослучайный сферический трехмерный единичный вектор [10] [11] на сфере для заданных и , определим
где - полярный угол, азимутальный угол и расстояние до центра сферы
для псевдослучайного триплета тогда задается выражением
где выбирается из стандартного непрерывного равномерного распределения
здесь следует установить значение when и повернуть для соответствия любому другому желаемому значению .
Распределение полярного угла
Для , угол θ между и удовлетворяет . Он имеет распределение
,
что можно легко оценить как
.
Для общего случая распределение для косинуса этого угла:
определяется как , как объяснено выше.
Равномерное распределение гиперсфер
При , распределение Мизеса–Фишера на упрощается до равномерного распределения на . Плотность постоянна со значением . Псевдослучайные выборки могут быть получены путем генерации выборок в из стандартного многомерного нормального распределения с последующей нормализацией до единичной нормы.
Компонент маргинал равномерного распределения
Для пусть будет любой компонентой . Маргинальное распределение для имеет плотность: [12] [13]
где формула удвоения Лежандра полезна для понимания взаимосвязей между константами нормализации различных плотностей, указанных выше.
Обратите внимание, что компоненты не являются независимыми, поэтому равномерная плотность не является произведением предельных плотностей и не может быть собрана путем независимой выборки компонентов.
Распределение скалярных произведений
В машинном обучении , особенно в классификации изображений , классифицируемые входные данные (например, изображения) часто сравниваются с использованием косинусного сходства , которое является скалярным произведением между промежуточными представлениями в форме единичных векторов (называемых вложениями ). Размерность обычно высока, по крайней мере, несколько сотен. Глубокие нейронные сети , которые извлекают вложения для классификации, должны научиться распределять классы как можно дальше друг от друга, и в идеале это должно давать классы, которые равномерно распределены по . [14] Для лучшего статистического понимания межклассового косинусного сходства может быть полезным распределение скалярных произведений между единичными векторами, независимо выбранными из равномерного распределения.
Пусть будут единичными векторами в , независимо выбранными из равномерного распределения. Определим:
где — скалярное произведение, а — его преобразованные версии. Тогда распределение для совпадает с распределением маргинальных компонентов , приведенным выше ; [13] распределение для — симметричная бета, а распределение для — симметричная логистическая бета :
Средние значения и дисперсии:
и
где — первая полигамма-функция . Дисперсии уменьшаются, распределения всех трех переменных становятся более гауссовыми, а окончательное приближение улучшается по мере увеличения размерности, .
Обобщения
Матрица фон Мизеса-Фишера
Матричное распределение фон Мизеса-Фишера (также известное как матричное распределение Ланжевена [15] [16] ) имеет плотность
поддерживаемый на многообразии Штифеля ортонормированных p-фреймов , где — произвольная вещественная матрица. [17] [18 ]
Распределения пил
Ульрих [5] при разработке алгоритма выборки из распределения VMF использует семейство распределений, названное в честь Джона Г. Со и исследованное им. [19] Распределение Со представляет собой распределение на -сфере , с модальным вектором и концентрацией , и функция плотности которого имеет вид:
где - неотрицательная, возрастающая функция; и где - константа нормировки. Вышеупомянутое радиально-тангенциальное разложение обобщается на семейство Saw и радиальный компонент, имеет плотность:
где — бета-функция. Также обратите внимание, что левый множитель радиальной плотности — это площадь поверхности .
Установив , можно восстановить распределение VMF.
Взвешенное распределение Радемахера
Определение распределения Мизеса-Фишера можно расширить, включив также случай, когда , так что носитель представляет собой 0-мерную гиперсферу, которая при встраивании в 1-мерное евклидово пространство является дискретным множеством, . Среднее направление равно , а концентрация равна . Функция массы вероятности для равна:
^ Фишер, РА (1953). «Дисперсия на сфере». Proc. R. Soc. Lond. A. 217 ( 1130): 295–305. Bibcode :1953RSPSA.217..295F. doi :10.1098/rspa.1953.0064. S2CID 123166853.
^ Уотсон, GS (1980). «Распределения на окружности и на сфере». J. Appl. Probab . 19 : 265–280. doi :10.2307/3213566. JSTOR 3213566. S2CID 222325569.
^ Эмблтон, NI Фишер, T. Льюис, BJJ (1993). Статистический анализ сферических данных (1-е изд.). Кембридж: Cambridge University Press. С. 115–116. ISBN0-521-45699-1.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ ab Ulrich, Gary (1984). «Компьютерная генерация распределений на m-сфере». Прикладная статистика . 33 (2): 158–163. doi :10.2307/2347441. JSTOR 2347441.
^ Вуд, Эндрю Т (1994). «Моделирование распределения Мизеса-Фишера». Communications in Statistics - Simulation and Computation . 23 (1): 157–164. doi :10.1080/03610919408813161.
^ Хорник, Курт; Грюн, Беттина (2014). "movMF: Пакет R для подгонки смесей распределений фон Мизеса-Фишера". Журнал статистического программного обеспечения . 58 (10). doi : 10.18637/jss.v058.i10 . S2CID 13171102.
^ ab Pinzón, Carlos; Jung, Kangsoo (2023-03-03), Быстрый сэмплер Python для распределения фон Мизеса-Фишера , получено 2023-03-30
^ Де Као, Никола; Азиз, Вилкер (13 февраля 2023 г.). «Сферическое распределение мощности». arXiv : 2006.04437 [stat.ML].
^ Pakyuz-Charrier, Evren; Lindsay, Mark; Ogarko, Vitaliy; Giraud, Jeremie; Jessell, Mark (2018-04-06). «Моделирование Монте-Карло для оценки неопределенности структурных данных в неявном трехмерном геологическом моделировании, руководство по выбору и параметризации распределения возмущений». Solid Earth . 9 (2): 385–402. Bibcode :2018SolE....9..385P. doi : 10.5194/se-9-385-2018 . ISSN 1869-9510.
^ A., Wood, Andrew T. (1992). Моделирование распределения Мизеса-Фишера. Центр математики и ее приложений, Австралийский национальный университет. OCLC 221030477.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Госманн, Дж.; Элиасмит, К. (2016). «Оптимизация представлений семантических указателей для обработки символов в импульсных нейронных сетях». PLOS ONE . 11 (2): e0149928. Bibcode : 2016PLoSO..1149928G. doi : 10.1371/journal.pone.0149928 . PMC 4762696. PMID 26900931 .
^ ab Voelker, Aaron R.; Gosmann, Jan; Stewart, Terrence C. «Эффективная выборка векторов и координат из n-сферы и n-шара» (PDF) . Centre for Theoretical Neuroscience – Technical Report, 2017 . Получено 22 апреля 2023 г. .
^ Ван, Тунчжоу; Изола, Филлип (2020). «Понимание контрастного представления обучения через выравнивание и однородность на гиперсфере». Международная конференция по машинному обучению (ICML) . arXiv : 2005.10242 .
^ Пал, Субхадип; Сенгупта, Субхаджит; Митра, Ритен; Банерджи, Арунава (2020). «Сопряженные априорные распределения и апостериорный вывод для матричного распределения Ланжевена на многообразии Штифеля». Байесовский анализ . 15 (3): 871–908. doi : 10.1214/19-BA1176 . ISSN 1936-0975.
^ Чикусе, Ясуко (1 мая 2003 г.). «Концентрированные матричные распределения Ланжевена». Журнал многомерного анализа . 85 (2): 375–394. doi : 10.1016/S0047-259X(02)00065-9 . ISSN 0047-259X.
^ Jupp (1979). "Оценки максимального правдоподобия для матрицы фон Мизеса-Фишера и распределений Бингама". Анналы статистики . 7 (3): 599–606. doi : 10.1214/aos/1176344681 .
^ Со, Джон Г. (1978). «Семейство распределений на m-сфере и некоторые проверки гипотез». Biometrika . 65 (`): 69–73. doi :10.2307/2335278. JSTOR 2335278.
Дальнейшее чтение
Диллон, И., Сра, С. (2003) «Моделирование данных с использованием направленных распределений». Технический представитель, Техасский университет, Остин.
Банерджи, А., Диллон, И. С., Гош, Дж. и Сра, С. (2005). «Кластеризация на единичной гиперсфере с использованием распределений фон Мизеса-Фишера». Журнал исследований машинного обучения, 6 (сентябрь), 1345-1382.
Sra, S. (2011). «Краткая заметка о параметрической аппроксимации распределений фон Мизеса-Фишера: и быстрая реализация I_s(x)». Computational Statistics . 27 : 177–190. CiteSeerX 10.1.1.186.1887 . doi :10.1007/s00180-011-0232-x. S2CID 3654195.