Геометрическое размещение на основе идеальных расстояний
Мажорирование стресса — это стратегия оптимизации, используемая в многомерном шкалировании (MDS), где для набора -мерных элементов данных ищется конфигурация точек в -мерном пространстве, которая минимизирует так называемую функцию стресса . Обычно это или , т. е. матрица перечисляет точки в или -мерном евклидовом пространстве, так что результат может быть визуализирован (т. е. график MDS ). Функция представляет собой функцию стоимости или потерь , которая измеряет квадраты разностей между идеальными ( -мерными) расстояниями и фактическими расстояниями в r -мерном пространстве. Она определяется как:
где — вес для измерения между парой точек , — евклидово расстояние между и и — идеальное расстояние между точками (их разделение) в -мерном пространстве данных. Обратите внимание, что можно использовать для указания степени уверенности в сходстве между точками (например, можно указать 0, если для конкретной пары нет информации).
Конфигурация , которая минимизирует, дает график, на котором точки, расположенные близко друг к другу, соответствуют точкам, которые также расположены близко друг к другу в исходном -мерном пространстве данных.
Существует много способов минимизации. Например, Крускаль [1] рекомендовал итеративный подход наискорейшего спуска . Однако значительно лучший (с точки зрения гарантий и скорости сходимости) метод минимизации напряжения был предложен Яном де Леу . [2] Итеративный метод мажорирования Де Леу на каждом шаге минимизирует простую выпуклую функцию, которая одновременно ограничивает сверху и касается поверхности в точке , называемой опорной точкой . В выпуклом анализе такая функция называется мажорирующей функцией. Этот итеративный процесс мажорирования также называется алгоритмом SMACOF («Scaling by MAjorizing a COmplicated Function»).
Алгоритм SMACOF
Функцию напряжения можно разложить следующим образом:
Обратите внимание, что первый член является константой , а второй член является квадратичным по (т.е. для матрицы Гессе второй член эквивалентен tr ) и поэтому относительно легко решается. Третий член ограничен:
где есть:
для
и для
и .
Доказательство этого неравенства основано на неравенстве Коши-Шварца , см. Борг [3] (стр. 152–153).
Таким образом, мы имеем простую квадратичную функцию , которая мажорирует напряжение:
Тогда итерационная процедура минимизации выглядит следующим образом:
на шаге, который мы установили
остановитесь, в противном случае повторите.
Было показано, что этот алгоритм монотонно снижает стресс (см. de Leeuw [2] ).
Использование при построении графиков
Мажорирование напряжения и алгоритмы, подобные SMACOF, также применяются в области рисования графов . [4] [5] То есть, можно найти достаточно эстетически привлекательную компоновку для сети или графа, минимизируя функцию напряжения по позициям узлов в графе. В этом случае обычно устанавливаются на теоретические расстояния между узлами и , а веса принимаются равными . Здесь выбирается как компромисс между сохранением идеальных расстояний на больших или малых расстояниях. Хорошие результаты были показаны для . [6]
Ссылки
^ Kruskal, JB (1964), «Многомерное шкалирование путем оптимизации качества соответствия неметрической гипотезе», Psychometrika , 29 (1): 1– 27, doi :10.1007/BF02289565.
^ ab de Leeuw, J. (1977), «Применение выпуклого анализа к многомерному шкалированию», в Barra, JR; Brodeau, F.; Romie, G.; et al. (ред.), Последние разработки в статистике , стр. 133–145.
^ Борг, И.; Гроенен, П. (1997), Современное многомерное шкалирование: теория и приложения , Нью-Йорк: Springer-Verlag.
^ Michailidis, G.; de Leeuw, J. (2001), «Визуализация данных с помощью графического рисунка», Computation Stat. , 16 (3): 435–450 , CiteSeerX 10.1.1.28.9372 , doi :10.1007/s001800100077.
^ Коэн, Дж. (1997), «Рисование графиков для передачи близости: метод инкрементального расположения», ACM Transactions on Computer-Human Interaction , 4 (3): 197–229 , doi :10.1145/264645.264657.