Многомерное масштабирование

Набор взаимосвязанных методов ординации, используемых при визуализации информации

Пример классического многомерного шкалирования, примененного к моделям голосования в Палате представителей США . Каждая синяя точка представляет одного демократа-члена Палаты представителей, а каждая красная точка — одного республиканца.

Многомерное шкалирование ( MDS ) — это средство визуализации уровня сходства отдельных случаев набора данных. MDS используется для перевода расстояний между каждой парой объектов в наборе в конфигурацию точек, отображенных в абстрактном декартовом пространстве . ^[1] ${\textstyle n}$ ${\textstyle n}$

Более технически, MDS относится к набору связанных методов ординации , используемых в визуализации информации , в частности, для отображения информации, содержащейся в матрице расстояний . Это форма нелинейного снижения размерности .

При наличии матрицы расстояний с расстояниями между каждой парой объектов в наборе и выбранного числа измерений N алгоритм MDS помещает каждый объект в N - мерное пространство (представление с меньшей размерностью) таким образом, чтобы расстояния между объектами сохранялись как можно лучше. Для N = 1, 2 и 3 полученные точки можно визуализировать на диаграмме рассеяния . ^[2]

Основной теоретический вклад в MDS внес Джеймс О. Рэмси из Университета Макгилла , которого также считают основателем функционального анализа данных . ^[3]

Типы

Алгоритмы MDS делятся на таксономию в зависимости от значения входной матрицы:

Классическое многомерное шкалирование

Он также известен как анализ главных координат (PCoA), масштабирование Торгерсона или масштабирование Торгерсона–Гауэра. Он берет входную матрицу, дающую различия между парами элементов, и выводит координатную матрицу, конфигурация которой минимизирует функцию потерь, называемую strain , ^[2] , которая задается как , где обозначают векторы в N -мерном пространстве, обозначает скалярное произведение между и , и являются элементами матрицы, определенной на шаге 2 следующего алгоритма, которые вычисляются из расстояний. ${\text{Strain}}_{D}(x_{1},x_{2},...,x_{n})={\Biggl (}{\frac {\sum _{i,j}{\bigl (}b_{ij}-x_{i}^{T}x_{j}{\bigr )}^{2}}{\sum _{i,j}b_{ij}^{2}}}{\Biggr )}^{1/2},$ $x_{i}$ $x_{i}^{T}x_{j}$ $x_{i}$ $x_{j}$ $b_{ij}$ $B$

Этапы классического алгоритма MDS:

Классический MDS использует тот факт, что матрица координат может быть получена путем разложения собственных значений из . И матрица может быть вычислена из матрицы близости с использованием двойного центрирования. ^[4]

X

{\textstyle B=XX'}

{\textstyle B}

{\textstyle D}

Настройте квадратную матрицу близости ${\textstyle D^{(2)}=[d_{ij}^{2}]}$
Применить двойное центрирование: использовать матрицу центрирования , где — количество объектов, — единичная матрица, а — матрица всех единиц. ${\textstyle B=-{\frac {1}{2}}CD^{(2)}C}$ ${\textstyle C=I-{\frac {1}{n}}J_{n}}$ ${\textstyle n}$ ${\textstyle I}$ ${\textstyle n\times n}$ ${\textstyle J_{n}}$ ${\textstyle n\times n}$
Определите наибольшие собственные значения и соответствующие им собственные векторы (где — число измерений, требуемых для вывода). ${\textstyle m}$ ${\textstyle \lambda _{1},\lambda _{2},...,\lambda _{m}}$ ${\textstyle e_{1},e_{2},...,e_{m}}$ ${\textstyle B}$ ${\textstyle m}$
Теперь, , где — матрица собственных векторов, а — диагональная матрица собственных значений . ${\textstyle X=E_{m}\Lambda _{m}^{1/2}}$ ${\textstyle E_{m}}$ ${\textstyle m}$ ${\textstyle \Lambda _{m}}$ ${\textstyle m}$ ${\textstyle B}$

Классический MDS предполагает метрические расстояния. Поэтому это не применимо для оценок прямого различия.

Метрическое многомерное шкалирование (mMDS)

Это надмножество классического MDS, которое обобщает процедуру оптимизации на множество функций потерь и входных матриц известных расстояний с весами и т. д. Полезная функция потерь в этом контексте называется стрессом , который часто минимизируется с помощью процедуры, называемой мажорированием стресса . Метрический MDS минимизирует функцию стоимости, называемую «стресс», которая является остаточной суммой квадратов:

${\text{Stress}}_{D}(x_{1},x_{2},...,x_{n})={\sqrt {\sum _{i\neq j=1,...,n}{\bigl (}d_{ij}-\|x_{i}-x_{j}\|{\bigr )}^{2}}}.$

Метрическое масштабирование использует степенное преобразование с контролируемой пользователем экспонентой : и для расстояния. В классическом масштабировании неметрическое масштабирование определяется использованием изотонической регрессии для непараметрической оценки преобразования различий. ${\textstyle p}$ ${\textstyle d_{ij}^{p}}$ ${\textstyle -d_{ij}^{2p}}$ ${\textstyle p=1.}$

Неметрическое многомерное шкалирование (NMDS)

В отличие от метрического MDS, неметрический MDS находит как непараметрическую монотонную связь между различиями в матрице элемент-элемент и евклидовыми расстояниями между элементами, так и местоположение каждого элемента в низкоразмерном пространстве.

Пусть будет различием между точками . Пусть будет евклидовым расстоянием между вложенными точками . $d_{ij}$ $i,j$ ${\hat {d}}_{ij}=\|x_{i}-x_{j}\|$ $x_{i},x_{j}$

Теперь для каждого выбора вложенных точек , где функция монотонно возрастает , определим функцию «напряжения»: $x_{i}$ $f$

$S(x_{1},...,x_{n};f)={\sqrt {\frac {\sum _{i<j}{\bigl (}f(d_{ij})-{\hat {d}}_{ij}{\bigr )}^{2}}{\sum _{i<j}{\hat {d}}_{ij}^{2}}}}.$

Фактор в знаменателе необходим для предотвращения "коллапса". Предположим, что мы вместо этого определяем , тогда его можно тривиально минимизировать, установив , а затем свернуть каждую точку в одну и ту же точку. $\sum _{i<j}{\hat {d}}_{ij}^{2}$ $S={\sqrt {\sum _{i<j}{\bigl (}f(d_{ij})-{\hat {d}}_{ij})^{2}}}$ $f=0$

Существует несколько вариантов этой функции стоимости. Программы MDS автоматически минимизируют стресс, чтобы получить решение MDS.

Ядром неметрического алгоритма MDS является процесс двойной оптимизации. Во-первых, необходимо найти оптимальное монотонное преобразование близостей. Во-вторых, точки конфигурации должны быть оптимально расположены, чтобы их расстояния максимально точно соответствовали масштабированным близостям.

NMDS необходимо оптимизировать две цели одновременно. Обычно это делается итеративно:

Инициализация случайным образом, например, путем выборки из нормального распределения. $x_{i}$
Выполнять до критерия остановки (например, ) $S<\epsilon$
1. Решить с помощью изотонической регрессии . $f=\arg \min _{f}S(x_{1},...,x_{n};f)$
2. Решите методом градиентного спуска или другими методами. $x_{1},...,x_{n}=\arg \min _{x_{1},...,x_{n}}S(x_{1},...,x_{n};f)$
Вернуться и $x_{i}$ $f$

Анализ наименьшего пространства (SSA) Луиса Гуттмана является примером неметрической процедуры MDS.

Обобщенное многомерное шкалирование (GMD)

Расширение метрического многомерного масштабирования, в котором целевое пространство — произвольное гладкое неевклидово пространство. В случаях, когда различия — это расстояния на поверхности, а целевое пространство — другая поверхность, GMDS позволяет найти вложение одной поверхности в другую с минимальным искажением. ^[5]

Подробности

Данные для анализа представляют собой набор объектов (цвета, лица, акции, ...), для которых определена функция расстояния , $M$

d_{i,j}:=

расстояние между -м и -м объектами.

i

j

Эти расстояния являются элементами матрицы различий.

D:={\begin{pmatrix}d_{1,1}&d_{1,2}&\cdots &d_{1,M}\\d_{2,1}&d_{2,2}&\cdots &d_{2,M}\\\vdots &\vdots &&\vdots \\d_{M,1}&d_{M,2}&\cdots &d_{M,M}\end{pmatrix}}.

Целью MDS является, учитывая , нахождение векторов, таких что $D$ $M$ $x_{1},\ldots ,x_{M}\in \mathbb {R} ^{N}$

\|x_{i}-x_{j}\|\approx d_{i,j}

для всех ,

i,j\in {1,\dots ,M}

где — векторная норма . В классическом MDS эта норма — евклидово расстояние , но в более широком смысле это может быть метрическая или произвольная функция расстояния. ^[6] Например, при работе с данными смешанного типа, содержащими как числовые, так и категориальные дескрипторы, расстояние Гауэра является распространенной альтернативой. ^[^{требуется цитата}^] $\|\cdot \|$

Другими словами, MDS пытается найти отображение из объектов в , при котором расстояния сохраняются. Если размерность выбрана 2 или 3, мы можем построить векторы , чтобы получить визуализацию сходств между объектами. Обратите внимание, что векторы не являются уникальными: с евклидовым расстоянием их можно произвольно переводить, вращать и отражать, поскольку эти преобразования не изменяют попарные расстояния . $M$ $\mathbb {R} ^{N}$ $N$ $x_{i}$ $M$ $x_{i}$ $\|x_{i}-x_{j}\|$

(Примечание: символ обозначает множество действительных чисел , а обозначение относится к декартову произведению копий , которое представляет собой -мерное векторное пространство над полем действительных чисел.) $\mathbb {R}$ $\mathbb {R} ^{N}$ $N$ $\mathbb {R}$ $N$

Существуют различные подходы к определению векторов . Обычно MDS формулируется как задача оптимизации , где находится как минимизатор некоторой функции стоимости, например, $x_{i}$ $(x_{1},\ldots ,x_{M})$

{\underset {x_{1},\ldots ,x_{M}}{\mathrm {argmin} }}\sum _{i<j}(\|x_{i}-x_{j}\|-d_{i,j})^{2}.\,

Решение может быть найдено с помощью методов численной оптимизации. Для некоторых специально выбранных функций стоимости минимизаторы могут быть сформулированы аналитически в терминах собственных разложений матриц . ^[2]

Процедура

Проведение исследования MDS состоит из нескольких этапов:

Формулировка проблемы – Какие переменные вы хотите сравнить? Сколько переменных вы хотите сравнить? Для какой цели будет использоваться исследование?
Получение входных данных — Например, :- Респондентам задают ряд вопросов. Для каждой пары продуктов их просят оценить сходство (обычно по 7-балльной шкале Лайкерта от очень похожего до очень непохожего). Первый вопрос может быть, например, о Coke/Pepsi, следующий — о Coke/Hires rootbeer, следующий — о Pepsi/Dr Pepper, следующий — о Dr Pepper/Hires rootbeer и т. д. Количество вопросов является функцией количества брендов и может быть рассчитано как, где Q — количество вопросов, а N — количество брендов. Этот подход называется «Данные восприятия: прямой подход». Существует два других подхода. Существует «Данные восприятия: производный подход», в котором продукты разлагаются на атрибуты, которые оцениваются по семантической дифференциальной шкале. Другой — «Подход на основе данных предпочтений», в котором респондентов спрашивают об их предпочтениях, а не о сходстве. $Q=N(N-1)/2$
Запуск статистической программы MDS – Программное обеспечение для запуска процедуры доступно во многих статистических программных пакетах. Часто есть выбор между метрической MDS (которая имеет дело с данными на уровне интервала или отношения) и неметрической MDS ^[7] (которая имеет дело с порядковыми данными).
Определите количество измерений – исследователь должен решить, сколько измерений он хочет, чтобы компьютер создал. Интерпретируемость решения MDS часто важна, и решения с меньшей размерностью, как правило, легче интерпретировать и визуализировать. Однако выбор размерности также является вопросом балансировки недообучения и переобучения. Решения с меньшей размерностью могут недообучать, исключая важные измерения данных о несходстве. Решения с большей размерностью могут переобучать шуму в измерениях несходства. Таким образом, инструменты выбора модели, такие как AIC , BIC , факторы Байеса или перекрестная проверка , могут быть полезны для выбора размерности, которая уравновешивает недообучение и переобучение.
Картирование результатов и определение измерений – статистическая программа (или связанный модуль) будет картировать результаты. Карта будет отображать каждый продукт (обычно в двумерном пространстве). Близость продуктов друг к другу указывает либо на то, насколько они похожи, либо на то, насколько они предпочтительны, в зависимости от того, какой подход использовался. Однако то, как измерения встраивания фактически соответствуют измерениям поведения системы, не обязательно очевидно. Здесь можно сделать субъективное суждение о соответствии (см. перцептивное картирование ).
Проверьте результаты на надежность и валидность – вычислите R-квадрат , чтобы определить, какую долю дисперсии масштабированных данных можно учесть с помощью процедуры MDS. R-квадрат 0,6 считается минимально приемлемым уровнем. ^{[ необходима цитата ]} R-квадрат 0,8 считается хорошим для метрического масштабирования, а 0,9 считается хорошим для неметрического масштабирования. Другие возможные тесты – стресс-тест Краскала, тесты с разделенными данными, тесты на стабильность данных (т. е. исключение одного бренда) и надежность повторного тестирования.
Отчет о результатах должен быть исчерпывающим – Вместе с отображением следует указать, по крайней мере, меру расстояния (например, индекс Соренсона , индекс Жаккара ) и надежность (например, значение напряжения). Также очень желательно указать алгоритм (например, Крускала, Мазера), который часто определяется используемой программой (иногда заменяя отчет об алгоритме), если вы указали начальную конфигурацию или имели случайный выбор, количество запусков, оценку размерности, результаты метода Монте-Карло , количество итераций, оценку устойчивости и пропорциональную дисперсию каждой оси (r-квадрат).

Реализации

ELKI включает две реализации MDS.
MATLAB включает в себя две реализации MDS (для классического ( cmdscale ) и неклассического ( mdscale ) MDS соответственно).
Язык программирования R предлагает несколько реализаций MDS, например, базовую функцию cmdscale , пакеты smacof ^[8] (mMDS и nMDS) и vegan (взвешенный MDS).
scikit-learn содержит функцию sklearn.manifold.MDS.

Смотрите также

Ссылки

^ Mead, A (1992). "Обзор развития методов многомерного шкалирования". Журнал Королевского статистического общества. Серия D (The Statistician) . 41 (1): 27– 39. JSTOR 2348634. Аннотация. Методы многомерного шкалирования в настоящее время являются распространенным статистическим инструментом в психофизике и сенсорном анализе. Развитие этих методов прослеживается на схеме, начиная с оригинального исследования Торгерсона (метрическое шкалирование), Шепарда и Краскала (неметрическое шкалирование) через шкалирование индивидуальных различий и методы максимального правдоподобия, предложенные Рамсеем.
^ abc Borg, I.; Groenen, P. (2005). Современное многомерное шкалирование: теория и приложения (2-е изд.). Нью-Йорк: Springer-Verlag. С. 207–212 . ISBN 978-0-387-94845-4.
^ Дженест, Кристиан; Нешлехова, Йоханна Г.; Рэмси, Джеймс О. (2014). «Разговор с Джеймсом О. Рэмси». Международный статистический обзор / Revue Internationale de Statistique . 82 (2): 161– 183. JSTOR 43299752. Получено 30 июня 2021 г.
^ Викельмайер, Флориан. «Введение в MDS». Исследовательский центр качества звука, Университет Ольборга, Дания (2003): 46
^ Бронштейн AM, Бронштейн MM, Киммел R (январь 2006 г.). «Обобщенное многомерное масштабирование: структура для изометрически-инвариантного частичного сопоставления поверхностей». Proc. Natl. Acad. Sci. USA . 103 (5): 1168– 72. Bibcode :2006PNAS..103.1168B. doi : 10.1073/pnas.0508601103 . PMC 1360551 . PMID 16432211.
^ Kruskal, JB , и Wish, M. (1978), Многомерное шкалирование , серия статей Sage University по количественному применению в социальных науках, 07-011. Беверли-Хиллз и Лондон: Sage Publications.
^ Kruskal, JB (1964). «Многомерное шкалирование путем оптимизации качества соответствия неметрической гипотезе». Psychometrika . 29 (1): 1– 27. doi :10.1007/BF02289565. S2CID 48165675.
^ Leeuw, Jan de; Mair, Patrick (2009). «Многомерное шкалирование с использованием мажорирования: SMACOF в R». Журнал статистического программного обеспечения . 31 (3). doi : 10.18637/jss.v031.i03 . ISSN 1548-7660.

Библиография

Кокс, ТФ; Кокс, МАА (2001). Многомерное шкалирование . Чепмен и Холл.
Коксон, Энтони П. М. (1982). Руководство пользователя по многомерному шкалированию. С особой ссылкой на библиотеку компьютерных программ MDS(X) . Лондон: Heinemann Educational Books.
Грин, П. (январь 1975 г.). «Маркетинговые приложения MDS: оценка и перспективы». Журнал маркетинга . 39 (1): 24– 31. doi :10.2307/1250799. JSTOR 1250799.
МакКьюн, Б. и Грейс, Дж. Б. (2002). Анализ экологических сообществ . Орегон, Гленеден-Бич: MjM Software Design. ISBN 978-0-9721290-0-8.
Янг, Форрест В. (1987). Многомерное шкалирование: история, теория и приложения . Lawrence Erlbaum Associates. ISBN 978-0898596632.
Торгерсон, Уоррен С. (1958). Теория и методы масштабирования . Нью-Йорк: Wiley. ISBN 978-0-89874-722-5.

[MS_history-1] Mead, A (1992). "Обзор развития методов многомерного шкалирования". Журнал Королевского статистического общества. Серия D (The Statistician) . 41 (1): 27– 39. JSTOR 2348634. Аннотация. Методы многомерного шкалирования в настоящее время являются распространенным статистическим инструментом в психофизике и сенсорном анализе. Развитие этих методов прослеживается на схеме, начиная с оригинального исследования Торгерсона (метрическое шкалирование), Шепарда и Краскала (неметрическое шкалирование) через шкалирование индивидуальных различий и методы максимального правдоподобия, предложенные Рамсеем.

[borg-2] Borg, I.; Groenen, P. (2005). Современное многомерное шкалирование: теория и приложения (2-е изд.). Нью-Йорк: Springer-Verlag. С. 207–212 . ISBN 978-0-387-94845-4.

[jsto_ACon-3] Дженест, Кристиан; Нешлехова, Йоханна Г.; Рэмси, Джеймс О. (2014). «Разговор с Джеймсом О. Рэмси». Международный статистический обзор / Revue Internationale de Statistique . 82 (2): 161– 183. JSTOR 43299752. Получено 30 июня 2021 г.

[4] Викельмайер, Флориан. «Введение в MDS». Исследовательский центр качества звука, Университет Ольборга, Дания (2003): 46

[bron-5] Бронштейн AM, Бронштейн MM, Киммел R (январь 2006 г.). «Обобщенное многомерное масштабирование: структура для изометрически-инвариантного частичного сопоставления поверхностей». Proc. Natl. Acad. Sci. USA . 103 (5): 1168– 72. Bibcode :2006PNAS..103.1168B. doi : 10.1073/pnas.0508601103 . PMC 1360551 . PMID 16432211.

[Kruskal-6] Kruskal, JB , и Wish, M. (1978), Многомерное шкалирование , серия статей Sage University по количественному применению в социальных науках, 07-011. Беверли-Хиллз и Лондон: Sage Publications.

[7] Kruskal, JB (1964). «Многомерное шкалирование путем оптимизации качества соответствия неметрической гипотезе». Psychometrika . 29 (1): 1– 27. doi :10.1007/BF02289565. S2CID 48165675.

[8] Leeuw, Jan de; Mair, Patrick (2009). «Многомерное шкалирование с использованием мажорирования: SMACOF в R». Журнал статистического программного обеспечения . 31 (3). doi : 10.18637/jss.v031.i03 . ISSN 1548-7660.