Анализ множественных соответствий

Метод анализа данных

В статистике анализ множественных соответствий ( MCA ) — это метод анализа данных для номинальных категориальных данных, используемый для обнаружения и представления базовых структур в наборе данных. Он делает это , представляя данные в виде точек в низкоразмерном евклидовом пространстве . Таким образом, процедура представляется аналогом анализа главных компонент для категориальных данных. [ необходима цитата ] MCA можно рассматривать как расширение простого анализа соответствий (CA), поскольку он применим к большому набору категориальных переменных .

Как расширение анализа соответствий

MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей — CDT), либо к таблице Берта, сформированной из этих переменных. [ требуется ссылка ] Индикаторная матрица — это матрица индивидуумов × переменные, где строки представляют индивидуумов, а столбцы — фиктивные переменные, представляющие категории переменных. [1] Анализ индикаторной матрицы позволяет напрямую представлять индивидуумов как точки в геометрическом пространстве. Таблица Берта — это симметричная матрица всех двухсторонних перекрестных таблиц между категориальными переменными, и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта — это более естественное обобщение простого анализа соответствий , и индивидуумы или средние значения групп индивидуумов могут быть добавлены в качестве дополнительных точек к графическому отображению.

В подходе матрицы индикаторов ассоциации между переменными раскрываются путем вычисления расстояния хи-квадрат между различными категориями переменных и между индивидуумами (или респондентами). Затем эти ассоциации представляются графически в виде «карт», что облегчает интерпретацию структур в данных. Затем оппозиции между строками и столбцами максимизируются, чтобы раскрыть базовые измерения, наилучшим образом способные описать центральные оппозиции в данных. Как и в факторном анализе или анализе главных компонентов , первая ось является наиболее важным измерением, вторая ось — второй по важности и т. д. с точки зрения величины учтенной дисперсии. Количество осей, которые следует сохранить для анализа, определяется путем вычисления модифицированных собственных значений .

Подробности

Поскольку MCA адаптирован для получения статистических выводов из категориальных переменных (например, вопросов с множественным выбором), первое, что необходимо сделать, — это преобразовать количественные данные (такие как возраст, размер, вес, время суток и т. д.) в категории (например, используя статистические квантили).

Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полную дизъюнктивную таблицу. Мы обозначаем эту таблицу . Если люди ответили на опрос с несколькими вариантами ответов по 4 ответа на каждый, будут иметь строки и столбцы. Х {\displaystyle X} я {\displaystyle Я} Дж. {\displaystyle J} Х {\displaystyle X} я {\displaystyle Я} 4 Дж. {\displaystyle 4J}

Более теоретически, [2] предположим, что это полностью дизъюнктная таблица наблюдений категориальных переменных. Предположим также, что -я переменная имеет разные уровни (категории) и зададим . Тогда таблица представляет собой матрицу со всеми коэффициентами, равными или . Зададим сумму всех записей как и введем . В MCA также есть два специальных вектора: первый , который содержит суммы по строкам , и , который содержит суммы по столбцам . Обратите внимание и , диагональные матрицы, содержащие и соответственно в качестве диагональных. С этими обозначениями вычисление MCA по сути состоит в сингулярном разложении матрицы: Х {\displaystyle X} я {\displaystyle Я} К {\displaystyle К} к {\displaystyle к} Дж. к {\displaystyle J_{k}} Дж. = к = 1 К Дж. к {\displaystyle J=\sum _{k=1}^{K}J_{k}} Х {\displaystyle X} я × Дж. {\displaystyle I\times J} 0 {\displaystyle 0} 1 {\displaystyle 1} Х {\displaystyle X} Н {\displaystyle N} З = Х / Н {\displaystyle Z=X/N} г {\displaystyle r} З {\displaystyle Z} с {\displaystyle с} З {\displaystyle Z} Д г = диаг ( г ) {\displaystyle D_{r}={\text{diag}}(r)} Д с = диаг ( с ) {\displaystyle D_{c}={\text{diag}}(c)} г {\displaystyle r} с {\displaystyle с}

М = Д г 1 / 2 ( З г с Т ) Д с 1 / 2 {\displaystyle M=D_{r}^{-1/2}(Z-rc^{T})D_{c}^{-1/2}}

Разложение дает вам , и такой, что с P, Q две унитарные матрицы и является обобщенной диагональной матрицей сингулярных значений (с той же формой, что и ). Положительные коэффициенты являются собственными значениями . М {\displaystyle М} П {\displaystyle P} Δ {\displaystyle \Дельта} В {\displaystyle Q} М = П Δ В Т {\displaystyle M=P\Delta Q^{T}} Δ {\displaystyle \Дельта} З {\displaystyle Z} Δ 2 {\displaystyle \Дельта ^{2}} З {\displaystyle Z}

Интерес к MCA исходит из способа, которым наблюдения (строки) и переменные (столбцы) могут быть разложены. Это разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются как З {\displaystyle Z}

Ф = Д г 1 / 2 П Δ {\displaystyle F=D_{r}^{-1/2}P\Delta }

-th строки представляют -th наблюдение в факторном пространстве. И аналогично, координаты переменных (в том же факторном пространстве, что и наблюдения!) задаются как я {\displaystyle я} Ф {\displaystyle F} я {\displaystyle я}

Г = Д с 1 / 2 В Δ {\displaystyle G=D_{c}^{-1/2}Q\Delta }

Последние работы и расширения

В последние годы несколько студентов Жана-Поля Бензекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как геометрический анализ данных . Это включает в себя разработку прямых связей между простым анализом соответствий , анализом главных компонент и MCA с формой кластерного анализа, известной как евклидова классификация. [3]

Два расширения имеют большое практическое применение.

  • В качестве активных элементов в MCA можно включить несколько количественных переменных. Это расширение называется факторным анализом смешанных данных (см. ниже).
  • Очень часто в анкетах вопросы структурированы в несколько вопросов. В статистическом анализе необходимо учитывать эту структуру. Это цель многофакторного анализа, который уравновешивает различные вопросы (т. е. различные группы переменных) в рамках глобального анализа и обеспечивает, помимо классических результатов факторного анализа (в основном графики индивидов и категорий), несколько результатов (индикаторов и графиков), специфичных для структуры группы.

Области применения

В социальных науках MCA, возможно, наиболее известен по его применению Пьером Бурдье , [4] в частности, в его книгах La Distinction , Homo Academicus и The State Nobility . Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и относительного —– отраженного в понятии поля , и геометрическими свойствами MCA. [5] Социологи, следующие за работами Бурдье, чаще всего выбирают анализ матрицы индикаторов, а не таблицы Берта, в основном из-за центральной важности, придаваемой анализу «облака индивидов». [6]

Анализ множественных соответствий и анализ главных компонент

MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Пусть обозначает общий член CDT. равен 1, если индивид обладает категорией , и 0, если нет. Пусть обозначает долю индивидов, обладающих категорией . Преобразованный CDT (TCDT) имеет в качестве общего члена: у я к {\displaystyle y_{ik}} у я к {\displaystyle y_{ik}} я {\displaystyle я} к {\displaystyle к} п к {\displaystyle p_{k}} к {\displaystyle к}

     х  я к   =  у  я к    /   п  к    1   {\displaystyle x_{ik}=y_{ik}/p_{k}-1} 

Нестандартизированный PCA, примененный к TCDT, столбец которого имеет вес , приводит к результатам MCA. к {\displaystyle к} п к {\displaystyle p_{k}}

Эта эквивалентность полностью объяснена в книге Жерома Пажеса. [7] Она играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: многофакторный анализ.

Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку он не является частным случаем CA. Это означает лишь, что эти методы тесно связаны друг с другом, поскольку они принадлежат к одному семейству: факториальные методы. [ необходима цитата ]

Программное обеспечение

Существует множество программ анализа данных, включающих MCA, например, STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, описывающей основные методы выполнения MCA. [8] Также существует пакет Python для [1], который работает с матрицами массивов numpy; пакет пока не реализован для Spark dataframes.

Ссылки

  1. ^ Le Roux, B. и H. Rouanet (2004), Геометрический анализ данных, от анализа соответствий к структурированному анализу данных, Дордрехт. Kluwer: стр. 179
  2. ^ Эрве Абди; Доминик Валентин (2007). «Анализ множественных соответствий» (PDF) .
  3. ^ Le Roux; B. и H. Rouanet (2004). Геометрический анализ данных, от анализа соответствий к структурированному анализу данных . Дордрехт. Kluwer.
  4. ^ Скотт, Джон и Гордон Маршалл (2009): Оксфордский словарь социологии, стр. 135. Оксфорд: Oxford University Press
  5. ^ Руане, Анри (2000) «Геометрический анализ анкет. Урок различия Бурдье», в Bulletin de Méthodologie Sociologique 65, стр. 4–18.
  6. ^ Лебарон, Фредерик (2009) «Как Бурдье «квантифицировал» Бурдье: геометрическое моделирование данных», в книге Робсона и Сандерса (ред.) Количественная теория: Пьер Бурдье. Springer, стр. 11–30.
  7. ^ Пажес Жером (2014). Многофакторный анализ на примере с использованием R. Chapman & Hall/CRC The R Series London 272 стр.
  8. ^ Хассон Ф., Лес С. и Пажес Дж. (2009). Исследовательский многомерный анализ на примере с использованием R. Chapman & Hall/CRC The R Series, Лондон. ISBN 978-2-7535-0938-2 
  • Le Roux, B. и H. Rouanet (2004), Геометрический анализ данных, от анализа соответствий до структурированного анализа данных в Google Books: [2]
  • Программное обеспечение дополненной реальности FactoMineR, предназначенное для разведочного анализа данных.
Взято с "https://en.wikipedia.org/w/index.php?title=Анализ_множественной_корреспонденции&oldid=1252487684"