В статистике анализ множественных соответствий ( MCA ) — это метод анализа данных для номинальных категориальных данных, используемый для обнаружения и представления базовых структур в наборе данных. Он делает это , представляя данные в виде точек в низкоразмерном евклидовом пространстве . Таким образом, процедура представляется аналогом анализа главных компонент для категориальных данных. [ необходима цитата ] MCA можно рассматривать как расширение простого анализа соответствий (CA), поскольку он применим к большому набору категориальных переменных .
MCA выполняется путем применения алгоритма CA либо к индикаторной матрице (также называемой полной дизъюнктивной таблицей — CDT), либо к таблице Берта, сформированной из этих переменных. [ требуется ссылка ] Индикаторная матрица — это матрица индивидуумов × переменные, где строки представляют индивидуумов, а столбцы — фиктивные переменные, представляющие категории переменных. [1] Анализ индикаторной матрицы позволяет напрямую представлять индивидуумов как точки в геометрическом пространстве. Таблица Берта — это симметричная матрица всех двухсторонних перекрестных таблиц между категориальными переменными, и имеет аналогию с ковариационной матрицей непрерывных переменных. Анализ таблицы Берта — это более естественное обобщение простого анализа соответствий , и индивидуумы или средние значения групп индивидуумов могут быть добавлены в качестве дополнительных точек к графическому отображению.
В подходе матрицы индикаторов ассоциации между переменными раскрываются путем вычисления расстояния хи-квадрат между различными категориями переменных и между индивидуумами (или респондентами). Затем эти ассоциации представляются графически в виде «карт», что облегчает интерпретацию структур в данных. Затем оппозиции между строками и столбцами максимизируются, чтобы раскрыть базовые измерения, наилучшим образом способные описать центральные оппозиции в данных. Как и в факторном анализе или анализе главных компонентов , первая ось является наиболее важным измерением, вторая ось — второй по важности и т. д. с точки зрения величины учтенной дисперсии. Количество осей, которые следует сохранить для анализа, определяется путем вычисления модифицированных собственных значений .
Поскольку MCA адаптирован для получения статистических выводов из категориальных переменных (например, вопросов с множественным выбором), первое, что необходимо сделать, — это преобразовать количественные данные (такие как возраст, размер, вес, время суток и т. д.) в категории (например, используя статистические квантили).
Когда набор данных полностью представлен в виде категориальных переменных, можно построить соответствующую так называемую полную дизъюнктивную таблицу. Мы обозначаем эту таблицу . Если люди ответили на опрос с несколькими вариантами ответов по 4 ответа на каждый, будут иметь строки и столбцы.
Более теоретически, [2] предположим, что это полностью дизъюнктная таблица наблюдений категориальных переменных. Предположим также, что -я переменная имеет разные уровни (категории) и зададим . Тогда таблица представляет собой матрицу со всеми коэффициентами, равными или . Зададим сумму всех записей как и введем . В MCA также есть два специальных вектора: первый , который содержит суммы по строкам , и , который содержит суммы по столбцам . Обратите внимание и , диагональные матрицы, содержащие и соответственно в качестве диагональных. С этими обозначениями вычисление MCA по сути состоит в сингулярном разложении матрицы:
Разложение дает вам , и такой, что с P, Q две унитарные матрицы и является обобщенной диагональной матрицей сингулярных значений (с той же формой, что и ). Положительные коэффициенты являются собственными значениями .
Интерес к MCA исходит из способа, которым наблюдения (строки) и переменные (столбцы) могут быть разложены. Это разложение называется факторным разложением. Координаты наблюдений в факторном пространстве задаются как
-th строки представляют -th наблюдение в факторном пространстве. И аналогично, координаты переменных (в том же факторном пространстве, что и наблюдения!) задаются как
В последние годы несколько студентов Жана-Поля Бензекри усовершенствовали MCA и включили его в более общую структуру анализа данных, известную как геометрический анализ данных . Это включает в себя разработку прямых связей между простым анализом соответствий , анализом главных компонент и MCA с формой кластерного анализа, известной как евклидова классификация. [3]
Два расширения имеют большое практическое применение.
В социальных науках MCA, возможно, наиболее известен по его применению Пьером Бурдье , [4] в частности, в его книгах La Distinction , Homo Academicus и The State Nobility . Бурдье утверждал, что существует внутренняя связь между его видением социального как пространственного и относительного —– отраженного в понятии поля , и геометрическими свойствами MCA. [5] Социологи, следующие за работами Бурдье, чаще всего выбирают анализ матрицы индикаторов, а не таблицы Берта, в основном из-за центральной важности, придаваемой анализу «облака индивидов». [6]
MCA также можно рассматривать как PCA, примененный к полной дизъюнктивной таблице. Для этого CDT необходимо преобразовать следующим образом. Пусть обозначает общий член CDT. равен 1, если индивид обладает категорией , и 0, если нет. Пусть обозначает долю индивидов, обладающих категорией . Преобразованный CDT (TCDT) имеет в качестве общего члена:
Нестандартизированный PCA, примененный к TCDT, столбец которого имеет вес , приводит к результатам MCA.
Эта эквивалентность полностью объяснена в книге Жерома Пажеса. [7] Она играет важную теоретическую роль, поскольку открывает путь к одновременной обработке количественных и качественных переменных. Два метода одновременно анализируют эти два типа переменных: факторный анализ смешанных данных и, когда активные переменные разделены на несколько групп: многофакторный анализ.
Эта эквивалентность не означает, что MCA является частным случаем PCA, поскольку он не является частным случаем CA. Это означает лишь, что эти методы тесно связаны друг с другом, поскольку они принадлежат к одному семейству: факториальные методы. [ необходима цитата ]
Существует множество программ анализа данных, включающих MCA, например, STATA и SPSS. Пакет R FactoMineR также включает MCA. Это программное обеспечение связано с книгой, описывающей основные методы выполнения MCA. [8] Также существует пакет Python для [1], который работает с матрицами массивов numpy; пакет пока не реализован для Spark dataframes.