Факторный анализ смешанных данных

В статистике факторный анализ смешанных данных или факторный анализ смешанных данных ( FAMD , во французском оригинале: AFDM или Analyse Factorielle de Données Mixtes ) — факторный метод, посвященный таблицам данных, в которых группа лиц описывается как количественными, так и качественными переменными. Он относится к исследовательским методам, разработанным французской школой Analyse des données (анализ данных), основанной Жаном-Полем Бензекри .

Термин смешанный относится к использованию как количественных, так и качественных переменных. Грубо говоря, можно сказать, что FAMD работает как анализ главных компонентов (PCA) для количественных переменных и как анализ множественного соответствия (MCA) для качественных переменных.

Объем

Если данные включают оба типа переменных, но активные переменные однородны, можно использовать PCA или MCA.

Действительно, в MCA легко включить дополнительные количественные переменные с помощью коэффициентов корреляции между переменными и факторами по индивидуумам (фактор по индивидуумам — это вектор, собирающий координаты индивидуумов на факторной оси); полученное представление представляет собой корреляционный круг (как в PCA).

Аналогичным образом, в PCA легко включить дополнительные категориальные переменные. [1] Для этого каждая категория представлена ​​центром тяжести лиц, которые ее имеют (как MCA).

При смешивании активных переменных обычной практикой является дискретизация количественных переменных (например, в обследованиях возраст обычно преобразуется в возрастные классы). Полученные таким образом данные могут быть обработаны с помощью MCA.

Эта практика достигает своих пределов:

  • Когда людей немного (менее сотни, чтобы зафиксировать идеи), в этом случае MCA нестабилен;
  • Когда имеется мало качественных переменных по отношению к количественным переменным (может возникнуть нежелание дискретизировать двадцать количественных переменных, чтобы учесть одну качественную переменную).

Критерий

Данные включают количественные и качественные переменные . К {\displaystyle К} к = 1 , , К {\displaystyle {k=1,\dots ,K}} В {\displaystyle Q} д = 1 , , В {\displaystyle {q=1,\точки ,Q}}

з {\displaystyle z} является количественной переменной. Мы отмечаем:

  • г ( з , к ) {\displaystyle r(z,k)} коэффициент корреляции между переменными и  ; к {\displaystyle к} з {\displaystyle z}
  • η 2 ( з , д ) {\displaystyle \eta ^{2}(z,q)} квадрат коэффициента корреляции между переменными и . з {\displaystyle z} д {\displaystyle д}

В PCA мы ищем функцию (функция присваивает значение каждому индивидууму, это касается исходных переменных и главных компонент), наиболее коррелирующую со всеми переменными в следующем смысле: К {\displaystyle К} я {\displaystyle Я} я {\displaystyle Я} К {\displaystyle К}

к г 2 ( з , к ) {\displaystyle \sum _{k}r^{2}(z,k)} максимум.

В MCA Q мы ищем функцию, более связанную со всеми переменными в следующем смысле: я {\displaystyle Я} В {\displaystyle Q}

д η 2 ( з , д ) {\displaystyle \sum _{q} \eta ^{2}(z,q)} максимум.

В FAMD мы ищем функцию, наиболее связанную со всеми переменными в следующем смысле: { К , В } {\displaystyle \{К,Q\}} я {\displaystyle Я} К + В {\displaystyle К+Q}

к г 2 ( з , к ) + д η 2 ( з , д ) {\displaystyle \sum _{k}r^{2}(z,k)+\sum _{q}\eta ^{2}(z,q)} максимум.

В этом критерии оба типа переменных играют одинаковую роль. Вклад каждой переменной в этом критерии ограничен 1.

Участки

Представление индивидов осуществляется непосредственно из факторов . я {\displaystyle Я}

Представление количественных переменных строится как в PCA (корреляционный круг).

Представление категорий качественных переменных такое же, как в MCA: категория находится в центроиде индивидов, которые ею обладают. Обратите внимание, что мы берем точный центроид, а не, как принято в MCA, центроид с точностью до коэффициента, зависящего от оси (в MCA этот коэффициент равен обратной величине квадратного корня собственного значения; в FAMD он был бы неадекватен).

Представление переменных называется квадратом связи . Координата качественной переменной по оси равна квадрату коэффициента корреляции между переменной и фактором ранга (обозначается ). Координата количественной переменной по оси равна квадрату коэффициента корреляции между переменной и фактором ранга (обозначается ). дж {\displaystyle j} с {\displaystyle с} дж {\displaystyle j} с {\displaystyle с} η 2 ( дж , с ) {\displaystyle \eta ^{2}(j,s)} к {\displaystyle к} с {\displaystyle с} к {\displaystyle к} с {\displaystyle с} г 2 ( к , с ) {\displaystyle r^{2}(к,с)}

Помощь в интерпретации

Показатели взаимосвязи между исходными переменными объединяются в так называемую матрицу взаимосвязи, которая содержит на пересечении строки и столбца : л {\displaystyle л} с {\displaystyle с}

  • Если переменные и количественные, то квадрат коэффициента корреляции между переменными и  ; л {\displaystyle л} с {\displaystyle с} л {\displaystyle л} с {\displaystyle с}
  • Если переменная качественная, а переменная количественная, то квадрат коэффициента корреляции между и ; л {\displaystyle л} с {\displaystyle с} л {\displaystyle л} с {\displaystyle с}
  • Если переменные и качественные, то показатель между переменными и . л {\displaystyle л} с {\displaystyle с} ϕ 2 {\displaystyle \фи ^{2}} л {\displaystyle л} с {\displaystyle с}

Пример

Очень небольшой набор данных (таблица 1) иллюстрирует работу и результаты FAMD. Шесть человек описываются тремя количественными переменными и тремя качественными переменными. Данные были проанализированы с использованием функции пакета R FAMD FactoMineR.

Таблица 1. Данные (тестовый пример).
к 1 {\displaystyle k_{1}} к 2 {\displaystyle k_{2}} к 3 {\displaystyle k_{3}} д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 1 {\displaystyle i_{1}} 24.54 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 2 {\displaystyle i_{2}} 54.54 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 3 {\displaystyle i_{3}} 312 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 4 {\displaystyle i_{4}} 412 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 5 {\displaystyle i_{5}} 111 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
я 6 {\displaystyle i_{6}} 612 д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
Таблица 2. Тестовый пример. Матрица отношений.
к 1 {\displaystyle k_{1}} к 2 {\displaystyle k_{2}} к 3 {\displaystyle k_{3}} д 1 {\displaystyle q_{1}} д 2 {\displaystyle q_{2}} д 3 {\displaystyle q_{3}}
к 1 {\displaystyle k_{1}} 10.000,050,910.000.00
к 2 {\displaystyle k_{2}} 0.0010,900,250,251.00
к 3 {\displaystyle k_{3}} 0,050,9010,130,400,93
д 1 {\displaystyle q_{1}} 0,910,250,1320,251.00
д 2 {\displaystyle q_{2}} 0.000,250,400,2511.00
д 3 {\displaystyle q_{3}} 0.001.000,931.001.002

В матрице отношений коэффициенты равны (количественным переменным), (качественным переменным) или (одной переменной каждого типа). Р 2 {\displaystyle R^{2}} ϕ 2 {\displaystyle \фи ^{2}} η 2 {\displaystyle \эта ^{2}}

Матрица показывает запутанность отношений между двумя типами переменных.

Представление индивидов (рисунок 1) наглядно показывает три группы индивидов. Первая ось противопоставляет индивидов 1 и 2 всем остальным. Вторая ось противопоставляет индивидов 3 и 4 индивидам 5 и 6.

Рисунок 1. FAMD. Тестовый пример. Представление индивидуумов.
Рисунок 2. FAMD. Тестовый пример. Квадрат отношения.
Рисунок 3. FAMD. Тестовый пример. Корреляционный круг.
Рисунок 4. FAMD. Тестовый пример. Представление категорий качественных переменных.

Представление переменных (квадрат связи, рисунок 2) показывает, что первая ось ( ) тесно связана с переменными , и . Корреляционный круг (рисунок 3) указывает знак корреляции между , и ; представление категорий (рисунок 4) проясняет характер связи между и . Наконец, индивиды 1 и 2, индивидуализированные первой осью, характеризуются высокими значениями и , а также категориями . Ф 1 {\displaystyle F1} к 2 {\displaystyle k_{2}} к 3 {\displaystyle k_{3}} В 3 {\displaystyle Q_{3}} Ф 1 {\displaystyle F1} к 2 {\displaystyle k_{2}} к 3 {\displaystyle k_{3}} Ф 1 {\displaystyle F1} В 3 {\displaystyle Q_{3}} к 2 {\displaystyle k_{2}} к 3 {\displaystyle k_{3}} с {\displaystyle с} В 3 {\displaystyle Q_{3}}

Этот пример иллюстрирует, как FAMD одновременно анализирует количественные и качественные переменные. Таким образом, в этом примере показано первое измерение, основанное на двух типах переменных.

История

Первоначальная работа FAMD принадлежит Брижит Эскофье [2] и Жильберу Сапорте. [3] Эта работа была возобновлена ​​в 2002 году Жеромом Пажесом. [4] Более полное представление FAMD на английском языке включено в книгу Жерома Пажеса. [5]

Программное обеспечение

Метод реализован в пакете R FactoMineR. Метод реализован в библиотеке Python prince.

Ссылки

  1. ^ Эскофье, Бриджит; Пажес, Жером (2016). Анализы простых и множественных факторов: Cours et études de cas (PDF) (на французском языке). Париж: Дюнод. ISBN 978-2-10-074144-1. OCLC  951230297.
  2. ^ Эскофье Бриджит (1979). «Traitement одновременная количественная и качественная переменная в факторном анализе» (PDF) . Les cahiers de l'analyse des données . 4 (2): 137–146 .
  3. ^ Сапорта Гилберт (1990). Одновременный анализ качественных и количественных данных. Atti della XXXV научного объединения; società italiana di Statistica , 63–72. http://cedric.cnam.fr/~saporta/SAQQD.pdf
  4. ^ Пажес Жером (2002). «Анализ смешанных фабрик» (PDF) . Аппликация Revue de Statistique . 52 (4): 93–111 .
  5. ^ Пажес, Жером (2015). Многофакторный анализ на примере использования R. Бока-Ратон: CRC Press. ISBN 978-1-4822-0547-3. OCLC  894169715.
Взято с "https://en.wikipedia.org/w/index.php?title=Факторный_анализ_смешанных_данных&oldid=1191465154"