Статистический метод исследования доминирующих мод изменения функциональных данных
Функциональный главный компонентный анализ ( FPCA ) — это статистический метод исследования доминирующих режимов изменения функциональных данных . При использовании этого метода случайная функция представляется в собственном базисе, который является ортонормированным базисом гильбертова пространства L2 , состоящим из собственных функций оператора автоковариации . FPCA представляет функциональные данные наиболее экономным способом, в том смысле, что при использовании фиксированного числа базисных функций базис собственных функций объясняет больше вариаций, чем любое другое базисное расширение. FPCA может применяться для представления случайных функций [1] или в функциональной регрессии [2] и классификации.
— главный компонент, связанный с k -й собственной функцией , со свойствами
Центрированный процесс тогда эквивалентен ξ 1 , ξ 2 , .... Обычно предполагается, что X может быть представлено только первыми несколькими собственными функциями (после вычитания средней функции), т.е.
где
Интерпретация собственных функций
Первая собственная функция отображает доминирующий режим изменения X.
где
k -я собственная функция является доминирующей модой изменения, ортогональной к , , ... , ,
где
Оценка
Пусть Y ij = X i ( t ij ) + ε ij будут наблюдениями, сделанными в местах (обычно во временных точках) t ij , где X i является i -й реализацией гладкого стохастического процесса, который генерирует данные, а ε ij являются одинаково и независимо распределенной нормальной случайной величиной со средним значением 0 и дисперсией σ 2 , j = 1, 2, ..., m i . Чтобы получить оценку средней функции μ ( t ij ), если доступна плотная выборка на регулярной сетке, можно взять среднее значение в каждом месте t ij :
Если наблюдения редки, необходимо сгладить данные, объединенные из всех наблюдений, чтобы получить среднюю оценку [3], используя такие методы сглаживания, как локальное линейное сглаживание или сглаживание сплайнами .
Затем оценка ковариационной функции получается путем усреднения (в плотном случае) или сглаживания (в разреженном случае) исходных ковариаций.
Обратите внимание, что диагональные элементы G i следует удалить, поскольку они содержат ошибку измерения. [4]
На практике дискретизируется до равномерно распределенной плотной сетки, а оценка собственных значений λ k и собственных векторов v k выполняется с помощью числовой линейной алгебры. [5] Оценки собственных функций затем могут быть получены путем интерполяции собственных векторов
Пусть будет сглаженной версией диагональных элементов G i ( t ij , t ij ) исходных ковариационных матриц. Тогда есть оценка ( G ( t , t ) + σ 2 ). Оценка σ 2 получается из
если иначе
Если наблюдения X ij , j =1, 2, ..., m i плотны в 𝒯, то k -й ФФК ξ k можно оценить с помощью численного интегрирования , реализуя
и оценивается в точках сетки, сгенерированных t ij , j = 1, 2, ..., m i . Алгоритм PACE имеет доступный пакет Matlab [6] и пакет R [7]
Были исследованы свойства асимптотической сходимости этих оценок. [3] [8] [9]
Приложения
FPCA может применяться для отображения режимов функциональной вариации , [1] [10] в диаграммах рассеяния FPC друг против друга или откликов против FPC, для моделирования разреженных продольных данных , [3] или для функциональной регрессии и классификации (например, функциональной линейной регрессии). [2] Диаграммы осыпи и другие методы могут использоваться для определения количества включенных компонентов. Функциональный анализ главных компонент имеет различные приложения в анализе временных рядов. В настоящее время этот метод адаптируется из традиционных многомерных методов для анализа наборов финансовых данных, таких как индексы фондового рынка, и создания графиков подразумеваемой волатильности. [11] Хорошим примером преимуществ функционального подхода является сглаженный FPCA (SPCA), разработанный Сильверманом [1996] и изученный Пеццулли и Сильверманом [1993], который позволяет напрямую комбинировать FPCA вместе с общим подходом сглаживания, который делает возможным использование информации, хранящейся в некоторых линейных дифференциальных операторах. Важное применение FPCA, уже известное из многомерного PCA, мотивировано разложением Карунена-Лоэва случайной функции на набор функциональных параметров – факторных функций и соответствующих факторных нагрузок (скалярных случайных величин). Это применение гораздо важнее, чем в стандартном многомерном PCA, поскольку распределение случайной функции в общем случае слишком сложно для непосредственного анализа, а разложение Карунена-Лоэва сводит анализ к интерпретации факторных функций и распределения скалярных случайных величин. Благодаря снижению размерности, а также точности представления данных, существуют широкие возможности для дальнейшего развития методов функциональных главных компонент в финансовой сфере.
Применение PCA в автомобильной технике. [12] [13] [14] [15]
Связь с анализом главных компонент
В следующей таблице показано сравнение различных элементов анализа главных компонент (PCA) и FPCA. Оба метода используются для снижения размерности . В реализациях FPCA использует шаг PCA.
Однако PCA и FPCA различаются в некоторых критических аспектах. Во-первых, порядок многомерных данных в PCA может быть переставлен , что не влияет на анализ, но порядок функциональных данных несет информацию о времени или пространстве и не может быть переупорядочен. Во-вторых, интервал между наблюдениями в FPCA имеет значение, тогда как в PCA нет проблемы интервала. В-третьих, обычный PCA не работает для многомерных данных без регуляризации , в то время как FPCA имеет встроенную регуляризацию из-за гладкости функциональных данных и усечения до конечного числа включенных компонентов.
^ ab Jones, MC; Rice, JA (1992). «Отображение важных особенностей больших наборов подобных кривых». The American Statistician . 46 (2): 140. doi :10.1080/00031305.1992.10475870.
^ ab Яо, Ф.; Мюллер, Х. Г.; Ванг, Дж. Л. (2005). «Функциональный линейный регрессионный анализ для продольных данных». Анналы статистики . 33 (6): 2873. arXiv : math/0603132 . doi : 10.1214/009053605000000660.
^ abcd Яо, Ф.; Мюллер, Х. Г.; Ванг, Дж. Л. (2005). «Функциональный анализ данных для разреженных продольных данных». Журнал Американской статистической ассоциации . 100 (470): 577. doi :10.1198/016214504000001745.
^ Станисвалис, Дж. Г .; Ли, Дж. Дж. (1998). «Непараметрический регрессионный анализ продольных данных». Журнал Американской статистической ассоциации . 93 (444): 1403. doi :10.1080/01621459.1998.10473801.
^ Райс, Джон; Сильверман, Б. (1991). «Непараметрическая оценка среднего значения и ковариационной структуры, когда данные представляют собой кривые». Журнал Королевского статистического общества. Серия B (методологическая) . 53 (1): 233– 243. doi :10.1111/j.2517-6161.1991.tb01821.x.
^ «PACE: Основной анализ с помощью условного ожидания».
^ "fdapace: Функциональный анализ данных и эмпирическая динамика". 2018-02-25.
^ Холл, П.; Мюллер, Х. Г.; Ванг, Дж. Л. (2006). «Свойства методов главных компонент для функционального и продольного анализа данных». Анналы статистики . 34 (3): 1493. arXiv : math/0608022 . doi : 10.1214/009053606000000272.
^ Ли, И.; Хсинг, Т. (2010). «Равномерные скорости сходимости для непараметрической регрессии и анализа главных компонент в функциональных/продольных данных». Анналы статистики . 38 (6): 3321. arXiv : 1211.2137 . doi : 10.1214/10-AOS813.
^ Мадригал, Педро; Краевский, Павел (2015). «Раскрытие коррелированной изменчивости в эпигеномных наборах данных с использованием преобразования Карунена-Лоэва». BioData Mining . 8 : 20. doi : 10.1186/s13040-015-0051-7 . PMC 4488123. PMID 26140054 .
^ Функциональный анализ данных с приложениями в финансах Михала Бенко
^ Ли, Сангдон (2012). «Изменение режимов ускорения транспортного средства и разработка идеального ускорения транспортного средства». Труды Института инженеров-механиков, часть D: Журнал автомобильной инженерии . 226 (9): 1185– 1201. doi :10.1177/0954407012442775.
^ Ли, Сангдон (2010). «Характеристика и разработка идеального усилия педали, хода педали и времени отклика в тормозной системе для перевода голоса клиента в технические спецификации». Труды Института инженеров-механиков, часть D: Журнал автомобильной инженерии . 224 (11): 1433– 1450. doi :10.1243/09544070JAUTO1585.
^ Ли, Сангдон (2008). «Анализ главных компонентов прироста ускорения транспортного средства и перевод голоса клиента». Труды Института инженеров-механиков, часть D: Журнал автомобильной инженерии . 222 (2): 191– 203. doi :10.1243/09544070JAUTO351.
^ Ли, Сангдон (2006). «Многомерный статистический анализ шума холостого хода и позиционирования транспортного средства». Международный журнал по шуму и вибрации транспортных средств . 2 (2): 156–175 . doi :10.1504/IJVNV.2006.011052.
Ссылки
Джеймс О. Рэмси; Б. В. Сильверман (8 июня 2005 г.). Функциональный анализ данных. Springer. ISBN978-0-387-40080-8.