В статистической теории область многомерной статистики изучает данные, размерность которых больше (относительно числа точек данных), чем обычно рассматривается в классическом многомерном анализе . Эта область возникла в связи с появлением многих современных наборов данных, в которых размерность векторов данных может быть сопоставима с размером выборки или даже больше , так что обоснование использования традиционных методов, часто основанных на асимптотических аргументах с размерностью, удерживаемой фиксированной при увеличении размера выборки, отсутствовало. [1] [2]
Существует несколько концепций многомерного анализа статистических методов, в том числе:
Неасимптотические результаты, применимые к конечным (количество точек данных и размер измерения соответственно).
Асимптотика Колмогорова, изучающая асимптотическое поведение, при котором отношение сходится к определенному конечному значению. [3]
где — неизвестный вектор параметров, а — случайный шум со средним значением нулевым и дисперсией . Учитывая независимые ответы с соответствующими ковариатами из этой модели, мы можем сформировать вектор ответа и матрицу плана . Когда и матрица плана имеет полный ранг столбцов (т.е. ее столбцы линейно независимы ), обычная оценка наименьших квадратов равна
Однако переобучение вызывает беспокойство, когда имеет сопоставимую величину с : матрица в определении может стать плохо обусловленной , с малым минимальным собственным значением . В таких обстоятельствах будет большой (поскольку след матрицы является суммой ее собственных значений). Еще хуже, когда , матрица является сингулярной . (См. Раздел 1.2 и Упражнение 1.2 в [1] .)
Важно отметить, что ухудшение качества оценки в больших размерностях, наблюдаемое в предыдущем абзаце, не ограничивается обычной оценкой наименьших квадратов. Фактически, статистический вывод в больших размерностях по своей сути сложен, явление, известное как проклятие размерности , и можно показать, что ни одна оценка не может быть лучше в худшем случае без дополнительной информации (см. Пример 15.10 [2] ). Тем не менее, ситуация в многомерной статистике может быть не безнадежной, когда данные обладают некоторой низкоразмерной структурой. Одним из распространенных предположений для многомерной линейной регрессии является то, что вектор коэффициентов регрессии является разреженным , в том смысле, что большинство координат равны нулю. Было предложено много статистических процедур, включая Лассо , для подгонки многомерных линейных моделей при таких предположениях о разреженности.
В низкоразмерной обстановке, где увеличивается и сохраняется фиксированным, является последовательной оценкой в любой матричной норме . С другой стороны, когда растет с , этот результат о согласованности может не выполняться. В качестве иллюстрации предположим, что каждый и . Если бы последовательно оценивалось , то собственные значения должны стремиться к единице по мере увеличения. Оказывается, что в этой высокоразмерной обстановке это не так. Действительно, наибольшие и наименьшие собственные значения концентрируются вокруг и , соответственно, в соответствии с предельным распределением, полученным Трейси и Видомом , и они явно отклоняются от единичных собственных значений . Дополнительную информацию об асимптотическом поведении собственных значений можно получить из закона Марченко–Пастура . С неасимптотической точки зрения максимальное собственное значение удовлетворяет
для любого и всех выборов пар . [2]
Опять же, для успешной оценки матрицы ковариации в больших размерностях требуется дополнительная низкоразмерная структура. Примерами таких структур являются разреженность , низкий ранг и полосность . Аналогичные замечания применимы при оценке обратной матрицы ковариации (матрицы точности) .
История
С прикладной точки зрения исследования в области многомерной статистики были мотивированы осознанием того, что достижения в области вычислительной техники значительно увеличили возможности сбора и хранения данных , и что традиционные статистические методы, такие как описанные в примерах выше, часто были плохо оснащены для решения возникающих проблем. Теоретические достижения в этой области можно проследить до замечательного результата Чарльза Стейна в 1956 году [4] , где он доказал, что обычная оценка многомерного нормального среднего была неприемлема в отношении квадратичной ошибки потери в трех или более измерениях. Действительно, оценка Джеймса-Стейна [5] дала понимание того, что в многомерных условиях можно получить улучшенную производительность оценки за счет сжатия, которое уменьшает дисперсию за счет введения небольшого количества смещения. Этот компромисс смещения-дисперсии был далее использован в контексте многомерных линейных моделей Хёрлом и Кеннардом в 1970 году с введением гребневой регрессии . [6] Еще одним важным импульсом для этой области стала работа Роберта Тибширани над Lasso в 1996 году, в которой регуляризация использовалась для одновременного выбора модели и оценки параметров в многомерной разреженной линейной регрессии. [7] С тех пор было предложено большое количество других оценок сжатия для использования различных низкоразмерных структур в широком спектре многомерных статистических задач.
Темы многомерной статистики
Ниже приведены примеры тем, которым в последние годы уделялось значительное внимание в литературе по многомерной статистике:
Линейные модели в больших размерностях. Линейные модели являются одним из наиболее широко используемых инструментов в статистике и ее приложениях. Таким образом, разреженная линейная регрессия является одной из наиболее хорошо изученных тем в многомерных статистических исследованиях. Опираясь на более ранние работы по гребневой регрессии и Лассо , были предложены и изучены несколько других оценок сжатия в этой и связанных с ней проблемах. Они включают
Селектор Данцига, который минимизирует максимальную ковариато-остаточную корреляцию вместо остаточной суммы квадратов, как в Лассо, при условии ограничения на коэффициенты. [8]
Эластичная сеть , которая сочетает в себе регуляризацию Лассо с регуляризацией гребневой регрессии, что позволяет одновременно выбирать высококоррелированные ковариаты с аналогичными коэффициентами регрессии. [9]
Групповое лассо , позволяющее совместно выбирать предопределенные группы ковариатов. [10]
Слитое лассо , которое упорядочивает разницу между соседними коэффициентами, когда коэффициенты регрессии отражают пространственные или временные отношения, чтобы обеспечить кусочно-постоянную структуру. [11]
Выбор высокоразмерной переменной . Помимо оценки базового параметра в регрессионных моделях, еще одной важной темой является стремление определить ненулевые коэффициенты, поскольку они соответствуют переменным, которые необходимы в окончательной модели. Каждый из методов, перечисленных под предыдущим заголовком, может быть использован для этой цели, и иногда сочетается с такими идеями, как подвыборка через выборку стабильности. [12] [13]
Высокоразмерная ковариация и оценка матрицы точности. Эти проблемы были представлены выше; см. также оценку сжатия . Методы включают в себя оценки сужения [14] и оценку ограниченной минимизации. [15]
Анализ главных компонент разреженного множества . Анализ главных компонент — это еще один метод, который дает сбой в больших размерностях; точнее, при соответствующих условиях ведущий собственный вектор матрицы ковариации выборки является несостоятельной оценкой своего аналога для совокупности, когда отношение числа переменных к числу наблюдений не равно нулю. [16] При условии, что этот ведущий собственный вектор разрежен (что может способствовать интерпретируемости), согласованность может быть восстановлена. [17]
Завершение матрицы . Эта тема, касающаяся задачи заполнения пропущенных записей частично наблюдаемой матрицы, стала популярной во многом благодаря премии Netflix за прогнозирование пользовательских рейтингов фильмов.
Графические модели для многомерных данных . Графические модели используются для кодирования структуры условной зависимости между различными переменными. При предположении гауссовости проблема сводится к оценке разреженной матрицы точности, обсуждавшейся выше.
Примечания
^ ab Lederer, Johannes (2022). Основы многомерной статистики: с упражнениями и R-лабораториями . Springer Textbooks in Statistics. doi : 10.1017/9781108627771. ISBN9781108498029. S2CID 128095693.
^ abc Wainwright, Martin J. (2019). Многомерная статистика: неасимптотическая точка зрения . Cambridge University Press. doi : 10.1017/9781108627771. ISBN9781108498029. S2CID 128095693.
^ Уэйнрайт М. Дж. Высокомерная статистика: неасимптотическая точка зрения. Кембридж: Cambridge University Press; 2019. doi:10.1017/9781108627771
^ Stein, C. (1956), "Недопустимость обычной оценки для среднего значения многомерного распределения", Proc. Third Berkeley Symp. Math. Statist. Prob., т. 1, стр. 197–206 , MR 0084922, Zbl 0073.35602
^ Джеймс, У.; Стайн, К. (1961), «Оценка с квадратичными потерями», Труды Четвертого Берклийского симпозиума по математическим статистическим проблемам, т. 1, стр. 361–379 , MR 0133191
^ Hoerl, Arthur E. и Robert W. Kennard. «Ridge Regression: Biased Estimation for Nonorthogonal Problems». Technometrics , т. 12, № 1, 1970, стр. 55–67. [www.jstor.org/stable/1267351 JSTOR]. Доступ 13 марта 2021 г.
^ Тибширани, Роберт (1996). «Сжатие регрессии и выбор с помощью лассо». Журнал Королевского статистического общества . Серия B (методологическая). 58 (1). Wiley: 267–88 . JSTOR 2346178.
^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Annals of Statistics . 35 (6): 2313–2351 . arXiv : math/0506081 . doi : 10.1214/009053606000001523. MR 2382644. S2CID 88524200.
^ Zou, Hui; Hastie, Trevor (2005). «Регуляризация и выбор переменных через эластичную сеть». Журнал Королевского статистического общества . Серия B (статистическая методология). 67 (2). Wiley: 301– 20. doi : 10.1111/j.1467-9868.2005.00503.x . JSTOR 3647580.
^ Юань, Мин; Линь, И (2006). «Выбор и оценка модели в регрессии с группированными переменными». Журнал Королевского статистического общества . Серия B (статистическая методология). 68 (1). Wiley: 49– 67. doi : 10.1111/j.1467-9868.2005.00532.x . JSTOR 3647556. S2CID 6162124.
^ Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия Б (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602.
^ Майнсхаузен, Николай; Бюльманн, Питер (2010). «Стабильный отбор». Журнал Королевского статистического общества, серия B (статистическая методология) . 72 (4): 417– 473. doi : 10.1111/j.1467-9868.2010.00740.x . ISSN 1467-9868. S2CID 1231300.
^ Шах, Раджен Д.; Сэмворт, Ричард Дж. (2013). «Выбор переменных с контролем ошибок: другой взгляд на выбор стабильности». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 75 (1): 55–80 . arXiv : 1105.5578 . doi : 10.1111/j.1467-9868.2011.01034.x . ISSN 1369-7412. JSTOR 23361014. S2CID 18211609.
^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (август 2010 г.). «Оптимальные скорости сходимости для оценки ковариационной матрицы». The Annals of Statistics . 38 (4): 2118– 2144. arXiv : 1010.3866 . doi : 10.1214/09-AOS752. ISSN 0090-5364. S2CID 14038500. Получено 06.04.2021 .
^ Cai, Tony; Liu, Weidong; Luo, Xi (2011-06-01). "A Constrained ℓ 1 {\displaystyle \ell _{1}} Minimization Approach to Sparse Precision Matrix Estimation". Журнал Американской статистической ассоциации . 106 (494): 594– 607. arXiv : 1102.2233 . doi : 10.1198/jasa.2011.tm10155. ISSN 0162-1459. S2CID 15900101. Получено 2021-04-06 .
^ Джонстон, Иэн М.; Лу, Артур Ю (2009-06-01). «О согласованности и разреженности для анализа главных компонент в больших размерностях». Журнал Американской статистической ассоциации . 104 (486): 682– 693. doi :10.1198/jasa.2009.0121. ISSN 0162-1459. PMC 2898454. PMID 20617121 .
^ Vu, Vincent Q.; Lei, Jing (декабрь 2013 г.). «Оценка минимаксного разреженного главного подпространства в больших размерностях». The Annals of Statistics . 41 (6): 2905–2947 . arXiv : 1211.0373 . doi : 10.1214/13-AOS1151 . ISSN 0090-5364. S2CID 562591.
^ Бикель, Питер Дж .; Левина, Елизавета (2004). «Некоторая теория для линейной дискриминантной функции Фишера, наивного байесовского метода и некоторые альтернативы, когда переменных намного больше, чем наблюдений». Бернулли . 10 (6): 989–1010 . doi : 10.3150/bj/1106314847 .
^ Фань, Цзяньцин; Фань, Инъин (декабрь 2008 г.). «Высокоразмерная классификация с использованием правил независимости отожженных признаков». Анналы статистики . 36 (6): 2605–2637 . arXiv : math/0701108 . doi : 10.1214/07 - AOS504 . PMC 2630123. PMID 19169416. S2CID 2982392.
^ Каннингс, Тимоти И.; Сэмворт, Ричард Дж. (2017). «Случайно-проекционная ансамблевая классификация». Журнал Королевского статистического общества, серия B (статистическая методология) . 79 (4): 959–1035 . arXiv : 1504.04595 . doi : 10.1111/rssb.12228 . S2CID 88520328.
Ссылки
Ледерер, Йоханнес (2022). Основы многомерной статистики . Cham: Springer.
Жиро, Кристоф (2015). Введение в многомерную статистику . Филадельфия: Chapman and Hall/CRC.
Cai, T. Tony; Shen, Xiaotong, ред. (2011). Анализ многомерных данных . Frontiers of Statistics. Singapore: World Scientific.
Бюльманн, Питер ; ван де Гир, Сара (2011). Статистика многомерных данных: методы, теория и приложения . Гейдельберг; Нью-Йорк: Springer.
Уэйнрайт, Мартин Дж. (2019). Многомерная статистика: неасимптотическая точка зрения . Кембридж, Великобритания: Cambridge University Press.