Многомерная статистика

В статистической теории область многомерной статистики изучает данные, размерность которых больше (относительно числа точек данных), чем обычно рассматривается в классическом многомерном анализе . Эта область возникла в связи с появлением многих современных наборов данных, в которых размерность векторов данных может быть сопоставима с размером выборки или даже больше , так что обоснование использования традиционных методов, часто основанных на асимптотических аргументах с размерностью, удерживаемой фиксированной при увеличении размера выборки, отсутствовало. [1] [2]

Существует несколько концепций многомерного анализа статистических методов, в том числе:

  • Неасимптотические результаты, применимые к конечным (количество точек данных и размер измерения соответственно). н , п {\displaystyle н,п}
  • Асимптотика Колмогорова, изучающая асимптотическое поведение, при котором отношение сходится к определенному конечному значению. [3] н / п {\displaystyle н/п}

Примеры

Оценка параметров в линейных моделях

Иллюстрация линейной модели в больших размерностях: набор данных состоит из вектора отклика и матрицы дизайна с . Наша цель — оценить неизвестный вектор коэффициентов регрессии, где часто предполагается разреженным , в том смысле, что мощность набора мала по сравнению с . И Р н {\displaystyle Y\in \mathbb {R} ^{n}} Х Р н × п {\displaystyle X\in \mathbb {R} ^{n\times p}} п н {\displaystyle p\gg n} β = ( β 1 , , β п ) Р п {\displaystyle \beta =(\beta _{1},\dots ,\beta _{p})\in \mathbb {R} ^{p}} β {\displaystyle \бета} С := { дж : β дж 0 } {\displaystyle S:=\{j:\beta _{j}\neq 0\}} п {\displaystyle p}

Самой простой статистической моделью для связи между вектором ковариатов и переменной отклика является линейная модель. х Р п {\displaystyle x\in \mathbb {R} ^{p}} у Р {\displaystyle y\in \mathbb {R} }

у = х β + ϵ , {\displaystyle y=x^{\top }\бета +\эпсилон ,}

где — неизвестный вектор параметров, а — случайный шум со средним значением нулевым и дисперсией . Учитывая независимые ответы с соответствующими ковариатами из этой модели, мы можем сформировать вектор ответа и матрицу плана . Когда и матрица плана имеет полный ранг столбцов (т.е. ее столбцы линейно независимы ), обычная оценка наименьших квадратов равна β Р п {\displaystyle \beta \in \mathbb {R} ^{p}} ϵ {\displaystyle \epsilon} σ 2 {\displaystyle \сигма ^{2}} И 1 , , И н {\displaystyle Y_{1},\ldots ,Y_{n}} х 1 , , х н {\displaystyle x_{1},\ldots ,x_{n}} И = ( И 1 , , И н ) {\displaystyle Y=(Y_{1},\ldots ,Y_{n})^{\top }} Х = ( х 1 , , х н ) Р н × п {\displaystyle X=(x_{1},\ldots ,x_{n})^{\top }\in \mathbb {R} ^{n\times p}} н п {\displaystyle n\geq p} β {\displaystyle \бета}

β ^ := ( Х Х ) 1 Х И . {\displaystyle {\hat {\beta }}:=(X^{\top }X)^{-1}X^{\top }Y.}

Когда , известно , что . Таким образом, является несмещенной оценкой , а теорема Гаусса-Маркова говорит нам, что это наилучшая линейная несмещенная оценка . ϵ Н ( 0 , σ 2 ) {\displaystyle \epsilon \sim N(0,\sigma ^{2})} β ^ Н п ( β , σ 2 ( Х Х ) 1 ) {\displaystyle {\hat {\beta }}\sim N_{p}{\bigl (}\beta ,\sigma ^{2}(X^{\top }X)^{-1}{\bigr )}} β ^ {\displaystyle {\hat {\beta }}} β {\displaystyle \бета}

Однако переобучение вызывает беспокойство, когда имеет сопоставимую величину с : матрица в определении может стать плохо обусловленной , с малым минимальным собственным значением . В таких обстоятельствах будет большой (поскольку след матрицы является суммой ее собственных значений). Еще хуже, когда , матрица является сингулярной . (См. Раздел 1.2 и Упражнение 1.2 в [1] .) п {\displaystyle p} н {\displaystyle n} Х Х {\displaystyle X^{\top }X} β ^ {\displaystyle {\hat {\beta }}} Э ( β ^ β 2 ) = σ 2 т г ( ( Х Х ) 1 ) {\displaystyle \mathbb {E} (\|{\hat {\beta }}-\beta \|^{2})=\sigma ^{2}\mathrm {tr} {\bigl (}(X^{\top }X)^{-1}{\bigr )}} п > н {\displaystyle п>н} Х Х {\displaystyle X^{\top }X}

Важно отметить, что ухудшение качества оценки в больших размерностях, наблюдаемое в предыдущем абзаце, не ограничивается обычной оценкой наименьших квадратов. Фактически, статистический вывод в больших размерностях по своей сути сложен, явление, известное как проклятие размерности , и можно показать, что ни одна оценка не может быть лучше в худшем случае без дополнительной информации (см. Пример 15.10 [2] ). Тем не менее, ситуация в многомерной статистике может быть не безнадежной, когда данные обладают некоторой низкоразмерной структурой. Одним из распространенных предположений для многомерной линейной регрессии является то, что вектор коэффициентов регрессии является разреженным , в том смысле, что большинство координат равны нулю. Было предложено много статистических процедур, включая Лассо , для подгонки многомерных линейных моделей при таких предположениях о разреженности. β {\displaystyle \бета}

Оценка ковариационной матрицы

Другой пример многомерного статистического явления можно найти в задаче оценки ковариационной матрицы . Предположим, что мы наблюдаем , которые являются iid, взятыми из некоторого нулевого среднего распределения с неизвестной ковариационной матрицей . Естественная несмещенная оценка — это выборочная ковариационная матрица Х 1 , , Х н Р п {\displaystyle X_{1},\ldots ,X_{n}\in \mathbb {R} ^{p}} Σ R p × p {\displaystyle \Sigma \in \mathbb {R} ^{p\times p}} Σ {\displaystyle \Sigma }

Σ ^ := 1 n i = 1 n X i X i . {\displaystyle {\widehat {\Sigma }}:={\frac {1}{n}}\sum _{i=1}^{n}X_{i}X_{i}^{\top }.}

В низкоразмерной обстановке, где увеличивается и сохраняется фиксированным, является последовательной оценкой в ​​любой матричной норме . С другой стороны, когда растет с , этот результат о согласованности может не выполняться. В качестве иллюстрации предположим, что каждый и . Если бы последовательно оценивалось , то собственные значения должны стремиться к единице по мере увеличения. Оказывается, что в этой высокоразмерной обстановке это не так. Действительно, наибольшие и наименьшие собственные значения концентрируются вокруг и , соответственно, в соответствии с предельным распределением, полученным Трейси и Видомом , и они явно отклоняются от единичных собственных значений . Дополнительную информацию об асимптотическом поведении собственных значений можно получить из закона Марченко–Пастура . С неасимптотической точки зрения максимальное собственное значение удовлетворяет n {\displaystyle n} p {\displaystyle p} Σ ^ {\displaystyle {\widehat {\Sigma }}} Σ {\displaystyle \Sigma } p {\displaystyle p} n {\displaystyle n} X i N p ( 0 , I ) {\displaystyle X_{i}\sim N_{p}(0,I)} p / n α ( 0 , 1 ) {\displaystyle p/n\rightarrow \alpha \in (0,1)} Σ ^ {\displaystyle {\widehat {\Sigma }}} Σ = I {\displaystyle \Sigma =I} Σ ^ {\displaystyle {\widehat {\Sigma }}} n {\displaystyle n} Σ ^ {\displaystyle {\widehat {\Sigma }}} ( 1 + α ) 2 {\displaystyle (1+{\sqrt {\alpha }})^{2}} ( 1 α ) 2 {\displaystyle (1-{\sqrt {\alpha }})^{2}} Σ {\displaystyle \Sigma } Σ ^ {\displaystyle {\widehat {\Sigma }}} λ m a x ( Σ ^ ) {\displaystyle \lambda _{\mathrm {max} }({\widehat {\Sigma }})} Σ ^ {\displaystyle {\widehat {\Sigma }}}

P ( λ m a x ( Σ ^ ) ( 1 + p / n + δ ) 2 ) e n δ 2 / 2 , {\displaystyle \mathbb {P} \left(\lambda _{\mathrm {max} }({\widehat {\Sigma }})\geq (1+{\sqrt {p/n}}+\delta )^{2}\right)\leq e^{-n\delta ^{2}/2},}

для любого и всех выборов пар . [2] δ 0 {\displaystyle \delta \geq 0} n , p {\displaystyle n,p}

Опять же, для успешной оценки матрицы ковариации в больших размерностях требуется дополнительная низкоразмерная структура. Примерами таких структур являются разреженность , низкий ранг и полосность . Аналогичные замечания применимы при оценке обратной матрицы ковариации (матрицы точности) .

История

С прикладной точки зрения исследования в области многомерной статистики были мотивированы осознанием того, что достижения в области вычислительной техники значительно увеличили возможности сбора и хранения данных , и что традиционные статистические методы, такие как описанные в примерах выше, часто были плохо оснащены для решения возникающих проблем. Теоретические достижения в этой области можно проследить до замечательного результата Чарльза Стейна в 1956 году [4] , где он доказал, что обычная оценка многомерного нормального среднего была неприемлема в отношении квадратичной ошибки потери в трех или более измерениях. Действительно, оценка Джеймса-Стейна [5] дала понимание того, что в многомерных условиях можно получить улучшенную производительность оценки за счет сжатия, которое уменьшает дисперсию за счет введения небольшого количества смещения. Этот компромисс смещения-дисперсии был далее использован в контексте многомерных линейных моделей Хёрлом и Кеннардом в 1970 году с введением гребневой регрессии . [6] Еще одним важным импульсом для этой области стала работа Роберта Тибширани над Lasso в 1996 году, в которой регуляризация использовалась для одновременного выбора модели и оценки параметров в многомерной разреженной линейной регрессии. [7] С тех пор было предложено большое количество других оценок сжатия для использования различных низкоразмерных структур в широком спектре многомерных статистических задач. 1 {\displaystyle \ell _{1}}

Темы многомерной статистики

Ниже приведены примеры тем, которым в последние годы уделялось значительное внимание в литературе по многомерной статистике:

  • Линейные модели в больших размерностях. Линейные модели являются одним из наиболее широко используемых инструментов в статистике и ее приложениях. Таким образом, разреженная линейная регрессия является одной из наиболее хорошо изученных тем в многомерных статистических исследованиях. Опираясь на более ранние работы по гребневой регрессии и Лассо , были предложены и изучены несколько других оценок сжатия в этой и связанных с ней проблемах. Они включают
    • Селектор Данцига, который минимизирует максимальную ковариато-остаточную корреляцию вместо остаточной суммы квадратов, как в Лассо, при условии ограничения на коэффициенты. [8] 1 {\displaystyle \ell _{1}}
    • Эластичная сеть , которая сочетает в себе регуляризацию Лассо с регуляризацией гребневой регрессии, что позволяет одновременно выбирать высококоррелированные ковариаты с аналогичными коэффициентами регрессии. [9] 1 {\displaystyle \ell _{1}} 2 {\displaystyle \ell _{2}}
    • Групповое лассо , позволяющее совместно выбирать предопределенные группы ковариатов. [10]
    • Слитое лассо , которое упорядочивает разницу между соседними коэффициентами, когда коэффициенты регрессии отражают пространственные или временные отношения, чтобы обеспечить кусочно-постоянную структуру. [11]
  • Выбор высокоразмерной переменной . Помимо оценки базового параметра в регрессионных моделях, еще одной важной темой является стремление определить ненулевые коэффициенты, поскольку они соответствуют переменным, которые необходимы в окончательной модели. Каждый из методов, перечисленных под предыдущим заголовком, может быть использован для этой цели, и иногда сочетается с такими идеями, как подвыборка через выборку стабильности. [12] [13]
  • Высокоразмерная ковариация и оценка матрицы точности. Эти проблемы были представлены выше; см. также оценку сжатия . Методы включают в себя оценки сужения [14] и оценку ограниченной минимизации. [15] 1 {\displaystyle \ell _{1}}
  • Анализ главных компонент разреженного множества . Анализ главных компонент — это еще один метод, который дает сбой в больших размерностях; точнее, при соответствующих условиях ведущий собственный вектор матрицы ковариации выборки является несостоятельной оценкой своего аналога для совокупности, когда отношение числа переменных к числу наблюдений не равно нулю. [16] При условии, что этот ведущий собственный вектор разрежен (что может способствовать интерпретируемости), согласованность может быть восстановлена. [17] p {\displaystyle p} n {\displaystyle n}
  • Завершение матрицы . Эта тема, касающаяся задачи заполнения пропущенных записей частично наблюдаемой матрицы, стала популярной во многом благодаря премии Netflix за прогнозирование пользовательских рейтингов фильмов.
  • Высокоразмерная классификация. Линейный дискриминантный анализ не может быть использован, когда , поскольку выборочная ковариационная матрица является сингулярной . Были предложены альтернативные подходы, основанные на наивном Байесе , [18] выборе признаков [19] и случайных проекциях . [20] p > n {\displaystyle p>n}
  • Графические модели для многомерных данных . Графические модели используются для кодирования структуры условной зависимости между различными переменными. При предположении гауссовости проблема сводится к оценке разреженной матрицы точности, обсуждавшейся выше.

Примечания

  1. ^ ab Lederer, Johannes (2022). Основы многомерной статистики: с упражнениями и R-лабораториями . Springer Textbooks in Statistics. doi : 10.1017/9781108627771. ISBN 9781108498029. S2CID  128095693.
  2. ^ abc Wainwright, Martin J. (2019). Многомерная статистика: неасимптотическая точка зрения . Cambridge University Press. doi : 10.1017/9781108627771. ISBN 9781108498029. S2CID  128095693.
  3. ^ Уэйнрайт М. Дж. Высокомерная статистика: неасимптотическая точка зрения. Кембридж: Cambridge University Press; 2019. doi:10.1017/9781108627771
  4. ^ Stein, C. (1956), "Недопустимость обычной оценки для среднего значения многомерного распределения", Proc. Third Berkeley Symp. Math. Statist. Prob., т. 1, стр.  197–206 , MR  0084922, Zbl  0073.35602
  5. ^ Джеймс, У.; Стайн, К. (1961), «Оценка с квадратичными потерями», Труды Четвертого Берклийского симпозиума по математическим статистическим проблемам, т. 1, стр.  361–379 , MR  0133191
  6. ^ Hoerl, Arthur E. и Robert W. Kennard. «Ridge Regression: Biased Estimation for Nonorthogonal Problems». Technometrics , т. 12, № 1, 1970, стр. 55–67. [www.jstor.org/stable/1267351 JSTOR]. Доступ 13 марта 2021 г.
  7. ^ Тибширани, Роберт (1996). «Сжатие регрессии и выбор с помощью лассо». Журнал Королевского статистического общества . Серия B (методологическая). 58 (1). Wiley: 267–88 . JSTOR  2346178.
  8. ^ Кандес, Эммануэль ; Тао, Теренс (2007). «Селектор Данцига: статистическая оценка, когда p намного больше n ». Annals of Statistics . 35 (6): 2313–2351 . arXiv : math/0506081 . doi : 10.1214/009053606000001523. MR  2382644. S2CID  88524200.
  9. ^ Zou, Hui; Hastie, Trevor (2005). «Регуляризация и выбор переменных через эластичную сеть». Журнал Королевского статистического общества . Серия B (статистическая методология). 67 (2). Wiley: 301– 20. doi : 10.1111/j.1467-9868.2005.00503.x . JSTOR  3647580.
  10. ^ Юань, Мин; Линь, И (2006). «Выбор и оценка модели в регрессии с группированными переменными». Журнал Королевского статистического общества . Серия B (статистическая методология). 68 (1). Wiley: 49– 67. doi : 10.1111/j.1467-9868.2005.00532.x . JSTOR  3647556. S2CID  6162124.
  11. ^ Тибширани, Роберт, Майкл Сондерс, Сахарон Россет, Цзи Чжу и Кейт Найт. 2005. «Разреженность и гладкость с помощью слитого лассо». Журнал Королевского статистического общества. Серия Б (статистическая методология) 67 (1). Уайли: 91–108. https://www.jstor.org/stable/3647602.
  12. ^ Майнсхаузен, Николай; Бюльманн, Питер (2010). «Стабильный отбор». Журнал Королевского статистического общества, серия B (статистическая методология) . 72 (4): 417– 473. doi : 10.1111/j.1467-9868.2010.00740.x . ISSN  1467-9868. S2CID  1231300.
  13. ^ Шах, Раджен Д.; Сэмворт, Ричард Дж. (2013). «Выбор переменных с контролем ошибок: другой взгляд на выбор стабильности». Журнал Королевского статистического общества. Серия B (Статистическая методология) . 75 (1): 55–80 . arXiv : 1105.5578 . doi : 10.1111/j.1467-9868.2011.01034.x . ISSN  1369-7412. JSTOR  23361014. S2CID  18211609.
  14. ^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (август 2010 г.). «Оптимальные скорости сходимости для оценки ковариационной матрицы». The Annals of Statistics . 38 (4): 2118– 2144. arXiv : 1010.3866 . doi : 10.1214/09-AOS752. ISSN  0090-5364. S2CID  14038500. Получено 06.04.2021 .
  15. ^ Cai, Tony; Liu, Weidong; Luo, Xi (2011-06-01). "A Constrained ℓ 1 {\displaystyle \ell _{1}} Minimization Approach to Sparse Precision Matrix Estimation". Журнал Американской статистической ассоциации . 106 (494): 594– 607. arXiv : 1102.2233 . doi : 10.1198/jasa.2011.tm10155. ISSN  0162-1459. S2CID  15900101. Получено 2021-04-06 .
  16. ^ Джонстон, Иэн М.; Лу, Артур Ю (2009-06-01). «О согласованности и разреженности для анализа главных компонент в больших размерностях». Журнал Американской статистической ассоциации . 104 (486): 682– 693. doi :10.1198/jasa.2009.0121. ISSN  0162-1459. PMC 2898454. PMID 20617121  . 
  17. ^ Vu, Vincent Q.; Lei, Jing (декабрь 2013 г.). «Оценка минимаксного разреженного главного подпространства в больших размерностях». The Annals of Statistics . 41 (6): 2905–2947 . arXiv : 1211.0373 . doi : 10.1214/13-AOS1151 . ISSN  0090-5364. S2CID  562591.
  18. ^ Бикель, Питер Дж .; Левина, Елизавета (2004). «Некоторая теория для линейной дискриминантной функции Фишера, наивного байесовского метода и некоторые альтернативы, когда переменных намного больше, чем наблюдений». Бернулли . 10 (6): 989–1010 . doi : 10.3150/bj/1106314847 .
  19. ^ Фань, Цзяньцин; Фань, Инъин (декабрь 2008 г.). «Высокоразмерная классификация с использованием правил независимости отожженных признаков». Анналы статистики . 36 (6): 2605–2637 . arXiv : math/0701108 . doi : 10.1214/07 - AOS504 . PMC 2630123. PMID  19169416. S2CID  2982392. 
  20. ^ Каннингс, Тимоти И.; Сэмворт, Ричард Дж. (2017). «Случайно-проекционная ансамблевая классификация». Журнал Королевского статистического общества, серия B (статистическая методология) . 79 (4): 959–1035 . arXiv : 1504.04595 . doi : 10.1111/rssb.12228 . S2CID  88520328.

Ссылки

  • Ледерер, Йоханнес (2022). Основы многомерной статистики . Cham: Springer.
  • Жиро, Кристоф (2015). Введение в многомерную статистику . Филадельфия: Chapman and Hall/CRC.
  • Cai, T. Tony; Shen, Xiaotong, ред. (2011). Анализ многомерных данных . Frontiers of Statistics. Singapore: World Scientific.
  • Бюльманн, Питер ; ван де Гир, Сара (2011). Статистика многомерных данных: методы, теория и приложения . Гейдельберг; Нью-Йорк: Springer.
  • Уэйнрайт, Мартин Дж. (2019). Многомерная статистика: неасимптотическая точка зрения . Кембридж, Великобритания: Cambridge University Press.
Retrieved from "https://en.wikipedia.org/w/index.php?title=High-dimensional_statistics&oldid=1249371775#DATA"