Коррелограмма

Изображение корреляционной статистики

График, показывающий 100 случайных чисел со «скрытой» синусоидальной функцией и автокорреляцией (коррелограммой) ряда внизу.

В анализе данных коррелограмма — это диаграмма корреляционной статистики. Например, в анализе временных рядов график выборочных автокорреляций против (временных задержек) — это автокоррелограмма . Если на график нанесена кросс-корреляция , результат называется кросс-коррелограммой . г час {\displaystyle r_{h}\,} час {\displaystyle ч\,}

Коррелограмма — это часто используемый инструмент для проверки случайности в наборе данных . Если случайный, автокорреляции должны быть близки к нулю для любых и всех разделений по времени. Если неслучайный, то одна или несколько автокорреляций будут значительно ненулевыми.

Кроме того, коррелограммы используются на этапе идентификации модели для моделей временных рядов авторегрессии Бокса–Дженкинса с скользящим средним . Автокорреляции должны быть близки к нулю для случайности; если аналитик не проверяет случайность, то обоснованность многих статистических заключений становится сомнительной. Коррелограмма является отличным способом проверки такой случайности.

В многомерном анализе корреляционные матрицы , представленные в виде цветных изображений, также могут называться «коррелограммами» или «коррграммами». [1] [2] [3]

Приложения

Коррелограмма может помочь дать ответы на следующие вопросы: [4]

  • Случайны ли данные?
  • Связано ли наблюдение с соседним наблюдением?
  • Связано ли наблюдение с наблюдением, удаленным дважды? (и т. д.)
  • Является ли наблюдаемый временной ряд белым шумом ?
  • Является ли наблюдаемый временной ряд синусоидальным?
  • Является ли наблюдаемый временной ряд авторегрессионным?
  • Какая модель является подходящей для наблюдаемого временного ряда?
  • Это модель?
И = постоянный + ошибка {\displaystyle Y={\text{константа}}+{\text{ошибка}}}
действительны и достаточны?
  • Верна ли формула ? с И ¯ = с / Н {\displaystyle s_{\bar {Y}}=s/{\sqrt {N}}}

Важность

Случайность (наряду с фиксированной моделью, фиксированной вариацией и фиксированным распределением) является одним из четырех предположений, которые обычно лежат в основе всех процессов измерения. Предположение о случайности имеет решающее значение по следующим трем причинам:

  • Большинство стандартных статистических тестов зависят от случайности. Обоснованность выводов теста напрямую связана с обоснованностью предположения о случайности.
  • Многие широко используемые статистические формулы основаны на предположении о случайности, наиболее распространенной из которых является формула для определения стандартной ошибки выборочного среднего:
с И ¯ = с / Н {\displaystyle s_{\bar {Y}}=s/{\sqrt {N}}}

где sстандартное отклонение данных. Несмотря на широкое использование, результаты применения этой формулы не имеют никакой ценности, если предположение о случайности не выполняется.

  • Для одномерных данных модель по умолчанию:
И = постоянный + ошибка {\displaystyle Y={\text{константа}}+{\text{ошибка}}}

Если данные не являются случайными, эта модель неверна и недействительна, а оценки параметров (таких как константа) становятся бессмысленными и недействительными.

Оценка автокорреляций

Коэффициент автокорреляции при задержке h определяется по формуле

г час = с час / с 0 {\displaystyle r_{h}=c_{h}/c_{0}\,}

где c hавтоковариационная функция

с час = 1 Н т = 1 Н час ( И т И ¯ ) ( И т + час И ¯ ) {\displaystyle c_{h}={\frac {1}{N}}\sum _{t=1}^{Nh}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)}

и c 0функция дисперсии

с 0 = 1 Н т = 1 Н ( И т И ¯ ) 2 {\displaystyle c_{0}={\frac {1}{N}}\sum _{t=1}^{N}\left(Y_{t}-{\bar {Y}}\right)^{2}}

Результирующее значение r h будет находиться в диапазоне от −1 до +1.

Альтернативная оценка

В некоторых источниках может использоваться следующая формула для функции автоковариации:

с час = 1 Н час т = 1 Н час ( И т И ¯ ) ( И т + час И ¯ ) {\displaystyle c_{h}={\frac {1}{Nh}}\sum _{t=1}^{Nh}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)}

Хотя это определение имеет меньше смещения , формулировка (1/ N ) имеет некоторые желательные статистические свойства и является формой, наиболее часто используемой в статистической литературе. Подробности см. на страницах 20 и 49–50 в Chatfield.

В отличие от определения выше, это определение позволяет нам вычислять немного более интуитивно. Рассмотрим пример , где для . Затем, пусть с час {\displaystyle c_{h}} И 1 , , И Н {\displaystyle Y_{1},\dots,Y_{N}} И я Р н {\displaystyle Y_{i}\in \mathbb {R} ^{n}} я = 1 , , Н {\displaystyle i=1,\точки ,N}

Х = [ И 1 И ¯ И Н И ¯ ] Р н × Н {\displaystyle X={\begin{bmatrix}Y_{1}-{\bar {Y}}&\cdots &Y_{N}-{\bar {Y}}\end{bmatrix}}\in \mathbb {R} ^{n\times N}}

Затем мы вычисляем матрицу Грама . Наконец, вычисляется как выборочное среднее диагонали th из . Например, диагональ th (главная диагональ) имеет элементы, а ее выборочное среднее соответствует . Диагональ st (справа от главной диагонали) имеет элементы, а ее выборочное среднее соответствует , и так далее. В = Х Х {\displaystyle Q=X^{\top }X} с час {\displaystyle c_{h}} час {\displaystyle ч} В {\displaystyle Q} 0 {\displaystyle 0} В {\displaystyle Q} Н {\displaystyle N} с 0 {\displaystyle c_{0}} 1 {\displaystyle 1} В {\displaystyle Q} Н 1 {\displaystyle N-1} с 1 {\displaystyle c_{1}}

Статистический вывод с помощью коррелограмм

Пример коррелограммы из 400-точечной выборки процесса авторегрессии первого порядка с корреляцией соседних точек 0,75, а также 95% доверительные интервалы (построенные вокруг оценок корреляции черным цветом и около нуля красным цветом), рассчитанные по уравнениям в этом разделе. Пунктирная синяя линия показывает фактическую функцию автокорреляции выбранного процесса.
20 коррелограмм из 400-точечных выборок того же случайного процесса, что и на предыдущем рисунке.

На этом же графике можно построить верхнюю и нижнюю границы автокорреляции с уровнем значимости : α {\displaystyle \альфа \,}

Б = ± з 1 α / 2 С Э ( г час ) {\displaystyle B=\pm z_{1-\alpha /2}SE(r_{h})\,} с предполагаемой автокорреляцией при задержке . г час {\displaystyle r_{h}\,} час {\displaystyle ч\,}

Если автокорреляция выше (ниже) этой верхней (нижней) границы, нулевая гипотеза об отсутствии автокорреляции при заданном лаге и за его пределами отвергается на уровне значимости . Этот тест является приблизительным и предполагает, что временной ряд является гауссовым . α {\displaystyle \альфа \,}

В приведенном выше выражении z 1− α /2 — это квантиль нормального распределения ; SE — это стандартная ошибка, которую можно вычислить по формуле Бартлетта для процессов MA( ):

С Э ( г 1 ) = 1 Н {\displaystyle SE(r_{1})={\frac {1}{\sqrt {N}}}}
С Э ( г час ) = 1 + 2 я = 1 час 1 г я 2 Н {\displaystyle SE(r_{h})={\sqrt {\frac {1+2\sum _{i=1}^{h-1}r_{i}^{2}}{N}}}} для час > 1. {\displaystyle h>1.\,}

В представленном примере мы можем отвергнуть нулевую гипотезу об отсутствии автокорреляции между временными точками, разделенными лагами до 4. Для большинства более длительных периодов нельзя отвергнуть нулевую гипотезу об отсутствии автокорреляции.

Обратите внимание, что существуют две различные формулы для расчета доверительных интервалов:

1. Если коррелограмма используется для проверки на случайность (т.е. на отсутствие зависимости данных от времени), рекомендуется следующая формула:

± з 1 α / 2 Н {\displaystyle \pm {\frac {z_{1-\alpha /2}}{\sqrt {N}}}}

где Nразмер выборки , zфункция квантиля стандартного нормального распределения , а α — уровень значимости . В этом случае доверительные интервалы имеют фиксированную ширину, которая зависит от размера выборки.

2. Коррелограммы также используются на этапе идентификации модели для подгонки моделей ARIMA . В этом случае для данных предполагается модель скользящего среднего , и должны быть созданы следующие доверительные интервалы:

± з 1 α / 2 1 Н ( 1 + 2 я = 1 к г я 2 ) {\displaystyle \pm z_{1-\alpha /2}{\sqrt {{\frac {1}{N}}\left(1+2\sum _{i=1}^{k}r_{i}^{2}\right)}}}

где k — это задержка. В этом случае доверительные интервалы увеличиваются по мере увеличения задержки.

Программное обеспечение

Коррелограммы доступны в большинстве статистических библиотек общего назначения.

Коррелограммы:

Коррграммы:

Ссылки

  1. ^ Friendly, Michael (19 августа 2002 г.). "Corrgrams: Exploratory displays for Correlation matrices" (PDF) . The American Statistician . 56 (4). Taylor & Francis : 316– 324. doi :10.1198/000313002533 . Получено 19 января 2014 г. .
  2. ^ ab "CRAN – Package corrgram". cran.r-project.org . 29 августа 2013 г. Получено 19 января 2014 г.
  3. ^ ab "Quick-R: Correlograms". statmethods.net . Получено 19 января 2014 г. .
  4. ^ "1.3.3.1. График автокорреляции". www.itl.nist.gov . Получено 20 августа 2018 г. .
  5. ^ "Визуализация § График автокорреляции".

Дальнейшее чтение

  • Ханке, Джон Э.; Райч, Артур Г.; Вихерн, Дин В. Бизнес-прогнозирование (7-е изд.). Аппер Сэддл Ривер, Нью-Джерси: Prentice Hall.
  • Бокс, ГЭП; Дженкинс, Г. (1976). Анализ временных рядов: прогнозирование и контроль . Холден-Дэй.
  • Чатфилд, К. (1989). Анализ временных рядов: Введение (четвертое издание). Нью-Йорк, Нью-Йорк: Chapman & Hall.
  • График автокорреляции

Общественное достояние В статье использованы материалы, являющиеся общественным достоянием Национального института стандартов и технологий.

Взято с "https://en.wikipedia.org/w/index.php?title=Коррелограмма&oldid=1147526797"