В анализе данных коррелограмма — это диаграмма корреляционной статистики. Например, в анализе временных рядов график выборочных автокорреляций против (временных задержек) — это автокоррелограмма . Если на график нанесена кросс-корреляция , результат называется кросс-коррелограммой .
Коррелограмма — это часто используемый инструмент для проверки случайности в наборе данных . Если случайный, автокорреляции должны быть близки к нулю для любых и всех разделений по времени. Если неслучайный, то одна или несколько автокорреляций будут значительно ненулевыми.
Кроме того, коррелограммы используются на этапе идентификации модели для моделей временных рядов авторегрессии Бокса–Дженкинса с скользящим средним . Автокорреляции должны быть близки к нулю для случайности; если аналитик не проверяет случайность, то обоснованность многих статистических заключений становится сомнительной. Коррелограмма является отличным способом проверки такой случайности.
Коррелограмма может помочь дать ответы на следующие вопросы: [4]
Случайны ли данные?
Связано ли наблюдение с соседним наблюдением?
Связано ли наблюдение с наблюдением, удаленным дважды? (и т. д.)
Является ли наблюдаемый временной ряд белым шумом ?
Является ли наблюдаемый временной ряд синусоидальным?
Является ли наблюдаемый временной ряд авторегрессионным?
Какая модель является подходящей для наблюдаемого временного ряда?
Это модель?
действительны и достаточны?
Верна ли формула ?
Важность
Случайность (наряду с фиксированной моделью, фиксированной вариацией и фиксированным распределением) является одним из четырех предположений, которые обычно лежат в основе всех процессов измерения. Предположение о случайности имеет решающее значение по следующим трем причинам:
Большинство стандартных статистических тестов зависят от случайности. Обоснованность выводов теста напрямую связана с обоснованностью предположения о случайности.
Многие широко используемые статистические формулы основаны на предположении о случайности, наиболее распространенной из которых является формула для определения стандартной ошибки выборочного среднего:
где s — стандартное отклонение данных. Несмотря на широкое использование, результаты применения этой формулы не имеют никакой ценности, если предположение о случайности не выполняется.
Для одномерных данных модель по умолчанию:
Если данные не являются случайными, эта модель неверна и недействительна, а оценки параметров (таких как константа) становятся бессмысленными и недействительными.
Оценка автокорреляций
Коэффициент автокорреляции при задержке h определяется по формуле
Результирующее значение r h будет находиться в диапазоне от −1 до +1.
Альтернативная оценка
В некоторых источниках может использоваться следующая формула для функции автоковариации:
Хотя это определение имеет меньше смещения , формулировка (1/ N ) имеет некоторые желательные статистические свойства и является формой, наиболее часто используемой в статистической литературе. Подробности см. на страницах 20 и 49–50 в Chatfield.
В отличие от определения выше, это определение позволяет нам вычислять немного более интуитивно. Рассмотрим пример , где для . Затем, пусть
Затем мы вычисляем матрицу Грама . Наконец, вычисляется как выборочное среднее диагонали th из . Например, диагональ th (главная диагональ) имеет элементы, а ее выборочное среднее соответствует . Диагональ st (справа от главной диагонали) имеет элементы, а ее выборочное среднее соответствует , и так далее.
Статистический вывод с помощью коррелограмм
На этом же графике можно построить верхнюю и нижнюю границы автокорреляции с уровнем значимости :
с предполагаемой автокорреляцией при задержке .
Если автокорреляция выше (ниже) этой верхней (нижней) границы, нулевая гипотеза об отсутствии автокорреляции при заданном лаге и за его пределами отвергается на уровне значимости . Этот тест является приблизительным и предполагает, что временной ряд является гауссовым .
В приведенном выше выражении z 1− α /2 — это квантиль нормального распределения ; SE — это стандартная ошибка, которую можно вычислить по формуле Бартлетта для процессов MA( ℓ ):
для
В представленном примере мы можем отвергнуть нулевую гипотезу об отсутствии автокорреляции между временными точками, разделенными лагами до 4. Для большинства более длительных периодов нельзя отвергнуть нулевую гипотезу об отсутствии автокорреляции.
Обратите внимание, что существуют две различные формулы для расчета доверительных интервалов:
1. Если коррелограмма используется для проверки на случайность (т.е. на отсутствие зависимости данных от времени), рекомендуется следующая формула:
2. Коррелограммы также используются на этапе идентификации модели для подгонки моделей ARIMA . В этом случае для данных предполагается модель скользящего среднего , и должны быть созданы следующие доверительные интервалы:
где k — это задержка. В этом случае доверительные интервалы увеличиваются по мере увеличения задержки.
Программное обеспечение
Коррелограммы доступны в большинстве статистических библиотек общего назначения.
^ Friendly, Michael (19 августа 2002 г.). "Corrgrams: Exploratory displays for Correlation matrices" (PDF) . The American Statistician . 56 (4). Taylor & Francis : 316– 324. doi :10.1198/000313002533 . Получено 19 января 2014 г. .
^ ab "CRAN – Package corrgram". cran.r-project.org . 29 августа 2013 г. Получено 19 января 2014 г.
^ ab "Quick-R: Correlograms". statmethods.net . Получено 19 января 2014 г. .
^ "1.3.3.1. График автокорреляции". www.itl.nist.gov . Получено 20 августа 2018 г. .
^ "Визуализация § График автокорреляции".
Дальнейшее чтение
Ханке, Джон Э.; Райч, Артур Г.; Вихерн, Дин В. Бизнес-прогнозирование (7-е изд.). Аппер Сэддл Ривер, Нью-Джерси: Prentice Hall.
Бокс, ГЭП; Дженкинс, Г. (1976). Анализ временных рядов: прогнозирование и контроль . Холден-Дэй.
Чатфилд, К. (1989). Анализ временных рядов: Введение (четвертое издание). Нью-Йорк, Нью-Йорк: Chapman & Hall.