В статистике скользящее среднее ( скользящее среднее или бегущее среднее или скользящее среднее [1] или скользящее среднее ) — это расчет для анализа точек данных путем создания серии средних значений различных выборок полного набора данных. Вариации включают: простые, кумулятивные или взвешенные формы.
Математически скользящее среднее — это тип свертки . Таким образом, в обработке сигналов оно рассматривается как фильтр нижних частот с конечной импульсной характеристикой . Поскольку функция boxcar описывает свои коэффициенты фильтра, она называется фильтром boxcar . Иногда за ним следует понижение частоты дискретизации .
При наличии ряда чисел и фиксированного размера подмножества первый элемент скользящего среднего получается путем взятия среднего значения начального фиксированного подмножества числового ряда. Затем подмножество модифицируется путем «сдвига вперед»; то есть, исключая первое число ряда и включая следующее значение в подмножестве.
Скользящее среднее обычно используется с данными временных рядов для сглаживания краткосрочных колебаний и выделения долгосрочных тенденций или циклов. Порог между краткосрочным и долгосрочным периодом зависит от приложения, и параметры скользящего среднего будут установлены соответствующим образом. Оно также используется в экономике для изучения валового внутреннего продукта, занятости или других макроэкономических временных рядов. При использовании с данными, не являющимися временными рядами, скользящее среднее фильтрует компоненты более высокой частоты без какой-либо конкретной связи со временем, хотя обычно подразумевается некое упорядочение. Упрощенно это можно рассматривать как сглаживание данных.
В финансовых приложениях простая скользящая средняя ( SMA ) — это невзвешенное среднее значение предыдущих точек данных. Однако в науке и технике среднее значение обычно берется из равного количества данных по обе стороны от центрального значения. Это гарантирует, что изменения в среднем значении будут соответствовать изменениям в данных, а не будут смещены во времени.Примером простого равномерно взвешенного скользящего среднего является среднее значение последних записей набора данных, содержащего записи. Пусть эти точки данных будут . Это могут быть цены закрытия акций. Среднее значение последних точек данных (дней в этом примере) обозначается как и рассчитывается как:
При вычислении следующего среднего значения с той же шириной выборки учитывается диапазон от до . В сумму добавляется новое значение, а самое старое значение выпадает. Это упрощает вычисления за счет повторного использования предыдущего среднего значения . Это означает, что фильтр скользящего среднего можно вычислить довольно дешево на данных в реальном времени с FIFO / кольцевым буфером и всего за 3 арифметических шага.
При первоначальном заполнении FIFO/кольцевого буфера окно выборки равно размеру набора данных, поэтому расчет среднего выполняется как кумулятивное скользящее среднее.
Выбранный период ( ) зависит от типа интересующего движения, например, краткосрочного, среднесрочного или долгосрочного.
Если используемые данные не центрированы вокруг среднего, простое скользящее среднее отстает от последних данных на половину ширины выборки. SMA также может непропорционально сильно зависеть от выпадения старых данных или поступления новых данных. Одной из характеристик SMA является то, что если данные имеют периодическую флуктуацию, то применение SMA этого периода устранит эту вариацию (среднее всегда содержит один полный цикл). Но идеально регулярный цикл встречается редко. [2]
Для ряда приложений выгодно избегать смещения, вызванного использованием только «прошлых» данных. Следовательно, можно вычислить центральное скользящее среднее , используя данные, равномерно распределенные по обе стороны от точки в ряду, где вычисляется среднее. [3] Для этого требуется использовать нечетное количество точек в окне выборки.
Главным недостатком SMA является то, что он пропускает значительную часть сигнала короче длины окна. Хуже того, он фактически инвертирует его. [ необходима цитата ] Это может привести к неожиданным артефактам, таким как пики в сглаженном результате, появляющиеся там, где в данных были провалы. Это также приводит к тому, что результат оказывается менее гладким, чем ожидалось, поскольку некоторые из более высоких частот не удаляются должным образом.
Его частотная характеристика представляет собой тип фильтра нижних частот, называемого синусоидальным по частоте .
Непрерывное скользящее среднее определяется следующим интегралом. Окружающая среда определяет интенсивность сглаживания графика функции.
Непрерывное скользящее среднее функции определяется как:
Большее значение больше сглаживает исходный график функции (синий) . Анимации ниже показывают скользящее среднее как анимацию в зависимости от различных значений для . Дробь используется, так как — это ширина интервала для интеграла.
В кумулятивном среднем ( CA ) данные поступают в упорядоченном потоке данных, и пользователь хотел бы получить среднее значение всех данных вплоть до текущего значения. Например, инвестор может захотеть узнать среднюю цену всех сделок с акциями для определенной акции вплоть до текущего времени. Поскольку происходит каждая новая сделка, средняя цена на момент сделки может быть рассчитана для всех сделок вплоть до этого момента с использованием кумулятивного среднего, обычно равновзвешенного среднего значения последовательности n значений вплоть до текущего времени:
Метод грубой силы для вычисления этого значения будет заключаться в том, чтобы хранить все данные и вычислять сумму и делить на количество точек каждый раз, когда поступают новые данные. Однако можно просто обновить кумулятивное среднее значение, когда новое значение становится доступным, используя формулу
Таким образом, текущее кумулятивное среднее для нового элемента данных равно предыдущему кумулятивному среднему, умноженному на n , плюс последний элемент данных, все деленное на количество полученных точек, n +1. Когда все данные поступят ( n = N ), тогда кумулятивное среднее будет равно окончательному среднему. Также возможно хранить промежуточную сумму данных, а также количество точек и делить сумму на количество точек, чтобы получать CA каждый раз, когда поступают новые данные.
Вывод формулы кумулятивного среднего прост. Используя и аналогично для n + 1 , видно, что
Решение этого уравнения приводит к результату
Взвешенное среднее — это среднее, которое имеет множители, чтобы придать разный вес данным в разных позициях в окне выборки. Математически взвешенное скользящее среднее — это свертка данных с фиксированной весовой функцией. Одно из приложений — удаление пикселизации из цифрового графического изображения. [ необходима цитата ]
В финансовой сфере, а точнее в анализе финансовых данных, взвешенное скользящее среднее (WMA) имеет особое значение весов, которые уменьшаются в арифметической прогрессии. [4] В n- дневном WMA последний день имеет вес n , предпоследний — и т. д., вплоть до единицы.
Знаменатель — треугольное число, равное В более общем случае знаменатель всегда будет суммой отдельных весов.
При расчете WMA по последовательным значениям разница между числителями и составляет . Если обозначить сумму как , то
График справа показывает, как веса уменьшаются, от самого высокого веса для самых последних данных, до нуля. Его можно сравнить с весами в экспоненциальном скользящем среднем, которое следует ниже.
Экспоненциальное скользящее среднее (EMA) , также известное как экспоненциально взвешенное скользящее среднее (EWMA) , [5] представляет собой фильтр с бесконечной импульсной характеристикой первого порядка , который применяет весовые коэффициенты, которые уменьшаются экспоненциально . Вес для каждого более старого значения уменьшается экспоненциально, никогда не достигая нуля. Эта формулировка соответствует Хантеру (1986). [6]
Существует также многомерная реализация EWMA, известная как MEWMA. [7]
Иногда используются и другие системы взвешивания — например, при торговле акциями вес по объему будет определяться пропорционально объему торгов каждого периода времени.
Еще одним взвешиванием, используемым актуариями, является 15-точечное скользящее среднее Спенсера [8] (центральное скользящее среднее). Его симметричные весовые коэффициенты составляют [−3, −6, −5, 3, 21, 46, 67, 74, 67, 46, 21, 3, −5, −6, −3], которые факторизуются как [1, 1, 1, 1] × [1, 1, 1, 1] × [1, 1, 1, 1, 1] × [−3, 3, 4, 3, −3]/320 и оставляет образцы любого квадратичного или кубического полинома неизменными. [9] [10]
За пределами мира финансов взвешенные бегущие средние имеют множество форм и применений. Каждая весовая функция или «ядро» имеет свои собственные характеристики. В инженерии и науке частотная и фазовая характеристика фильтра часто имеет первостепенное значение для понимания желаемых и нежелательных искажений, которые конкретный фильтр будет применять к данным.
Среднее значение не просто «сглаживает» данные. Среднее значение — это форма фильтра нижних частот. Чтобы сделать правильный выбор, следует понимать эффекты конкретного используемого фильтра. По этому поводу во французской версии этой статьи обсуждаются спектральные эффекты 3 видов средних значений (кумулятивных, экспоненциальных, гауссовых).
С точки зрения статистики, скользящее среднее, когда оно используется для оценки базовой тенденции во временном ряду, подвержено редким событиям, таким как быстрые шоки или другие аномалии. Более надежной оценкой тенденции является простая скользящая медиана по n временным точкам: где медиана находится, например, путем сортировки значений внутри скобок и нахождения значения в середине. Для больших значений n медиану можно эффективно вычислить, обновив индексируемый skiplist . [11]
Статистически скользящее среднее является оптимальным для восстановления базовой тенденции временного ряда, когда колебания вокруг тенденции распределены нормально . Однако нормальное распределение не возлагает высокую вероятность на очень большие отклонения от тенденции, что объясняет, почему такие отклонения будут иметь непропорционально большое влияние на оценку тенденции. Можно показать, что если вместо этого предположить, что колебания распределены по Лапласу , то скользящая медиана является статистически оптимальной. [12] Для заданной дисперсии распределение Лапласа возлагает более высокую вероятность на редкие события, чем нормальное, что объясняет, почему скользящая медиана переносит шоки лучше, чем скользящее среднее.
Когда простая скользящая медиана выше находится в центре, сглаживание идентично медианному фильтру , который применяется, например, в обработке сигналов изображений. Движущаяся медиана является более надежной альтернативой скользящей средней, когда дело доходит до оценки базовой тенденции во временном ряду. Хотя скользящая средняя оптимальна для восстановления тенденции, если колебания вокруг тенденции распределены нормально, она восприимчива к влиянию редких событий, таких как быстрые шоки или аномалии. Напротив, скользящая медиана, которая находится путем сортировки значений внутри временного окна и нахождения значения в середине, более устойчива к влиянию таких редких событий. Это связано с тем, что для заданной дисперсии распределение Лапласа, которое предполагает скользящая медиана, устанавливает более высокую вероятность для редких событий, чем нормальное распределение, которое предполагает скользящая средняя. В результате скользящая медиана обеспечивает более надежную и стабильную оценку базовой тенденции, даже когда на временной ряд влияют большие отклонения от тенденции. Кроме того, сглаживание с помощью движущейся медианы идентично медианному фильтру, который имеет различные применения при обработке сигналов изображений.
В модели регрессии скользящего среднего предполагается, что интересующая переменная представляет собой взвешенное скользящее среднее ненаблюдаемых независимых членов ошибки; веса в скользящем среднем являются параметрами, которые необходимо оценить.
Эти два понятия часто путают из-за их названия, но, хотя у них много общего, они представляют собой разные методы и используются в совершенно разных контекстах.