Приблизительная энтропия

Понятие в статистике

В статистике приближенная энтропия ( ApEn ) — это метод, используемый для количественной оценки степени регулярности и непредсказуемости колебаний в данных временного ряда . [1] Например, рассмотрим два ряда данных:

Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой попеременно 0 и 1.
Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, ...), которая имеет либо значение 0, либо 1, выбранное случайным образом, каждое с вероятностью 1/2.

Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Статистика рангов также не различает эти ряды. Тем не менее, ряд A совершенно регулярен: знание того, что член имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B имеет случайные значения: знание того, что член имеет значение 1, не дает никакого представления о том, какое значение будет иметь следующий член.

Регулярность изначально измерялась точной статистикой регулярности, которая в основном была сосредоточена на различных мерах энтропии. [1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум, [2] поэтому нецелесообразно применять эти методы к экспериментальным данным. ApEn был впервые предложен (под другим названием) А. Коэном и И. Прокаччиа, [3] как приближенный алгоритм для вычисления точной статистики регулярности, энтропии Колмогорова–Синая , и позже популяризирован Стивом М. Пинкусом. ApEn изначально использовался для анализа хаотической динамики и медицинских данных, таких как частота сердечных сокращений, [1] а затем распространил свои приложения в финансах , [4] физиологии , [5] инженерии человеческого фактора , [6] и климатических науках. [7]

Алгоритм

Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. [8] Алгоритм таков:

Шаг 1
Предположим, что есть временной ряд данных . Это необработанные значения данных из измерений, равномерно распределенных во времени. ты ( 1 ) , ты ( 2 ) , , ты ( Н ) {\displaystyle u(1),u(2),\ldots ,u(N)} Н {\displaystyle N}
Шаг 2
Пусть будет положительным целым числом , с , которое представляет длину серии данных (по сути, окно ). Пусть будет положительным действительным числом , которое определяет уровень фильтрации. Пусть . м З + {\displaystyle m\in \mathbb {Z} ^{+}} м Н {\displaystyle m\leq N}
г Р + {\displaystyle r\in \mathbb {R} ^{+}}
н = Н м + 1 {\displaystyle n=N-m+1}
Шаг 3
Определим для каждого, где . Другими словами, -мерный вектор , содержащий ряд данных, начиная с . Определим расстояние между двумя векторами и как максимальное из расстояний между их соответствующими компонентами, заданное формулой х ( я ) = [ ты ( я ) , ты ( я + 1 ) , , ты ( я + м 1 ) ] {\displaystyle \mathbf {x} (i)={\big [}u(i),u(i+1),\ldots ,u(i+m-1){\big ]}} я {\displaystyle я} 1 я н {\displaystyle 1\leq i\leq n} х ( я ) {\displaystyle \mathbf {x} (я)} м {\displaystyle м} ты ( я ) {\displaystyle u(я)}
х ( я ) {\displaystyle \mathbf {x} (я)} х ( дж ) {\displaystyle \mathbf {x} (j)}
г [ х ( я ) , х ( дж ) ] = макс к ( | х ( я ) к х ( дж ) к | ) = макс к ( | ты ( я + к 1 ) ты ( дж + к 1 ) | ) {\displaystyle {\begin{align}d[\mathbf {x} (i),\mathbf {x} (j)]&=\max _{k}{\big (}|\mathbf {x} (i)_{k}-\mathbf {x} (j)_{k}|{\big )}\\&=\max _{k}{\big (}|u(i+k-1)-u(j+k-1)|{\big )}\\\end{align}}}
для . 1 к м {\displaystyle 1\leq k\leq m}
Шаг 4
Определить количество как С я м {\displaystyle C_{i}^{m}}
С я м ( г ) = ( количество  дж  такой что  г [ х ( я ) , х ( дж ) ] г ) н {\displaystyle C_{i}^{m}(r)={({\text{количество }}j{\text{ таких, что }}d[\mathbf {x} (i),\mathbf {x} (j)]\leq r) \over n}}
для каждого, где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т. е. когда тестовая подпоследовательность, , сопоставляется сама с собой, ). я {\displaystyle я} 1 я , дж н {\displaystyle 1\leq i,j\leq n} дж {\displaystyle j} н {\displaystyle n} дж = я {\displaystyle j=i} х ( дж ) {\displaystyle \mathbf {x} (j)} х ( я ) {\displaystyle \mathbf {x} (я)}
Шаг 5
Определять
ϕ м ( г ) = 1 н я = 1 н бревно ( С я м ( г ) ) {\displaystyle \phi ^{m}(r)={1 \over n}\sum _{i=1}^{n}\log(C_{i}^{m}(r))}
где — натуральный логарифм , а для фиксированного , и как установлено в Шаге 2. бревно {\displaystyle \log } m {\displaystyle m} r {\displaystyle r} n {\displaystyle n}
Шаг 6
Определим приблизительную энтропию ( ) как A p E n {\displaystyle \mathrm {ApEn} }
A p E n ( m , r , N ) ( u ) = ϕ m ( r ) ϕ m + 1 ( r ) {\displaystyle \mathrm {ApEn} (m,r,N)(u)=\phi ^{m}(r)-\phi ^{m+1}(r)}
Выбор параметров
Обычно выбирают или , тогда как во многом это зависит от области применения. m = 2 {\displaystyle m=2} m = 3 {\displaystyle m=3} r {\displaystyle r}

Реализация на Physionet [9] , основанная на Pincus [2] , использует вместо на шаге 4. Хотя это и вызывает беспокойство в случае искусственно созданных примеров, на практике это обычно не вызывает беспокойства. d [ x ( i ) , x ( j ) ] < r {\displaystyle d[\mathbf {x} (i),\mathbf {x} (j)]<r} d [ x ( i ) , x ( j ) ] r {\displaystyle d[\mathbf {x} (i),\mathbf {x} (j)]\leq r}

Пример

Иллюстрация последовательности сердечного ритма

Рассмотрим последовательность выборок частоты сердечных сокращений, равномерно распределенных во времени: N = 51 {\displaystyle N=51}

  S N = { 85 , 80 , 89 , 85 , 80 , 89 , } {\displaystyle \ S_{N}=\{85,80,89,85,80,89,\ldots \}}

Обратите внимание, что последовательность является периодической с периодом 3. Давайте выберем и (значения и можно изменять, не влияя на результат). m = 2 {\displaystyle m=2} r = 3 {\displaystyle r=3} m {\displaystyle m} r {\displaystyle r}

Сформируем последовательность векторов:

x ( 1 ) = [ u ( 1 )   u ( 2 ) ] = [ 85   80 ] x ( 2 ) = [ u ( 2 )   u ( 3 ) ] = [ 80   89 ] x ( 3 ) = [ u ( 3 )   u ( 4 ) ] = [ 89   85 ] x ( 4 ) = [ u ( 4 )   u ( 5 ) ] = [ 85   80 ]     {\displaystyle {\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)]=[85\ 80]\\\mathbf {x} (2)&=[u(2)\ u(3)]=[80\ 89]\\\mathbf {x} (3)&=[u(3)\ u(4)]=[89\ 85]\\\mathbf {x} (4)&=[u(4)\ u(5)]=[85\ 80]\\&\ \ \vdots \end{aligned}}}

Расстояние вычисляется повторно следующим образом. В первом расчете,

  d [ x ( 1 ) , x ( 1 ) ] = max k | x ( 1 ) k x ( 1 ) k | = 0 {\displaystyle \ d[\mathbf {x} (1),\mathbf {x} (1)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (1)_{k}|=0} что меньше, чем . r {\displaystyle r}

Во втором расчете обратите внимание, что , поэтому | u ( 2 ) u ( 3 ) | > | u ( 1 ) u ( 2 ) | {\displaystyle |u(2)-u(3)|>|u(1)-u(2)|}

  d [ x ( 1 ) , x ( 2 ) ] = max k | x ( 1 ) k x ( 2 ) k | = | u ( 2 ) u ( 3 ) | = 9 {\displaystyle \ d[\mathbf {x} (1),\mathbf {x} (2)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x} (2)_{k}|=|u(2)-u(3)|=9} что больше, чем . r {\displaystyle r}

Сходным образом,

d [ x ( 1 ) , x ( 3 ) ] = | u ( 2 ) u ( 4 ) | = 5 > r d [ x ( 1 ) , x ( 4 ) ] = | u ( 1 ) u ( 4 ) | = | u ( 2 ) u ( 5 ) | = 0 < r d [ x ( 1 ) , x ( j ) ] = {\displaystyle {\begin{aligned}d[\mathbf {x} (1)&,\mathbf {x} (3)]=|u(2)-u(4)|=5>r\\d[\mathbf {x} (1)&,\mathbf {x} (4)]=|u(1)-u(4)|=|u(2)-u(5)|=0<r\\&\vdots \\d[\mathbf {x} (1)&,\mathbf {x} (j)]=\cdots \\&\vdots \\\end{aligned}}}

Результатом является всего 17 терминов , таких что . К ним относятся . В этих случаях это x ( j ) {\displaystyle \mathbf {x} (j)} d [ x ( 1 ) , x ( j ) ] r {\displaystyle d[\mathbf {x} (1),\mathbf {x} (j)]\leq r} x ( 1 ) , x ( 4 ) , x ( 7 ) , , x ( 49 ) {\displaystyle \mathbf {x} (1),\mathbf {x} (4),\mathbf {x} (7),\ldots ,\mathbf {x} (49)} C i m ( r ) {\displaystyle C_{i}^{m}(r)}

  C 1 2 ( 3 ) = 17 50 {\displaystyle \ C_{1}^{2}(3)={\frac {17}{50}}}
  C 2 2 ( 3 ) = 17 50 {\displaystyle \ C_{2}^{2}(3)={\frac {17}{50}}}
  C 3 2 ( 3 ) = 16 50 {\displaystyle \ C_{3}^{2}(3)={\frac {16}{50}}}
  C 4 2 ( 3 ) = 17 50   {\displaystyle \ C_{4}^{2}(3)={\frac {17}{50}}\ \cdots }

Обратите внимание на шаг 4, для . Таким образом, члены, такие что включают , и общее число равно 16. 1 i n {\displaystyle 1\leq i\leq n} x ( i ) {\displaystyle \mathbf {x} (i)} x ( j ) {\displaystyle \mathbf {x} (j)} d [ x ( 3 ) , x ( j ) ] r {\displaystyle d[\mathbf {x} (3),\mathbf {x} (j)]\leq r} x ( 3 ) , x ( 6 ) , x ( 9 ) , , x ( 48 ) {\displaystyle \mathbf {x} (3),\mathbf {x} (6),\mathbf {x} (9),\ldots ,\mathbf {x} (48)}

В конце этих расчетов мы имеем

ϕ 2 ( 3 ) = 1 50 i = 1 50 log ( C i 2 ( 3 ) ) 1.0982 {\displaystyle \phi ^{2}(3)={1 \over 50}\sum _{i=1}^{50}\log(C_{i}^{2}(3))\approx -1.0982}

Затем повторяем вышеописанные шаги для . Сначала формируем последовательность векторов: m = 3 {\displaystyle m=3}

x ( 1 ) = [ u ( 1 )   u ( 2 )   u ( 3 ) ] = [ 85   80   89 ] x ( 2 ) = [ u ( 2 )   u ( 3 )   u ( 4 ) ] = [ 80   89   85 ] x ( 3 ) = [ u ( 3 )   u ( 4 )   u ( 5 ) ] = [ 89   85   80 ] x ( 4 ) = [ u ( 4 )   u ( 5 )   u ( 6 ) ] = [ 85   80   89 ]     {\displaystyle {\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)\ u(3)]=[85\ 80\ 89]\\\mathbf {x} (2)&=[u(2)\ u(3)\ u(4)]=[80\ 89\ 85]\\\mathbf {x} (3)&=[u(3)\ u(4)\ u(5)]=[89\ 85\ 80]\\\mathbf {x} (4)&=[u(4)\ u(5)\ u(6)]=[85\ 80\ 89]\\&\ \ \vdots \end{aligned}}}

Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику: x ( i ) , x ( j ) , 1 i 49 {\displaystyle \mathbf {x} (i),\mathbf {x} (j),1\leq i\leq 49}

d [ x ( i ) , x ( i + 3 ) ] = 0 < r {\displaystyle d[\mathbf {x} (i),\mathbf {x} (i+3)]=0<r}

Поэтому,

  C 1 3 ( 3 ) = 17 49 {\displaystyle \ C_{1}^{3}(3)={\frac {17}{49}}}
  C 2 3 ( 3 ) = 16 49 {\displaystyle \ C_{2}^{3}(3)={\frac {16}{49}}}
  C 3 3 ( 3 ) = 16 49 {\displaystyle \ C_{3}^{3}(3)={\frac {16}{49}}}
  C 4 3 ( 3 ) = 17 49   {\displaystyle \ C_{4}^{3}(3)={\frac {17}{49}}\ \cdots }

В конце этих расчетов мы имеем

ϕ 3 ( 3 ) = 1 49 i = 1 49 log ( C i 3 ( 3 ) ) 1.0982 {\displaystyle \phi ^{3}(3)={1 \over 49}\sum _{i=1}^{49}\log(C_{i}^{3}(3))\approx -1.0982}

Окончательно,

A p E n = ϕ 2 ( 3 ) ϕ 3 ( 3 ) 0.000010997 {\displaystyle \mathrm {ApEn} =\phi ^{2}(3)-\phi ^{3}(3)\approx 0.000010997}

Значение очень мало, поэтому оно подразумевает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.

Реализация Python

импорт  математикиdef  approx_entropy ( time_series ,  run_length ,  filter_level )  ->  float : """  Приблизительная энтропия  >>> импорт случайных  >>> регулярно = [85, 80, 89] * 17  >>> print(f"{approx_entropy(regularly, 2, 3):e}")  1.099654e-05  >>> случайно = [random.choice([85, 80, 89]) for _ in range(17*3)]  >>> 0.8 < approx_entropy(randomly, 2, 3) < 1  True  """ def  _maxdist ( x_i ,  x_j ):  возвращает  max ( abs ( ua  -  va )  для  ua ,  va  в  zip ( x_i ,  x_j )) def  _phi ( m ):  n  =  time_series_length  -  m  +  1  x  =  [  [ time_series [ j ]  для  j  в  диапазоне ( i ,  i  +  m  -  1  +  1 )]  для  i  в  диапазоне ( time_series_length  -  m  +  1 )  ]  counts  =  [  sum ( 1  для  x_j  в  x  if  _maxdist ( x_i ,  x_j )  <=  filter_level )  /  n  для  x_i  в  x  ]  return  sum ( math . log ( c )  для  c  в  counts )  /  n длина_временной_серии  =  len ( временная_серия ) вернуть  abs ( _phi ( длина_запуска  +  1 )  -  _phi ( длина_запуска ))если  __name__  ==  "__main__" :  импортировать  doctest doctest . testmod ()

Реализация MATLAB

  • Быстрая аппроксимационная энтропия от MatLab Central
  • приблизительнаяЭнтропия

Интерпретация

Наличие повторяющихся моделей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие модели отсутствуют. ApEn отражает вероятность того, что за аналогичными моделями наблюдений не последуют дополнительные аналогичные наблюдения. [10] Временной ряд, содержащий много повторяющихся моделей, имеет относительно небольшое значение ApEn; менее предсказуемый процесс имеет более высокое значение ApEn.

Преимущества

Преимущества ApEn включают в себя: [2]

  • Снижение вычислительных требований. ApEn может быть разработан для работы с небольшими выборками данных ( точками) и может применяться в режиме реального времени. N < 50 {\displaystyle N<50}
  • Меньше влияния шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.

Ограничения

Алгоритм ApEn считает каждую последовательность соответствующей самой себе, чтобы избежать появления в расчетах. Этот шаг может внести смещение в ApEn, что приводит к тому, что ApEn на практике имеет два плохих свойства: [11] log ( 0 ) {\displaystyle \log(0)}

  1. ApEn сильно зависит от длины записи и для коротких записей всегда ниже ожидаемого.
  2. Ему не хватает относительной согласованности. То есть, если ApEn одного набора данных выше, чем у другого, он должен оставаться выше, но не остается, для всех протестированных условий.

Приложения

ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, [12] эпилепсия, [13] и наркомания. [14]

Смотрите также

Ссылки

  1. ^ abc Pincus, SM; Gladstone, IM; Ehrenkranz, RA (1991). "Статистика регулярности для анализа медицинских данных". Journal of Clinical Monitoring and Computing . 7 (4): 335– 345. doi :10.1007/BF01619355. PMID  1744678. S2CID  23455856.
  2. ^ abc Pincus, SM (1991). «Приблизительная энтропия как мера сложности системы». Труды Национальной академии наук . 88 (6): 2297– 2301. Bibcode :1991PNAS...88.2297P. doi : 10.1073/pnas.88.6.2297 . PMC 51218 . PMID  11607165. 
  3. ^ Коэн, А.; Прокачча, И. (1985). "Вычисление энтропии Колмогорова из сигналов времени диссипативных и консервативных динамических систем". Physical Review A. 28 ( 3): 2591(R). Bibcode : 1985PhRvA..31.1872C. doi : 10.1103/PhysRevA.31.1872. PMID  9895695.
  4. ^ Пинкус, SM; Калман, EK (2004). «Нерегулярность, волатильность, риск и временные ряды финансового рынка». Труды Национальной академии наук . 101 (38): 13709– 13714. Bibcode : 2004PNAS..10113709P . doi : 10.1073/pnas.0405168101 . PMC 518821. PMID  15358860. 
  5. ^ Пинкус, SM; Голдбергер, AL (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643– 1656. doi :10.1152/ajpheart.1994.266.4.H1643. PMID  8184944. S2CID  362684.
  6. ^ МакКинли, РА; МакИнтайр, ЛК; Шмидт, Р; Реппергер, ДВ; Колдуэлл, ДЖ (2011). «Оценка показателей зрения как детектора усталости». Человеческий фактор . 53 (4): 403– 414. doi :10.1177/0018720811411297. PMID  21901937. S2CID  109251681.
  7. ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр; Ян, Юэкуй; Холдавей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием данных о радиации MERRA-2». Scientific Reports . 10 (1): 922. Bibcode :2020NatSR..10..922D. doi : 10.1038/s41598-020-57917-8 . ISSN  2045-2322. PMC 6976651 . PMID  31969616. 
  8. ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: всеобъемлющее руководство». Энтропия . 21 (6): 541. Bibcode :2019Entrp..21..541D. doi : 10.3390/e21060541 . PMC 7515030 . PMID  33267255. 
  9. ^ "PhysioNet". Архивировано из оригинала 2012-06-18 . Получено 2012-07-04 .
  10. ^ Хо, КК; Муди, ГБ; Пэн, КК; Миетус, ДЖЕ; Ларсон, МГ; Леви, Д; Голдбергер, АЛ (1997). «Прогнозирование выживаемости у пациентов с сердечной недостаточностью и контрольных субъектов с использованием полностью автоматизированных методов получения нелинейных и обычных индексов динамики сердечного ритма». Circulation . 96 (3): 842– 848. doi :10.1161/01.cir.96.3.842. PMID  9264491.
  11. ^ Richman, JS; Moorman, JR (2000). «Физиологический анализ временных рядов с использованием приближенной энтропии и выборочной энтропии». American Journal of Physiology. Heart and Circulatory Physiology . 278 (6): 2039– 2049. doi :10.1152/ajpheart.2000.278.6.H2039. PMID  10843903. S2CID  2389971.
  12. ^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и контрольных участников». Искусственный интеллект в медицине . 47 (3): 263–274 . doi :10.1016/j.artmed.2009.03.003. PMID  19403281.
  13. ^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ на основе экстремальной обучающей машины и нелинейных признаков». Epilepsy Research . 96 ( 1– 2): 29– 38. doi :10.1016/j.eplepsyres.2011.04.013. PMID  21616643. S2CID  41730913.
  14. ^ Юн, Кёнсик (2012). «Снижение сложности коры у лиц, злоупотребляющих метамфетамином». Psychiatry Research: Neuroimaging . 201 (3): 226–32 . doi :10.1016/j.pscychresns.2011.07.009. PMID  22445216. S2CID  30670300.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Approximate_entropy&oldid=1268925380"