В статистике приближенная энтропия ( ApEn ) — это метод, используемый для количественной оценки степени регулярности и непредсказуемости колебаний в данных временного ряда . [1] Например, рассмотрим два ряда данных:
Серия A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), в которой попеременно 0 и 1.
Серия B: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, ...), которая имеет либо значение 0, либо 1, выбранное случайным образом, каждое с вероятностью 1/2.
Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Статистика рангов также не различает эти ряды. Тем не менее, ряд A совершенно регулярен: знание того, что член имеет значение 1, позволяет с уверенностью предсказать, что следующий член будет иметь значение 0. Напротив, ряд B имеет случайные значения: знание того, что член имеет значение 1, не дает никакого представления о том, какое значение будет иметь следующий член.
Регулярность изначально измерялась точной статистикой регулярности, которая в основном была сосредоточена на различных мерах энтропии. [1]
Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум, [2] поэтому нецелесообразно применять эти методы к экспериментальным данным. ApEn был впервые предложен (под другим названием) А. Коэном и И. Прокаччиа, [3]
как приближенный алгоритм для вычисления точной статистики регулярности, энтропии Колмогорова–Синая , и позже популяризирован Стивом М. Пинкусом. ApEn изначально использовался для анализа хаотической динамики и медицинских данных, таких как частота сердечных сокращений, [1] а затем распространил свои приложения в финансах , [4] физиологии , [5] инженерии человеческого фактора , [6] и климатических науках. [7]
Алгоритм
Доступно подробное пошаговое руководство с объяснением теоретических основ приближенной энтропии. [8] Алгоритм таков:
Шаг 1
Предположим, что есть временной ряд данных . Это необработанные значения данных из измерений, равномерно распределенных во времени.
Шаг 2
Пусть будет положительным целым числом , с , которое представляет длину серии данных (по сути, окно ). Пусть будет положительным действительным числом , которое определяет уровень фильтрации. Пусть .
Шаг 3
Определим для каждого, где . Другими словами, -мерный вектор , содержащий ряд данных, начиная с . Определим расстояние между двумя векторами и как максимальное из расстояний между их соответствующими компонентами, заданное формулой
для .
Шаг 4
Определить количество как
для каждого, где . Обратите внимание, что поскольку принимает все значения от 1 до , совпадение будет засчитано, когда (т. е. когда тестовая подпоследовательность, , сопоставляется сама с собой, ).
Обычно выбирают или , тогда как во многом это зависит от области применения.
Реализация на Physionet [9] , основанная на Pincus [2] , использует вместо на шаге 4. Хотя это и вызывает беспокойство в случае искусственно созданных примеров, на практике это обычно не вызывает беспокойства.
Пример
Рассмотрим последовательность выборок частоты сердечных сокращений, равномерно распределенных во времени:
Обратите внимание, что последовательность является периодической с периодом 3. Давайте выберем и (значения и можно изменять, не влияя на результат).
Сформируем последовательность векторов:
Расстояние вычисляется повторно следующим образом. В первом расчете,
что меньше, чем .
Во втором расчете обратите внимание, что , поэтому
что больше, чем .
Сходным образом,
Результатом является всего 17 терминов , таких что . К ним относятся . В этих случаях это
Обратите внимание на шаг 4, для . Таким образом, члены, такие что включают , и общее число равно 16.
В конце этих расчетов мы имеем
Затем повторяем вышеописанные шаги для . Сначала формируем последовательность векторов:
Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующую характеристику:
Поэтому,
В конце этих расчетов мы имеем
Окончательно,
Значение очень мало, поэтому оно подразумевает, что последовательность регулярна и предсказуема, что согласуется с наблюдением.
Реализация Python
импорт математикиdef approx_entropy ( time_series , run_length , filter_level ) -> float : """ Приблизительная энтропия >>> импорт случайных >>> регулярно = [85, 80, 89] * 17 >>> print(f"{approx_entropy(regularly, 2, 3):e}") 1.099654e-05 >>> случайно = [random.choice([85, 80, 89]) for _ in range(17*3)] >>> 0.8 < approx_entropy(randomly, 2, 3) < 1 True """def _maxdist ( x_i , x_j ): возвращает max ( abs ( ua - va ) для ua , va в zip ( x_i , x_j ))def _phi ( m ): n = time_series_length - m + 1 x = [ [ time_series [ j ] для j в диапазоне ( i , i + m - 1 + 1 )] для i в диапазоне ( time_series_length - m + 1 ) ] counts = [ sum ( 1 для x_j в x if _maxdist ( x_i , x_j ) <= filter_level ) / n для x_i в x ] return sum ( math . log ( c ) для c в counts ) / nдлина_временной_серии = len ( временная_серия )вернуть abs ( _phi ( длина_запуска + 1 ) - _phi ( длина_запуска ))если __name__ == "__main__" : импортировать doctestdoctest . testmod ()
Реализация MATLAB
Быстрая аппроксимационная энтропия от MatLab Central
приблизительнаяЭнтропия
Интерпретация
Наличие повторяющихся моделей колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие модели отсутствуют. ApEn отражает вероятность того, что за аналогичными моделями наблюдений не последуют дополнительные аналогичные наблюдения. [10] Временной ряд, содержащий много повторяющихся моделей, имеет относительно небольшое значение ApEn; менее предсказуемый процесс имеет более высокое значение ApEn.
Преимущества
Преимущества ApEn включают в себя: [2]
Снижение вычислительных требований. ApEn может быть разработан для работы с небольшими выборками данных ( точками) и может применяться в режиме реального времени.
Меньше влияния шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.
Ограничения
Алгоритм ApEn считает каждую последовательность соответствующей самой себе, чтобы избежать появления в расчетах. Этот шаг может внести смещение в ApEn, что приводит к тому, что ApEn на практике имеет два плохих свойства: [11]
ApEn сильно зависит от длины записи и для коротких записей всегда ниже ожидаемого.
Ему не хватает относительной согласованности. То есть, если ApEn одного набора данных выше, чем у другого, он должен оставаться выше, но не остается, для всех протестированных условий.
Приложения
ApEn применялся для классификации электроэнцефалографии (ЭЭГ) при психиатрических заболеваниях, таких как шизофрения, [12] эпилепсия, [13] и наркомания. [14]
^ abc Pincus, SM; Gladstone, IM; Ehrenkranz, RA (1991). "Статистика регулярности для анализа медицинских данных". Journal of Clinical Monitoring and Computing . 7 (4): 335– 345. doi :10.1007/BF01619355. PMID 1744678. S2CID 23455856.
^ abc Pincus, SM (1991). «Приблизительная энтропия как мера сложности системы». Труды Национальной академии наук . 88 (6): 2297– 2301. Bibcode :1991PNAS...88.2297P. doi : 10.1073/pnas.88.6.2297 . PMC 51218 . PMID 11607165.
^ Коэн, А.; Прокачча, И. (1985). "Вычисление энтропии Колмогорова из сигналов времени диссипативных и консервативных динамических систем". Physical Review A. 28 ( 3): 2591(R). Bibcode : 1985PhRvA..31.1872C. doi : 10.1103/PhysRevA.31.1872. PMID 9895695.
^ Пинкус, SM; Калман, EK (2004). «Нерегулярность, волатильность, риск и временные ряды финансового рынка». Труды Национальной академии наук . 101 (38): 13709– 13714. Bibcode : 2004PNAS..10113709P . doi : 10.1073/pnas.0405168101 . PMC 518821. PMID 15358860.
^ Пинкус, SM; Голдбергер, AL (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643– 1656. doi :10.1152/ajpheart.1994.266.4.H1643. PMID 8184944. S2CID 362684.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр; Ян, Юэкуй; Холдавей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием данных о радиации MERRA-2». Scientific Reports . 10 (1): 922. Bibcode :2020NatSR..10..922D. doi : 10.1038/s41598-020-57917-8 . ISSN 2045-2322. PMC 6976651 . PMID 31969616.
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019 г.). «Приблизительная энтропия и выборочная энтропия: всеобъемлющее руководство». Энтропия . 21 (6): 541. Bibcode :2019Entrp..21..541D. doi : 10.3390/e21060541 . PMC 7515030 . PMID 33267255.
^ "PhysioNet". Архивировано из оригинала 2012-06-18 . Получено 2012-07-04 .
^ Хо, КК; Муди, ГБ; Пэн, КК; Миетус, ДЖЕ; Ларсон, МГ; Леви, Д; Голдбергер, АЛ (1997). «Прогнозирование выживаемости у пациентов с сердечной недостаточностью и контрольных субъектов с использованием полностью автоматизированных методов получения нелинейных и обычных индексов динамики сердечного ритма». Circulation . 96 (3): 842– 848. doi :10.1161/01.cir.96.3.842. PMID 9264491.
^ Сабети, Малихе (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и контрольных участников». Искусственный интеллект в медицине . 47 (3): 263–274 . doi :10.1016/j.artmed.2009.03.003. PMID 19403281.
^ Юань, Ци (2011). «Классификация эпилептической ЭЭГ на основе экстремальной обучающей машины и нелинейных признаков». Epilepsy Research . 96 ( 1– 2): 29– 38. doi :10.1016/j.eplepsyres.2011.04.013. PMID 21616643. S2CID 41730913.
^ Юн, Кёнсик (2012). «Снижение сложности коры у лиц, злоупотребляющих метамфетамином». Psychiatry Research: Neuroimaging . 201 (3): 226–32 . doi :10.1016/j.pscychresns.2011.07.009. PMID 22445216. S2CID 30670300.