Информация о взаимодействии

Обобщение взаимной информации для более чем двух переменных
Диаграмма Венна информационных теоретических мер для трех переменных x, y и z, представленных нижним левым, нижним правым и верхним кругами соответственно. Информация о взаимодействии представлена ​​серой областью, и она единственная может быть отрицательной.

В теории вероятностей и теории информации информация о взаимодействии представляет собой обобщение взаимной информации для более чем двух переменных .

Существует много названий для информации о взаимодействии, включая количество информации , [1] корреляцию информации , [2] ко-информацию , [3] и просто взаимную информацию . [4] Информация о взаимодействии выражает количество информации (избыточность или синергию), связанной в наборе переменных, помимо той, которая присутствует в любом подмножестве этих переменных. В отличие от взаимной информации, информация о взаимодействии может быть как положительной, так и отрицательной. Эти функции, их отрицательность и минимумы имеют прямую интерпретацию в алгебраической топологии . [5]

Определение

Условную взаимную информацию можно использовать для индуктивного определения информации о взаимодействии для любого конечного числа переменных следующим образом:

я ( Х 1 ; ; Х н + 1 ) = я ( Х 1 ; ; Х н ) я ( Х 1 ; ; Х н Х н + 1 ) , {\displaystyle I(X_{1};\ldots ;X_{n+1})=I(X_{1};\ldots ;X_{n})-I(X_{1};\ldots ;X_{n}\mid X_{n+1}),}

где

я ( Х 1 ; ; Х н Х н + 1 ) = Э Х н + 1 ( я ( Х 1 ; ; Х н ) Х н + 1 ) . {\displaystyle I(X_{1};\ldots ;X_{n}\mid X_{n+1})=\mathbb {E} _{X_{n+1}}{\big (}I(X_{1};\ldots ;X_{n})\mid X_{n+1}{\big )}.}

Некоторые авторы [6] определяют информацию о взаимодействии по-другому, меняя местами два вычитаемых члена в предыдущем уравнении. Это приводит к изменению знака для нечетного числа переменных.

Для трех переменных информация о взаимодействии определяется как { Х , И , З } {\displaystyle \{X,Y,Z\}} я ( Х ; И ; З ) {\displaystyle I(X;Y;Z)}

я ( Х ; И ; З ) = я ( Х ; И ) я ( Х ; И З ) {\displaystyle I(X;Y;Z)=I(X;Y)-I(X;Y\mid Z)}

где — взаимная информация между переменными и , а — условная взаимная информация между переменными и заданными . Информация о взаимодействии симметрична , поэтому неважно, какая переменная обусловлена. Это легко увидеть, когда информация о взаимодействии записана в терминах энтропии и совместной энтропии следующим образом: я ( Х ; И ) {\displaystyle I(X;Y)} Х {\displaystyle X} И {\displaystyle Y} я ( Х ; И З ) {\displaystyle I(X;Y\mid Z)} Х {\displaystyle X} И {\displaystyle Y} З {\displaystyle Z}

я ( Х ; И ; З ) = ( ЧАС ( Х ) + ЧАС ( И ) + ЧАС ( З ) ) ( ЧАС ( Х , И ) + ЧАС ( Х , З ) + ЧАС ( И , З ) ) + ЧАС ( Х , И , З ) {\displaystyle {\begin{alignedat}{3}I(X;Y;Z)&=&&\;{\bigl (}H(X)+H(Y)+H(Z){\bigr)}\ \&&&-{\bigl (}H(X,Y)+H(X,Z)+H(Y,Z){\bigr )}\\&&&+H(X,Y,Z)\end{alignedat}}}

В общем случае для набора переменных информацию о взаимодействии можно записать в следующем виде (сравните с приближением Кирквуда ): В = { Х 1 , Х 2 , , Х н } {\displaystyle {\mathcal {V}}=\{X_{1},X_{2},\ldots ,X_{n}\}}

я ( В ) = Т В ( 1 ) | Т | 1 ЧАС ( Т ) {\displaystyle I({\mathcal {V}})=\sum _ {{\mathcal {T}} \subseteq {\mathcal {V}}}(-1)^{\left\vert {\mathcal {T }}\right\vert -1}H({\mathcal {T}})}

Для трех переменных информация о взаимодействии измеряет влияние переменной на объем информации, разделяемой между и . Поскольку термин может быть больше , информация о взаимодействии может быть как отрицательной, так и положительной. Это произойдет, например, когда и независимы, но не являются условно независимыми, учитывая . Положительная информация о взаимодействии указывает на то, что переменная подавляет (т. е. учитывает или объясняет часть) корреляцию между и , тогда как отрицательная информация о взаимодействии указывает на то, что переменная облегчает или усиливает корреляцию. З {\displaystyle Z} Х {\displaystyle X} И {\displaystyle Y} я ( Х ; И З ) {\displaystyle I(X;Y\mid Z)} я ( Х ; И ) {\displaystyle I(X;Y)} Х {\displaystyle X} И {\displaystyle Y} З {\displaystyle Z} З {\displaystyle Z} Х {\displaystyle X} И {\displaystyle Y} З {\displaystyle Z}

Характеристики

Информация о взаимодействии ограничена. В случае трех переменных она ограничена [4]

мин { я ( Х ; И З ) , я ( И ; З Х ) , я ( Х ; З И ) } я ( Х ; И ; З ) мин { я ( Х ; И ) , я ( И ; З ) , я ( Х ; З ) } {\displaystyle -\min\{I(X;Y\mid Z),I(Y;Z\mid X),I(X;Z\mid Y)\}\leq I(X;Y;Z)\leq \min\{I(X;Y),I(Y;Z),I(X;Z)\}}

Если три переменные образуют цепь Маркова , то , но . Поэтому Х И З {\displaystyle X\to Y\to Z} я ( Х ; З И ) = 0 {\displaystyle I(X;Z\mid Y)=0} я ( Х ; З ) 0 {\displaystyle I(X;Z)\geq 0}

я ( Х ; И ; З ) = я ( Х ; З ) я ( Х ; З И ) = я ( Х ; З ) 0. {\displaystyle I(X;Y;Z)=I(X;Z)-I(X;Z\mid Y)=I(X;Z)\geq 0.}

Примеры

Информация о положительном взаимодействии

Положительная информация о взаимодействии кажется гораздо более естественной, чем отрицательная информация о взаимодействии, в том смысле, что такие объясняющие эффекты типичны для структур общей причины. Например, облака вызывают дождь, а также закрывают солнце; следовательно, корреляция между дождем и темнотой частично объясняется наличием облаков, . Результатом является положительная информация о взаимодействии . я ( дождь ; темный облако ) < я ( дождь ; темный ) {\displaystyle I({\text{дождь}};{\text{тьма}}\mid {\text{облако}})<I({\text{дождь}};{\text{тьма}})} я ( дождь ; темный ; облако ) {\displaystyle I({\text{дождь}};{\text{тьма}};{\text{облако}})}

Информация об отрицательном взаимодействии

Двигатель автомобиля может не запуститься из-за севшей батареи или заблокированного топливного насоса. Обычно мы предполагаем, что смерть батареи и блокировка топливного насоса являются независимыми событиями, . Но зная, что автомобиль не заводится, если проверка показывает, что батарея в хорошем состоянии, мы можем сделать вывод, что топливный насос должен быть заблокирован. Следовательно , и результатом является отрицательная информация о взаимодействии. я ( заблокированное топливо ; разряженная батарея ) = 0 {\displaystyle I({\text{заблокировано топливо}};{\text{разряжена батарея}})=0} я ( заблокированное топливо ; разряженная батарея двигатель выходит из строя ) > 0 {\displaystyle I({\text{заблокировано топливо}};{\text{разряжен аккумулятор}}\mid {\text{отказ двигателя}})>0}

Трудность интерпретации

Возможная отрицательность информации о взаимодействии может стать источником некоторой путаницы. [3] Многие авторы считали нулевую информацию о взаимодействии признаком того, что три или более случайных величин не взаимодействуют, но такая интерпретация неверна. [7]

Чтобы увидеть, насколько сложной может быть интерпретация, рассмотрим набор из восьми независимых бинарных переменных . Объединим эти переменные следующим образом: { Х 1 , Х 2 , Х 3 , Х 4 , Х 5 , Х 6 , Х 7 , Х 8 } {\displaystyle \{X_{1},X_{2},X_{3},X_{4},X_{5},X_{6},X_{7},X_{8}\}}

И 1 = { Х 1 , Х 2 , Х 3 , Х 4 , Х 5 , Х 6 , Х 7 } И 2 = { Х 4 , Х 5 , Х 6 , Х 7 } И 3 = { Х 5 , Х 6 , Х 7 , Х 8 } {\displaystyle {\begin{aligned}Y_{1}&=\{X_{1},X_{2},X_{3},X_{4},X_{5},X_{6},X_{7}\}\\Y_{2}&=\{X_{4},X_{5},X_{6},X_{7}\}\\Y_{3}&=\{X_{5},X_{6},X_{7},X_{8}\}\end{aligned}}}

Поскольку ' перекрывают друг друга (являются избыточными) на трех двоичных переменных , мы могли бы ожидать, что информация о взаимодействии будет равна битам, что и происходит. Однако теперь рассмотрим объединенные переменные Y i {\displaystyle Y_{i}} { X 5 , X 6 , X 7 } {\displaystyle \{X_{5},X_{6},X_{7}\}} I ( Y 1 ; Y 2 ; Y 3 ) {\displaystyle I(Y_{1};Y_{2};Y_{3})} 3 {\displaystyle 3}

Y 1 = { X 1 , X 2 , X 3 , X 4 , X 5 , X 6 , X 7 } Y 2 = { X 4 , X 5 , X 6 , X 7 } Y 3 = { X 5 , X 6 , X 7 , X 8 } Y 4 = { X 7 , X 8 } {\displaystyle {\begin{aligned}Y_{1}&=\{X_{1},X_{2},X_{3},X_{4},X_{5},X_{6},X_{7}\}\\Y_{2}&=\{X_{4},X_{5},X_{6},X_{7}\}\\Y_{3}&=\{X_{5},X_{6},X_{7},X_{8}\}\\Y_{4}&=\{X_{7},X_{8}\}\end{aligned}}}

Это те же переменные, что и раньше, с добавлением . Однако в этом случае фактически равно биту, что указывает на меньшую избыточность. Это верно в том смысле, что Y 4 = { X 7 , X 8 } {\displaystyle Y_{4}=\{X_{7},X_{8}\}} I ( Y 1 ; Y 2 ; Y 3 ; Y 4 ) {\displaystyle I(Y_{1};Y_{2};Y_{3};Y_{4})} + 1 {\displaystyle +1}

I ( Y 1 ; Y 2 ; Y 3 ; Y 4 ) = I ( Y 1 ; Y 2 ; Y 3 ) I ( Y 1 ; Y 2 ; Y 3 | Y 4 ) = 3 2 = 1 {\displaystyle {\begin{aligned}I(Y_{1};Y_{2};Y_{3};Y_{4})&=I(Y_{1};Y_{2};Y_{3})-I(Y_{1};Y_{2};Y_{3}|Y_{4})\\&=3-2\\&=1\end{aligned}}}

Однако его по-прежнему трудно интерпретировать.

Использует

  • Якулин и Братко (2003b) предлагают алгоритм машинного обучения, который использует информацию о взаимодействии.
  • Киллиан, Кравиц и Гилсон (2007) используют взаимное информационное расширение для извлечения оценок энтропии из молекулярных симуляций. [8]
  • ЛеВайн и Вайнштейн (2014) используют информацию о взаимодействии и другие меры информации N-тел для количественной оценки аллостерических связей в молекулярном моделировании. [9]
  • Мур и др. (2006), Чанда П., Чжан А., Бразо Д., Сачестон Л., Фройденхайм Дж. Л., Амброзон К., Раманатан М. (2007) и Чанда П., Сачестон Л., Чжан А., Бразо Д., Фройденхайм Дж. Л., Амброзон К., Раманатан М. (2008) демонстрируют использование информации о взаимодействии для анализа взаимодействий ген-ген и ген-окружающая среда, связанных со сложными заболеваниями.
  • Панди и Саркар (2017) используют информацию о взаимодействии в космологии для изучения влияния крупномасштабных сред на свойства галактик.
  • Доступен пакет Python для вычисления всех многомерных взаимодействий или взаимной информации, условной взаимной информации, совместных энтропий, общих корреляций, информационного расстояния в наборе данных из n переменных. [10]


Смотрите также

Ссылки

  1. ^ Тин, Ху Куо (январь 1962). «О количестве информации». Теория вероятностей и ее приложения . 7 (4): 439– 447. doi :10.1137/1107041. ISSN  0040-585X.
  2. ^ Вольф, Дэвид (1 мая 1996 г.). Обобщение взаимной информации как информации между набором переменных: иерархия функций корреляции информации и информационная структура многоагентных систем (технический отчет). Исследовательский центр Эймса при НАСА.
  3. ^ ab Белл, Энтони (2003). Решетка совместной информации . 4-й Международный симпозиум. Анализ независимых компонентов и слепое разделение источников.
  4. ^ ab Yeung, RW (май 1991 г.). «Новый взгляд на меры информации Шеннона». IEEE Transactions on Information Theory . 37 (3): 466– 474. doi :10.1109/18.79902. ISSN  0018-9448.
  5. ^ Бодо, Пьер; Беннекен, Даниэль (2015-05-13). «Гомологическая природа энтропии». Энтропия . 17 (5): 3253– 3318. Bibcode : 2015Entrp..17.3253B. doi : 10.3390/e17053253 . ISSN  1099-4300.
  6. ^ Макгилл, Уильям Дж. (июнь 1954 г.). «Многомерная передача информации». Психометрика . 19 (2): 97– 116. doi :10.1007/bf02289159. ISSN  0033-3123. S2CID  126431489.
  7. ^ Криппендорф, Клаус (август 2009 г.). «Информация о взаимодействиях в сложных системах». International Journal of General Systems . 38 (6): 669– 680. doi :10.1080/03081070902993160. ISSN  0308-1079. S2CID  13923485.
  8. ^ Киллиан, Бенджамин Дж.; Юнденфройнд Кравиц, Джослин; Гилсон, Майкл К. (2007-07-14). "Извлечение конфигурационной энтропии из молекулярных симуляций с помощью приближения расширения". Журнал химической физики . 127 (2): 024107. Bibcode : 2007JChPh.127b4107K. doi : 10.1063/1.2746329. ISSN  0021-9606. PMC 2707031. PMID 17640119  . 
  9. ^ LeVine, Michael V.; Perez-Aguilar, Jose Manuel; Weinstein, Harel (18.06.2014). "Анализ динамики жесткого тела в внутриклеточной петле 2 рецептора 5-HT2A с использованием теории информации N-тела (NbIT)". arXiv : 1406.4730 [q-bio.BM].
  10. ^ "InfoTopo: Топологический информационный анализ данных. Глубокое статистическое неконтролируемое и контролируемое обучение - Обмен файлами - Github". github.com/pierrebaudot/infotopopy/ . Получено 26 сентября 2020 г. .
  • Бодо, П.; Беннекен, Д. (2015). «Гомологическая природа энтропии» (PDF) . Энтропия . 17 (5): 1– 66. Bibcode :2015Entrp..17.3253B. doi : 10.3390/e17053253 .
  • Белл, А.Дж. (2003), Совместно-информационная решетка [1]
  • Фано, Р.М. (1961), Передача информации: статистическая теория коммуникаций , MIT Press, Кембридж, Массачусетс.
  • Гарнер В. Р. (1962). Неопределенность и структура как психологические концепции , JohnWiley & Sons, Нью-Йорк.
  • Хан, ТС (1978). «Неотрицательные энтропийные меры многомерных симметричных корреляций». Информация и управление . 36 (2): 133– 156. doi : 10.1016/s0019-9958(78)90275-9 .
  • Хан, ТС (1980). «Множественная взаимная информация и множественные взаимодействия в частотных данных». Информация и управление . 46 : 26– 45. doi : 10.1016/s0019-9958(80)90478-7 .
  • Ху Куо Тин (1962), О количестве информации. Теория вероятн. Прикладн., 7(4), 439-44. PDF
  • Якулин А. и Братко И. (2003a). Анализ зависимостей атрибутов, в N Lavra\quad{c}, D Gamberger, L Todorovski & H Blockeel, ред., Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных , Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
  • Якулин А. и Братко И. (2003b). Количественная оценка и визуализация взаимодействий атрибутов [2].
  • Марголин, А.; Ванг, К.; Калифано, А.; Неменман, И. (2010). «Многомерная зависимость и вывод генетических сетей». IET Syst Biol . 4 (6): 428– 440. arXiv : 1001.1681 . doi :10.1049/iet-syb.2010.0009. PMID  21073241. S2CID  14280921.
  • Макгилл, У. Дж. (1954). «Многомерная передача информации». Психометрика . 19 (2): 97– 116. doi :10.1007/bf02289159. S2CID  126431489.
  • Мур Дж. Х., Гилберт Дж. К., Цай КТ, Чианг Ф. Т., Холден Т., Барни Н., Уайт BC (2006). Гибкая вычислительная структура для обнаружения, характеристики и интерпретации статистических закономерностей эпистаза в генетических исследованиях восприимчивости человека к болезням, Журнал теоретической биологии 241 , 252-261. [3]
  • Неменман И. (2004). Теория информации, многомерная зависимость и вывод генетических сетей [4].
  • Перл, Дж. (1988), Вероятностное рассуждение в интеллектуальных системах: сети правдоподобных выводов , Морган Кауфманн, Сан-Матео, Калифорния.
  • Цудзишита, Т (1995), О тройной взаимной информации, Успехи прикладной математики 16 , 269-274.
  • Чанда, П.; Чжан, А.; Бразо, Д.; Сачестон, Л.; Фройденхайм, Дж. Л.; Амброзон, К.; Раманатан, М. (2007). «Информационно-теоретические метрики для визуализации взаимодействий генов и окружающей среды». Американский журнал генетики человека . 81 (5): 939– 63. doi : 10.1086/521878. PMC  2265645. PMID  17924337 .
  • Чанда, П.; Сачестон, Л.; Чжан, А.; Бразо, Д.; Фройденхайм, Дж. Л.; Амброзон, К.; Раманатан, М. (2008). «AMBIENCE: новый подход и эффективный алгоритм для определения информативных генетических и экологических ассоциаций со сложными фенотипами». Генетика . 180 (2): 1191– 210. doi :10.1534/genetics.108.088542. PMC  2567367 . PMID  18780753.
  • Киллиан, Б. Дж.; Кравиц, Дж. Й.; Гилсон, МК (2007). «Извлечение конфигурационной энтропии из молекулярных симуляций с помощью приближения расширения». J. Chem. Phys . 127 (2): 024107. Bibcode : 2007JChPh.127b4107K . doi : 10.1063/1.2746329. PMC  2707031. PMID  17640119.
  • LeVine MV, Weinstein H (2014), NbIT - Новый анализ аллостерических механизмов на основе теории информации выявляет остатки, лежащие в основе функции транспортера лейцина LeuT. PLoS Computational Biology . [5]
  • Pandey, Biswajit; Sarkar, Suman (2017). «Как много галактика знает о своей крупномасштабной среде?: Информационно-теоретическая перспектива». Monthly Notices of the Royal Astronomical Society Letters . 467 (1): L6. arXiv : 1611.00283 . Bibcode : 2017MNRAS.467L...6P. doi : 10.1093/mnrasl/slw250 . S2CID  119095496.
  • https://www3.nd.edu/~jnl/ee80653/Fall2005/tutorials/sunil.pdf
  • Йенг РВ (1992). Новый взгляд на меры информации Шеннона. в IEEE Transactions on Information Theory. [6]
Retrieved from "https://en.wikipedia.org/w/index.php?title=Interaction_information&oldid=1272455104"