Существует много названий для информации о взаимодействии, включая количество информации , [1] корреляцию информации , [2] ко-информацию , [3] и просто взаимную информацию . [4] Информация о взаимодействии выражает количество информации (избыточность или синергию), связанной в наборе переменных, помимо той, которая присутствует в любом подмножестве этих переменных. В отличие от взаимной информации, информация о взаимодействии может быть как положительной, так и отрицательной. Эти функции, их отрицательность и минимумы имеют прямую интерпретацию в алгебраической топологии . [5]
Определение
Условную взаимную информацию можно использовать для индуктивного определения информации о взаимодействии для любого конечного числа переменных следующим образом:
где
Некоторые авторы [6] определяют информацию о взаимодействии по-другому, меняя местами два вычитаемых члена в предыдущем уравнении. Это приводит к изменению знака для нечетного числа переменных.
Для трех переменных информация о взаимодействии определяется как
где — взаимная информация между переменными и , а — условная взаимная информация между переменными и заданными . Информация о взаимодействии симметрична , поэтому неважно, какая переменная обусловлена. Это легко увидеть, когда информация о взаимодействии записана в терминах энтропии и совместной энтропии следующим образом:
В общем случае для набора переменных информацию о взаимодействии можно записать в следующем виде (сравните с приближением Кирквуда ):
Для трех переменных информация о взаимодействии измеряет влияние переменной на объем информации, разделяемой между и . Поскольку термин может быть больше , информация о взаимодействии может быть как отрицательной, так и положительной. Это произойдет, например, когда и независимы, но не являются условно независимыми, учитывая . Положительная информация о взаимодействии указывает на то, что переменная подавляет (т. е. учитывает или объясняет часть) корреляцию между и , тогда как отрицательная информация о взаимодействии указывает на то, что переменная облегчает или усиливает корреляцию.
Характеристики
Информация о взаимодействии ограничена. В случае трех переменных она ограничена [4]
Если три переменные образуют цепь Маркова , то , но . Поэтому
Примеры
Информация о положительном взаимодействии
Положительная информация о взаимодействии кажется гораздо более естественной, чем отрицательная информация о взаимодействии, в том смысле, что такие объясняющие эффекты типичны для структур общей причины. Например, облака вызывают дождь, а также закрывают солнце; следовательно, корреляция между дождем и темнотой частично объясняется наличием облаков, . Результатом является положительная информация о взаимодействии .
Информация об отрицательном взаимодействии
Двигатель автомобиля может не запуститься из-за севшей батареи или заблокированного топливного насоса. Обычно мы предполагаем, что смерть батареи и блокировка топливного насоса являются независимыми событиями, . Но зная, что автомобиль не заводится, если проверка показывает, что батарея в хорошем состоянии, мы можем сделать вывод, что топливный насос должен быть заблокирован. Следовательно , и результатом является отрицательная информация о взаимодействии.
Возможная отрицательность информации о взаимодействии может стать источником некоторой путаницы. [3] Многие авторы считали нулевую информацию о взаимодействии признаком того, что три или более случайных величин не взаимодействуют, но такая интерпретация неверна. [7]
Чтобы увидеть, насколько сложной может быть интерпретация, рассмотрим набор из восьми независимых бинарных переменных . Объединим эти переменные следующим образом:
Поскольку ' перекрывают друг друга (являются избыточными) на трех двоичных переменных , мы могли бы ожидать, что информация о взаимодействии будет равна битам, что и происходит. Однако теперь рассмотрим объединенные переменные
Это те же переменные, что и раньше, с добавлением . Однако в этом случае фактически равно биту, что указывает на меньшую избыточность. Это верно в том смысле, что
Однако его по-прежнему трудно интерпретировать.
Использует
Якулин и Братко (2003b) предлагают алгоритм машинного обучения, который использует информацию о взаимодействии.
Киллиан, Кравиц и Гилсон (2007) используют взаимное информационное расширение для извлечения оценок энтропии из молекулярных симуляций. [8]
ЛеВайн и Вайнштейн (2014) используют информацию о взаимодействии и другие меры информации N-тел для количественной оценки аллостерических связей в молекулярном моделировании. [9]
Мур и др. (2006), Чанда П., Чжан А., Бразо Д., Сачестон Л., Фройденхайм Дж. Л., Амброзон К., Раманатан М. (2007) и Чанда П., Сачестон Л., Чжан А., Бразо Д., Фройденхайм Дж. Л., Амброзон К., Раманатан М. (2008) демонстрируют использование информации о взаимодействии для анализа взаимодействий ген-ген и ген-окружающая среда, связанных со сложными заболеваниями.
Панди и Саркар (2017) используют информацию о взаимодействии в космологии для изучения влияния крупномасштабных сред на свойства галактик.
Доступен пакет Python для вычисления всех многомерных взаимодействий или взаимной информации, условной взаимной информации, совместных энтропий, общих корреляций, информационного расстояния в наборе данных из n переменных. [10]
^ Тин, Ху Куо (январь 1962). «О количестве информации». Теория вероятностей и ее приложения . 7 (4): 439– 447. doi :10.1137/1107041. ISSN 0040-585X.
^ Вольф, Дэвид (1 мая 1996 г.). Обобщение взаимной информации как информации между набором переменных: иерархия функций корреляции информации и информационная структура многоагентных систем (технический отчет). Исследовательский центр Эймса при НАСА.
^ ab Белл, Энтони (2003). Решетка совместной информации . 4-й Международный симпозиум. Анализ независимых компонентов и слепое разделение источников.
^ ab Yeung, RW (май 1991 г.). «Новый взгляд на меры информации Шеннона». IEEE Transactions on Information Theory . 37 (3): 466– 474. doi :10.1109/18.79902. ISSN 0018-9448.
^ Макгилл, Уильям Дж. (июнь 1954 г.). «Многомерная передача информации». Психометрика . 19 (2): 97– 116. doi :10.1007/bf02289159. ISSN 0033-3123. S2CID 126431489.
^ Криппендорф, Клаус (август 2009 г.). «Информация о взаимодействиях в сложных системах». International Journal of General Systems . 38 (6): 669– 680. doi :10.1080/03081070902993160. ISSN 0308-1079. S2CID 13923485.
^ Киллиан, Бенджамин Дж.; Юнденфройнд Кравиц, Джослин; Гилсон, Майкл К. (2007-07-14). "Извлечение конфигурационной энтропии из молекулярных симуляций с помощью приближения расширения". Журнал химической физики . 127 (2): 024107. Bibcode : 2007JChPh.127b4107K. doi : 10.1063/1.2746329. ISSN 0021-9606. PMC 2707031. PMID 17640119 .
^ LeVine, Michael V.; Perez-Aguilar, Jose Manuel; Weinstein, Harel (18.06.2014). "Анализ динамики жесткого тела в внутриклеточной петле 2 рецептора 5-HT2A с использованием теории информации N-тела (NbIT)". arXiv : 1406.4730 [q-bio.BM].
^ "InfoTopo: Топологический информационный анализ данных. Глубокое статистическое неконтролируемое и контролируемое обучение - Обмен файлами - Github". github.com/pierrebaudot/infotopopy/ . Получено 26 сентября 2020 г. .
Фано, Р.М. (1961), Передача информации: статистическая теория коммуникаций , MIT Press, Кембридж, Массачусетс.
Гарнер В. Р. (1962). Неопределенность и структура как психологические концепции , JohnWiley & Sons, Нью-Йорк.
Хан, ТС (1978). «Неотрицательные энтропийные меры многомерных симметричных корреляций». Информация и управление . 36 (2): 133– 156. doi : 10.1016/s0019-9958(78)90275-9 .
Хан, ТС (1980). «Множественная взаимная информация и множественные взаимодействия в частотных данных». Информация и управление . 46 : 26– 45. doi : 10.1016/s0019-9958(80)90478-7 .
Ху Куо Тин (1962), О количестве информации. Теория вероятн. Прикладн., 7(4), 439-44. PDF
Якулин А. и Братко И. (2003a). Анализ зависимостей атрибутов, в N Lavra\quad{c}, D Gamberger, L Todorovski & H Blockeel, ред., Труды 7-й Европейской конференции по принципам и практике обнаружения знаний в базах данных , Springer, Цавтат-Дубровник, Хорватия, стр. 229–240.
Якулин А. и Братко И. (2003b). Количественная оценка и визуализация взаимодействий атрибутов [2].
Марголин, А.; Ванг, К.; Калифано, А.; Неменман, И. (2010). «Многомерная зависимость и вывод генетических сетей». IET Syst Biol . 4 (6): 428– 440. arXiv : 1001.1681 . doi :10.1049/iet-syb.2010.0009. PMID 21073241. S2CID 14280921.
Макгилл, У. Дж. (1954). «Многомерная передача информации». Психометрика . 19 (2): 97– 116. doi :10.1007/bf02289159. S2CID 126431489.
Мур Дж. Х., Гилберт Дж. К., Цай КТ, Чианг Ф. Т., Холден Т., Барни Н., Уайт BC (2006). Гибкая вычислительная структура для обнаружения, характеристики и интерпретации статистических закономерностей эпистаза в генетических исследованиях восприимчивости человека к болезням, Журнал теоретической биологии 241 , 252-261. [3]
Неменман И. (2004). Теория информации, многомерная зависимость и вывод генетических сетей [4].
Перл, Дж. (1988), Вероятностное рассуждение в интеллектуальных системах: сети правдоподобных выводов , Морган Кауфманн, Сан-Матео, Калифорния.
Цудзишита, Т (1995), О тройной взаимной информации, Успехи прикладной математики 16 , 269-274.
Чанда, П.; Чжан, А.; Бразо, Д.; Сачестон, Л.; Фройденхайм, Дж. Л.; Амброзон, К.; Раманатан, М. (2007). «Информационно-теоретические метрики для визуализации взаимодействий генов и окружающей среды». Американский журнал генетики человека . 81 (5): 939– 63. doi : 10.1086/521878. PMC 2265645. PMID 17924337 .
Чанда, П.; Сачестон, Л.; Чжан, А.; Бразо, Д.; Фройденхайм, Дж. Л.; Амброзон, К.; Раманатан, М. (2008). «AMBIENCE: новый подход и эффективный алгоритм для определения информативных генетических и экологических ассоциаций со сложными фенотипами». Генетика . 180 (2): 1191– 210. doi :10.1534/genetics.108.088542. PMC 2567367 . PMID 18780753.
Киллиан, Б. Дж.; Кравиц, Дж. Й.; Гилсон, МК (2007). «Извлечение конфигурационной энтропии из молекулярных симуляций с помощью приближения расширения». J. Chem. Phys . 127 (2): 024107. Bibcode : 2007JChPh.127b4107K . doi : 10.1063/1.2746329. PMC 2707031. PMID 17640119.
LeVine MV, Weinstein H (2014), NbIT - Новый анализ аллостерических механизмов на основе теории информации выявляет остатки, лежащие в основе функции транспортера лейцина LeuT. PLoS Computational Biology . [5]
Pandey, Biswajit; Sarkar, Suman (2017). «Как много галактика знает о своей крупномасштабной среде?: Информационно-теоретическая перспектива». Monthly Notices of the Royal Astronomical Society Letters . 467 (1): L6. arXiv : 1611.00283 . Bibcode : 2017MNRAS.467L...6P. doi : 10.1093/mnrasl/slw250 . S2CID 119095496.