Анализ взвешенной корреляционной сети

Анализ взвешенных корреляционных сетей , также известный как анализ взвешенных сетей коэкспрессии генов (WGCNA), является широко используемым методом добычи данных , особенно для изучения биологических сетей на основе попарных корреляций между переменными. Хотя его можно применять к большинству многомерных наборов данных, наиболее широко он используется в геномных приложениях. Он позволяет определять модули (кластеры), внутримодульные концентраторы и сетевые узлы с учетом членства модулей, изучать взаимосвязи между модулями коэкспрессии и сравнивать топологию сети различных сетей (дифференциальный сетевой анализ). WGCNA можно использовать как метод редукции данных (связанный с косвенным факторным анализом ), как метод кластеризации (нечеткая кластеризация), как метод выбора признаков (например, как метод скрининга генов), как основу для интеграции дополнительных (геномных) данных (на основе взвешенных корреляций между количественными переменными) и как метод исследования данных . [1] Хотя WGCNA включает в себя традиционные методы исследования данных, его интуитивно понятный сетевой язык и структура анализа превосходят любую стандартную технику анализа. Поскольку он использует сетевую методологию и хорошо подходит для интеграции дополнительных наборов геномных данных, его можно интерпретировать как системный биологический или системный генетический метод анализа данных. Выбирая внутримодульные концентраторы в консенсусных модулях, WGCNA также дает начало сетевым методам метаанализа . [2]

История

Метод WGCNA был разработан Стивом Хорватом , профессором генетики человека в Школе медицины Дэвида Геффена в Калифорнийском университете в Лос-Анджелесе и биостатистики в Школе общественного здравоохранения Филдинга в Калифорнийском университете в Лос-Анджелесе, а также его коллегами в Калифорнийском университете в Лос-Анджелесе и (бывшими) членами лаборатории (в частности, Питером Лангфельдером, Бин Чжаном, Цзюнь Дуном). Большая часть работы возникла в результате сотрудничества с прикладными исследователями. В частности, сети взвешенной корреляции были разработаны в совместных обсуждениях с исследователями рака Полом Мишелем , Стэнли Ф. Нельсоном и нейробиологами Дэниелом Х. Гешвиндом , Майклом К. Олдхэмом, согласно разделу благодарностей в. [1]

Сравнение взвешенных и невзвешенных корреляционных сетей

Сеть взвешенной корреляции можно интерпретировать как частный случай сети взвешенной , сети зависимости или сети корреляции. Анализ сети взвешенной корреляции может быть привлекательным по следующим причинам:

  • Построение сети (основанное на мягком пороге коэффициента корреляции ) сохраняет непрерывную природу базовой корреляционной информации. Например, взвешенные корреляционные сети, построенные на основе корреляций между числовыми переменными, не требуют выбора жесткого порога. Дихотомизация информации и (жесткий)-порог могут привести к потере информации. [3]
  • Построение сети дает высоконадежные результаты относительно различных вариантов мягкого порога. [3] Напротив, результаты, основанные на невзвешенных сетях, построенных путем пороговой обработки парной меры ассоциации, часто сильно зависят от порога.
  • Сети взвешенной корреляции облегчают геометрическую интерпретацию, основанную на угловой интерпретации корреляции, глава 6 в [4]
  • Полученную сетевую статистику можно использовать для улучшения стандартных методов добычи данных, таких как кластерный анализ, поскольку меры (несходства) часто можно преобразовать во взвешенные сети; [5] см. главу 6 в [4] .
  • WGCNA предоставляет мощную статистику сохранения модулей, которая может быть использована для количественной оценки сходства с другим состоянием. Также статистика сохранения модулей позволяет изучать различия между модульной структурой сетей. [6]
  • Взвешенные сети и корреляционные сети часто могут быть аппроксимированы "факторизуемыми" сетями. [4] [7] Такие аппроксимации часто труднодостижимы для разреженных, невзвешенных сетей. Поэтому взвешенные (корреляционные) сети допускают экономную параметризацию (в терминах модулей и членства модулей) (главы 2, 6 в [1] ) и. [8]

Метод

Во-первых, определяется мера сходства коэкспрессии генов , которая используется для определения сети. Мы обозначаем меру сходства коэкспрессии генов пары генов i и j как . Многие исследования коэкспрессии используют абсолютное значение корреляции как беззнаковую меру сходства коэкспрессии, с я дж {\displaystyle s_{ij}}

с я дж ты н с я г н е г = | с о г ( х я , х дж ) | {\displaystyle s_{ij}^{unsigned}=|cor(x_{i},x_{j})|}

где профили экспрессии генов и состоят из экспрессии генов i и j в нескольких образцах. Однако использование абсолютного значения корреляции может скрыть биологически значимую информацию, поскольку не делается различий между репрессией генов и активацией. Напротив, в знаковых сетях сходство между генами отражает знак корреляции их профилей экспрессии. Чтобы определить знаковую меру коэкспрессии между профилями экспрессии генов и , можно использовать простое преобразование корреляции: х я {\displaystyle x_{i}} х дж {\displaystyle x_{j}} х я {\displaystyle x_{i}} х дж {\displaystyle x_{j}}

с я дж с я г н е г = 0,5 + 0,5 с о г ( х я , х дж ) {\displaystyle s_{ij}^{signed}=0,5+0,5cor(x_{i},x_{j})}

Как беззнаковая мера , знаковое сходство принимает значение от 0 до 1. Обратите внимание, что беззнаковое сходство между двумя противоположно экспрессируемыми генами ( ) равно 1, тогда как для знакового сходства оно равно 0. Аналогично, в то время как беззнаковая мера коэкспрессии двух генов с нулевой корреляцией остается нулевой, знаковое сходство равно 0,5. с я дж ты н с я г н е г {\displaystyle s_{ij}^{без знака}} с я дж с я г н е г {\displaystyle s_{ij}^{подписано}} с о г ( х я , х дж ) = 1 {\displaystyle кор(x_{i},x_{j})=-1}

Далее, матрица смежности (сеть), , используется для количественной оценки того, насколько сильно гены связаны друг с другом. определяется пороговым значением матрицы сходства коэкспрессии . «Жесткое» пороговое значение (дихотомическое) мера сходства приводит к невзвешенной сети коэкспрессии генов. В частности, невзвешенная смежность сети определяется как 1, если и 0 в противном случае. Поскольку жесткое пороговое значение кодирует связи генов в двоичной форме, оно может быть чувствительным к выбору порогового значения и приводить к потере информации о коэкспрессии. [3] Непрерывный характер информации о коэкспрессии может быть сохранен путем использования мягкого порогового значения, что приводит к взвешенной сети. В частности, WGCNA использует следующую степенную функцию для оценки их силы связи: А = [ а я дж ] {\displaystyle A=[a_{ij}]} А {\displaystyle А} С = [ с я дж ] {\displaystyle S=[s_{ij}]} С {\displaystyle S} с я дж > τ {\displaystyle s_{ij}>\tau }

а я дж = ( с я дж ) β {\textstyle a_{ij}=(s_{ij})^{\beta }} ,

где мощность — параметр мягкого порога. Значения по умолчанию и используются для беззнаковых и знаковых сетей соответственно. В качестве альтернативы можно выбрать с помощью критерия топологии без масштаба , который сводится к выбору наименьшего значения таким образом, чтобы была достигнута приблизительная топология без масштаба. [3] β {\displaystyle \бета} β = 6 {\displaystyle \бета =6} β = 12 {\displaystyle \бета =12} β {\displaystyle \бета} β {\displaystyle \бета}

Поскольку , взвешенная сетевая смежность линейно связана со сходством коэкспрессии в логарифмическом масштабе. Обратите внимание, что высокая степень преобразует высокие сходства в высокие смежности, в то время как низкие сходства сдвигаются к 0. Поскольку эта процедура мягкого порога, примененная к матрице парной корреляции, приводит к взвешенной матрице смежности, последующий анализ называется анализом сети взвешенной коэкспрессии генов. л о г ( а я дж ) = β л о г ( с я дж ) {\displaystyle log(a_{ij})=\beta log(s_{ij})} β {\displaystyle \бета}

Важным шагом в модульно-центрическом анализе является кластеризация генов в сетевые модули с использованием меры сетевой близости. Грубо говоря, пара генов имеет высокую близость, если они тесно взаимосвязаны. По соглашению максимальная близость между двумя генами равна 1, а минимальная близость равна 0. Обычно WGCNA использует топологическую меру перекрытия (TOM) в качестве близости. [9] [10] которая также может быть определена для взвешенных сетей. [3] TOM объединяет смежность двух генов и силу связи, которую эти два гена разделяют с другими «сторонними» генами. TOM является высоконадежной мерой сетевой взаимосвязанности (близости). Эта близость используется в качестве входных данных для иерархической кластеризации средней связи. Модули определяются как ветви результирующего кластерного дерева с использованием подхода динамического отсечения ветвей. [11] Затем гены внутри данного модуля суммируются с собственным геном модуля, который можно рассматривать как наилучшее резюме стандартизированных данных экспрессии модуля. [4] Собственный ген модуля данного модуля определяется как первый главный компонент стандартизированных профилей экспрессии. Собственные гены определяют надежные биомаркеры, [12] и могут использоваться в качестве признаков в сложных моделях машинного обучения , таких как байесовские сети . [13] Чтобы найти модули, которые относятся к интересующему клиническому признаку, собственные гены модуля коррелируют с интересующим клиническим признаком, что приводит к мере значимости собственного гена. Собственные гены могут использоваться в качестве признаков в более сложных прогностических моделях, включая деревья решений и байесовские сети. [12] Можно также построить сети коэкспрессии между собственными генами модуля (сети собственных генов), т. е. сети, узлы которых являются модулями. [14] Чтобы идентифицировать внутримодульные хаб-гены внутри данного модуля, можно использовать два типа мер связности. Первый, называемый , определяется на основе корреляции каждого гена с соответствующим собственным геном модуля. Второй, называемый kIN, определяется как сумма смежностей относительно генов модуля. На практике эти две меры эквивалентны. [4] Чтобы проверить, сохранился ли модуль в другом наборе данных, можно использовать различную сетевую статистику, например . [6] к М Э я = с о г ( х я , М Э ) {\displaystyle kME_{i}=cor(x_{i},ME)} З с ты м м а г у {\displaystyle Zsummary}

Приложения

WGCNA широко используется для анализа данных экспрессии генов (т. е. транскрипционных данных), например, для поиска внутримодульных генов-концентраторов. [2] [15] Например, исследование WGCNA показывает, что новые факторы транскрипции связаны с дозозависимым эффектом бисфенола А (BPA) . [16]

Он часто используется в качестве шага редукции данных в системных генетических приложениях, где модули представлены «модульными собственными генами», например [17] [18] Модульные собственные гены могут использоваться для корреляции модулей с клиническими признаками. Сети собственных генов являются сетями коэкспрессии между модульными собственными генами (т.е. сетями, узлы которых являются модулями). WGCNA широко используется в нейробиологических приложениях, например [19] [20] и для анализа геномных данных, включая данные микрочипов , [21] данные РНК-Seq отдельных клеток [22] [23] данные метилирования ДНК , [24] данные микроРНК, подсчеты пептидов [25] и данные микробиоты (секвенирование гена 16S рРНК). [26] Другие приложения включают данные визуализации мозга, например данные функциональной МРТ . [27]

Пакет программного обеспечения R

Пакет программного обеспечения WGCNA R [28] предоставляет функции для выполнения всех аспектов взвешенного сетевого анализа (конструирование модуля, выбор гена-концентратора, статистика сохранения модуля, дифференциальный сетевой анализ, сетевая статистика). Пакет WGCNA доступен в Comprehensive R Archive Network (CRAN), стандартном репозитории для дополнительных пакетов R.

Ссылки

  1. ^ abc Horvath S (2011). Взвешенный сетевой анализ: применение в геномике и системной биологии . Нью-Йорк, Нью-Йорк: Springer. ISBN 978-1-4419-8818-8.
  2. ^ ab Langfelder P, Mischel PS, Horvath S, Ravasi T (17 апреля 2013 г.). «Когда выбор гена-концентратора лучше стандартного метаанализа?». PLOS ONE . 8 (4): e61505. Bibcode : 2013PLoSO...861505L. doi : 10.1371/journal.pone.0061505 . PMC 3629234. PMID  23613865 . 
  3. ^ abcde Zhang B, Horvath S (2005). "Общая структура для анализа сетей взвешенной коэкспрессии генов" (PDF) . Статистические приложения в генетике и молекулярной биологии . 4 : 17. CiteSeerX 10.1.1.471.9599 . doi :10.2202/1544-6115.1128. PMID  16646834. S2CID  7756201. Архивировано из оригинала (PDF) 28.09.2020 . Получено 29.11.2013 . 
  4. ^ abcde Хорват С., Донг Дж. (2008). "Геометрическая интерпретация анализа сетей коэкспрессии генов". PLOS Computational Biology . 4 (8): e1000117. Bibcode : 2008PLSCB...4E0117H. doi : 10.1371/journal.pcbi.1000117 . PMC 2446438. PMID  18704157 . 
  5. ^ Oldham MC, Langfelder P, Horvath S (12 июня 2012 г.). «Сетевые методы описания взаимосвязей выборок в геномных наборах данных: применение к болезни Хантингтона». BMC Systems Biology . 6 : 63. doi : 10.1186/1752-0509-6-63 . PMC 3441531. PMID  22691535 . 
  6. ^ ab Langfelder P, Luo R, Oldham MC, Horvath S (20 января 2011 г.). «Сохранен ли и воспроизводим ли мой сетевой модуль?». PLOS Computational Biology . 7 (1): e1001057. Bibcode : 2011PLSCB...7E1057L. doi : 10.1371/journal.pcbi.1001057 . PMC 3024255. PMID  21283776 . 
  7. ^ Dong J, Horvath S (4 июня 2007 г.). «Понимание концепций сетей в модулях». BMC Systems Biology . 1 : 24. doi : 10.1186/1752-0509-1-24 . PMC 3238286. PMID  17547772 . 
  8. ^ Ranola JM, Langfelder P, Lange K, Horvath S (14 марта 2013 г.). «Кластерная и предрасположенностная аппроксимация сети». BMC Systems Biology . 7 : 21. doi : 10.1186/1752-0509-7-21 . PMC 3663730. PMID  23497424 . 
  9. ^ Равас Э., Сомера А.Л., Монгру Д.А., Олваи З.Н., Барабаси А.Л. (2002). «Иерархическая организация модульности в метаболических сетях». Наука . 297 (5586): 1551–1555. arXiv : cond-mat/0209244 . Бибкод : 2002Sci...297.1551R. дои : 10.1126/science.1073374. PMID  12202830. S2CID  14452443.
  10. ^ Yip AM, Horvath S (24 января 2007 г.). «Взаимосвязанность генных сетей и обобщенная топологическая мера перекрытия». BMC Bioinformatics . 8 : 22. doi : 10.1186/1471-2105-8-22 . PMC 1797055. PMID  17250769 . 
  11. ^ Langfelder P, Zhang B, Horvath S (2007). «Определение кластеров из иерархического кластерного дерева: библиотека Dynamic Tree Cut для R». Биоинформатика . 24 (5): 719–20. doi :10.1093/bioinformatics/btm563. PMID  18024473. S2CID  1095190.
  12. ^ ab Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (16 марта 2017 г.). «Крупномасштабный анализ генной сети выявляет значимость пути внеклеточного матрикса и генов гомеобокса при остром миелоидном лейкозе: введение в пакет Pigengene и его применение». BMC Medical Genomics . 10 (1): 16. doi : 10.1186/s12920-017-0253-6 . PMC 5353782 . PMID  28298217. 
  13. ^ Аграхари, Рупеш; Форушани, Амир; Докинг, Т. Родерик; Чанг, Линда; Данс, Гербен; Худоба, Моника; Карсан, Али; Заре, Хабиль (3 мая 2018 г.). "Применение моделей байесовских сетей в прогнозировании типов гематологических злокачественных новообразований". Scientific Reports . 8 (1): 6951. Bibcode :2018NatSR...8.6951A. doi :10.1038/s41598-018-24758-5. ISSN  2045-2322. PMC 5934387 . PMID  29725024. 
  14. ^ Langfelder P, Horvath S (2007). "Сети собственных генов для изучения взаимосвязей между модулями коэкспрессии". BMC Systems Biology . 2007 (1): 54. doi : 10.1186/1752-0509-1-54 . PMC 2267703. PMID  18031580 . 
  15. ^ Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF , Nelson SF, Mischel PS (2006). «Анализ онкогенных сигнальных сетей в глиобластоме идентифицирует ASPM как новую молекулярную мишень». PNAS . 103 (46): 17402–17407. Bibcode :2006PNAS..10317402H. doi : 10.1073/pnas.0608396103 . PMC 1635024 . PMID  17090670. 
  16. ^ Хартунг, Томас; Клинсанг, Андре; Тран, Ви; Мартенс, Александра (2018). «Анализ взвешенной сети корреляции генов (WGCNA) выявляет новые факторы транскрипции, связанные с зависимостью дозы бисфенола А от ответа». Frontiers in Genetics . 9 : 508. doi : 10.3389 /fgene.2018.00508 . ISSN  1664-8021. PMC 6240694. PMID  30483308. 
  17. ^ Чен Ю, Чжу Дж, Лум ПЮ, Ян X, Пинто С, МакНил DJ, Чжан С, Лэмб Дж, Эдвардс С, Сибертс С.К., Леонардсон А, Кастеллини Л.В., Ван С., Чампи М.Ф., Чжан Б., Эмильссон В., Досс С., Газалпур А., Хорват С., Дрейк Т.А., Лусис А.Дж., Шадт Э.Э. (27 марта 2008 г.). «Вариации ДНК проясняют молекулярные сети, вызывающие болезни». Природа . 452 (7186): 429–35. Бибкод : 2008Natur.452..429C. дои : 10.1038/nature06757. ПМЦ 2841398 . ПМИД  18344982. 
  18. ^ Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P, Storey JD (11 сентября 2009 г.). «Системный генетический подход подразумевает USF1, FADS3 и другие причинные гены-кандидаты для семейной комбинированной гиперлипидемии». PLOS Genetics . 5 (9): e1000642. doi : 10.1371/journal.pgen.1000642 . PMC 2730565 . PMID  19750004. 
  19. ^ Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor RM, Blencowe BJ, Geschwind DH (25 мая 2011 г.). «Транскриптомный анализ аутистического мозга выявляет конвергентную молекулярную патологию». Nature . 474 (7351): 380–4. doi :10.1038/nature10110. PMC 3607626 . PMID  21614001. 
  20. ^ Гаврилиц М.Ю., Лейн Э.С., Гийозе-Бонгаартс А.Л., Шен Э.Х., Нг Л, Миллер Дж.А., ван де Лагемаат Л.Н., Смит К.А., Эбберт А., Райли З.Л., Абаджян С., Бекманн К.Ф., Бернард А., Бертаньолли Д., Бо А.Ф., Картахена П.М., Чакраварти М.М., Чапин М., Чонг Дж., Дэлли Р.А., Дэвид Дейли Б., Данг С., Датта С., Ди Н., Долбир Т.А., Фабер В., Фенг Д., Фаулер Д.Р., Голди Дж., Грегор Б.В., Харадон З., Хейнор ДР, Хохманн Дж.Г., Хорват С., Ховард Р.Э., Джеромин А., Йохим Дж.М., Киннунен М., Лау С., Лазарц Э.Т., Ли С., Лемон Т.А., Ли Л, Ли Ю, Моррис Дж.А., Оверли CC, Parker PD, Parry SE, Reding M, Royall JJ, Schulkin J, Sequeira PA, Slaughterbeck CR, Smith SC, Sodt AJ, Sunkin SM, Swanson BE, Vawter MP, Williams D, Wohnoutka P, Zielke HR, Geschwind DH, Hof PR , Смит SM, Кох C, Грант S, Джонс AR (20 сентября 2012 г.). «Анатомически полный атлас транскриптома мозга взрослого человека». Nature . 489 (7416): 391–399. Bibcode :2012Natur.489..391H . doi :10.1038/nature11405. PMC 4243026. PMID 22996553  . 
  21. ^ Kadarmideen HN, Watson-Haigh NS, Andronicos NM (2011). «Системная биология устойчивости кишечных паразитов овец: модули генов болезней и биомаркеры». Molecular BioSystems . 7 (1): 235–246. doi :10.1039/C0MB00190B. PMID  21072409.
  22. ^ Kogelman LJ, Cirera S, Zhernakova DV, Fredholm M, Franke L, Kadarmideen HN (30 сентября 2014 г.). «Идентификация сетей генов коэкспрессии, регуляторных генов и путей ожирения на основе секвенирования РНК жировой ткани в модели свиньи». BMC Medical Genomics . 7 (1): 57. doi : 10.1186/1755-8794-7-57 . PMC 4183073 . PMID  25270054. 
  23. ^ Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G (29 августа 2013 г.). «Генетические программы в ранних эмбрионах человека и мыши, выявленные путем секвенирования РНК отдельных клеток». Nature . 500 (7464): 593–7. Bibcode :2013Natur.500..593X. doi :10.1038/nature12364. PMC 4950944 . PMID  23892778. 
  24. ^ Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA (3 октября 2012 г.). «Влияние старения на модули метилирования ДНК в мозге и кровяной ткани человека». Genome Biology . 13 (10): R97. doi : 10.1186 /gb-2012-13-10-r97 . PMC 4053733. PMID  23034122. 
  25. ^ Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW (12 июля 2012 г.). «Сетевая организация протеомного интерактома хантингтина в мозге млекопитающих». Neuron . 75 (1): 41–57. doi :10.1016/j.neuron.2012.05.024. PMC 3432264 . PMID  22794259. 
  26. ^ Тонг, Маоменг; Ли, Сяосяо; Вегенер Парфри, Лора; Рот, Беннетт; Ипполити, Эндрю; Вэй, Бо; Борнеман, Джеймс; Макговерн, Дермот ПБ; Фрэнк, Дэниел Н.; Ли, Эллен; Хорват, Стив; Найт, Роб; Браун, Джонатан (2013). «Модульная организация микробиоты слизистой оболочки кишечника человека и ее связь с воспалительными заболеваниями кишечника». PLOS ONE . 8 (11): e80702. doi : 10.1371/JOURNAL.PONE.0080702 . PMC 3834335. PMID  24260458 . 
  27. ^ Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (1 октября 2010 г.). «Обнаружение сетевых модулей во временных рядах фМРТ: подход взвешенного сетевого анализа». NeuroImage . 52 (4): 1465–76. doi :10.1016/j.neuroimage.2010.05.047. PMC 3632300 . PMID  20553896. 
  28. ^ Langfelder P, Horvath S (29 декабря 2008 г.). "WGCNA: пакет R для анализа сетей с весовой корреляцией". BMC Bioinformatics . 9 : 559. doi : 10.1186/1471-2105-9-559 . PMC 2631488. PMID  19114008 . 
Взято с "https://en.wikipedia.org/w/index.php?title=Взвешенный_корреляционный_сетевой_анализ&oldid=1243372376"