Статистический потенциал

Пример межатомного псевдопотенциала между β-углеродами остатков изолейцина и валина, полученного с помощью MyPMF. [1]

В прогнозировании структуры белка статистические потенциалы или потенциалы, основанные на знаниях, представляют собой оценочные функции, полученные на основе анализа известных структур белков в Банке данных белков (PDB).

Первоначальным методом получения таких потенциалов является квазихимическое приближение , предложенное Миядзавой и Джерниганом. [2] Позднее за ним последовал потенциал средней силы (статистический PMF [Примечание 1] ), разработанный Сипплом. [3] Хотя полученные оценки часто рассматриваются как приближения свободной энергии — поэтому их называют псевдоэнергиями — эта физическая интерпретация неверна. [4] [5] Тем не менее, они успешно применяются во многих случаях, поскольку они часто коррелируют с фактическими различиями свободной энергии Гиббса . [6]

Обзор

Возможные характеристики, которым может быть присвоена псевдоэнергия, включают:

Однако классическое применение основано на парных контактах аминокислот или расстояниях, что приводит к статистическим межатомным потенциалам . Для парных контактов аминокислот статистический потенциал формулируется как матрица взаимодействия , которая присваивает вес или значение энергии каждой возможной паре стандартных аминокислот . Энергия конкретной структурной модели в таком случае представляет собой объединенную энергию всех парных контактов (определяемых как две аминокислоты на определенном расстоянии друг от друга) в структуре. Энергии определяются с использованием статистики по контактам аминокислот в базе данных известных структур белков (полученной из PDB ).

История

Начальная разработка

Во многих учебниках статистические PMF, предложенные Сипплом [3], представляются как простое следствие распределения Больцмана , применяемого к парным расстояниям между аминокислотами. Это неверно, но полезно для начала введения построения потенциала на практике. Распределение Больцмана, применяемое к конкретной паре аминокислот, задается как:

П ( г ) = 1 З е Ф ( г ) к Т {\displaystyle P\left(r\right)={\frac {1}{Z}}e^{-{\frac {F\left(r\right)}{kT}}}}

где — расстояние, — постоянная Больцмана , — температура, — статистическая сумма , причем г {\displaystyle r} к {\displaystyle к} Т {\displaystyle Т} З {\displaystyle Z}

З = е Ф ( г ) к Т г г {\displaystyle Z=\int e^{- {\frac {F(r)}{kT}}}dr}

Величина — это свободная энергия, приписанная парной системе. Простая перестановка приводит к обратной формуле Больцмана , которая выражает свободную энергию как функцию : Ф ( г ) {\displaystyle F(r)} Ф ( г ) {\displaystyle F(r)} П ( г ) {\displaystyle P(r)}

Ф ( г ) = к Т вн П ( г ) к Т вн З {\displaystyle F\left(r\right)=-kT\ln P\left(r\right)-kT\ln Z}

Чтобы построить PMF, вводят так называемое опорное состояние с соответствующим распределением и функцией распределения и вычисляют следующую разность свободной энергии: В Р {\displaystyle Q_{R}} З Р {\displaystyle Z_{R}}

Δ Ф ( г ) = к Т вн П ( г ) В Р ( г ) к Т вн З З Р {\displaystyle \Delta F\left(r\right)=-kT\ln {\frac {P\left(r\right)}{Q_{R}\left(r\right)}}-kT\ln {\frac {Z}{Z_{R}}}}

Референтное состояние обычно возникает из гипотетической системы, в которой отсутствуют специфические взаимодействия между аминокислотами. Второй член, включающий и, можно игнорировать, так как он является константой. З {\displaystyle Z} З Р {\displaystyle Z_{R}}

На практике оценивается по базе данных известных структур белков, тогда как обычно является результатом расчетов или моделирования. Например, может быть условной вероятностью нахождения атомов валина и серина на заданном расстоянии друг от друга, что приводит к разнице свободной энергии . Общая разность свободной энергии белка, , затем утверждается как сумма всех попарных свободных энергий: П ( г ) {\displaystyle P(r)} В Р ( г ) {\displaystyle Q_{R}(r)} П ( г ) {\displaystyle P(r)} С β {\displaystyle C\бета} г {\displaystyle r} Δ Ф {\displaystyle \Дельта F} Δ Ф Т {\displaystyle \Delta F_{\textrm {T}}}

Δ Ф Т = я < дж Δ Ф ( г я дж а я , а дж ) = к Т я < дж вн П ( г я дж а я , а дж ) В Р ( г я дж а я , а дж ) {\displaystyle \Delta F_{\textrm {T}}=\sum _{i<j}\Delta F(r_{ij}\mid a_{i},a_{j})=-kT\sum _{i<j}\ln {\frac {P\left(r_{ij}\mid a_{i},a_{j}\right)}{Q_{R}\left(r_{ij}\mid a_{i},a_{j}\right)}}}

где сумма пробегает все пары аминокислот (с ) и является их соответствующим расстоянием. Во многих исследованиях не зависит от последовательности аминокислот . [7] а я , а дж {\displaystyle a_{i},a_{j}} я < дж {\displaystyle я<j} г я дж {\displaystyle r_{ij}} В Р {\displaystyle Q_{R}}

Концептуальные вопросы

Интуитивно понятно, что низкое значение указывает на то, что набор расстояний в структуре более вероятен в белках, чем в исходном состоянии. Однако физическое значение этих статистических PMF широко обсуждалось с момента их введения. [4] [5] [8] [9] Основные вопросы: Δ Ф Т {\displaystyle \Delta F_{\textrm {T}}}

  1. Неправильная интерпретация этого «потенциала» как истинного, физически обоснованного потенциала средней силы ;
  2. Природа так называемого исходного состояния и его оптимальная формулировка;
  3. Обоснованность обобщений за пределами попарных расстояний.

Спорная аналогия

В ответ на вопрос о физической обоснованности первое обоснование статистических PMF было предпринято Сипплом. [10] Оно было основано на аналогии со статистической физикой жидкостей. Для жидкостей потенциал средней силы связан с функцией радиального распределения , которая определяется как: [11] г ( г ) {\displaystyle г(г)}

г ( г ) = П ( г ) В Р ( г ) {\displaystyle g(r)={\frac {P(r)}{Q_{R}(r)}}}

где и — соответствующие вероятности нахождения двух частиц на расстоянии друг от друга в жидкости и в исходном состоянии. Для жидкостей исходное состояние четко определено; оно соответствует идеальному газу, состоящему из невзаимодействующих частиц. Двухчастичный потенциал средней силы связан с соотношением: П ( г ) {\displaystyle P(r)} В Р ( г ) {\displaystyle Q_{R}(r)} г {\displaystyle r} Вт ( г ) {\displaystyle W(r)} г ( г ) {\displaystyle г(г)}

Вт ( г ) = к Т бревно г ( г ) = к Т бревно П ( г ) В Р ( г ) {\displaystyle W(r)=-kT\log g(r)=-kT\log {\frac {P(r)}{Q_{R}(r)}}}

Согласно теореме об обратимой работе, двухчастичный потенциал средней силы представляет собой обратимую работу, необходимую для перемещения двух частиц в жидкости из бесконечного расстояния друг от друга. [11] Вт ( г ) {\displaystyle W(r)} г {\displaystyle r}

Сиппл обосновал использование статистических PMF — через несколько лет после того, как он ввел их для использования в предсказании структуры белка — апеллируя к аналогии с теоремой об обратимой работе для жидкостей. Для жидкостей может быть экспериментально измерено с использованием малоуглового рентгеновского рассеяния ; для белков получается из набора известных структур белков, как объяснялось в предыдущем разделе. Однако, как писал Бен-Наим в публикации по этой теме: [5] г ( г ) {\displaystyle г(г)} П ( г ) {\displaystyle P(r)}

[...] величины, называемые «статистическими потенциалами», «структурными потенциалами» или «парными потенциалами средней силы», полученные из банка данных по белкам (PDB), не являются ни «потенциалами», ни «потенциалами средней силы» в обычном смысле, используемом в литературе по жидкостям и растворам.

Более того, эта аналогия не решает вопроса о том, как указать подходящее референтное состояние для белков.

Машинное обучение

В середине 2000-х годов авторы начали объединять несколько статистических потенциалов, полученных из различных структурных особенностей, в составные оценки . [12] Для этой цели они использовали методы машинного обучения , такие как машины опорных векторов (SVM). Вероятностные нейронные сети (PNN) также применялись для обучения статистического потенциала, зависящего от положения и расстояния. [13] В 2016 году исследовательская лаборатория искусственного интеллекта DeepMind начала применять методы глубокого обучения для разработки статистического потенциала, зависящего от кручения и расстояния. [14] Полученный метод, названный AlphaFold , выиграл 13-ю критическую оценку методов прогнозирования структуры белка (CASP), правильно предсказав наиболее точную структуру для 25 из 43 свободных доменов моделирования .

Объяснение

Байесовская вероятность

Бейкер и его коллеги [15] обосновали статистические PMF с байесовской точки зрения и использовали эти идеи при построении крупнозернистой энергетической функции ROSETTA . Согласно байесовскому исчислению вероятностей , условная вероятность структуры , заданной аминокислотной последовательностью , может быть записана как: П ( Х А ) {\displaystyle P(X\mid A)} Х {\displaystyle X} А {\displaystyle А}

П ( Х А ) = П ( А Х ) П ( Х ) П ( А ) П ( А Х ) П ( Х ) {\displaystyle P\left(X\mid A\right)={\frac {P\left(A\mid X\right)P\left(X\right)}{P\left(A\right)}}\propto P\left(A\mid X\right)P\left(X\right)}

П ( Х А ) {\displaystyle P(X\mid A)} пропорциональна произведению вероятности на априорную вероятность . Предположив, что вероятность может быть аппроксимирована как произведение парных вероятностей, и применив теорему Байеса , вероятность можно записать как: П ( А Х ) {\displaystyle P\left(A\mid X\right)} П ( Х ) {\displaystyle P\left(X\right)}

П ( А Х ) я < дж П ( а я , а дж г я дж ) я < дж П ( г я дж а я , а дж ) П ( г я дж ) {\displaystyle P\left(A\mid X\right)\approx \prod _{i<j}P\left(a_{i},a_{j}\mid r_{ij}\right)\propto \prod _{i<j}{\frac {P\left(r_{ij}\mid a_{i},a_{j}\right)}{P(r_{ij})}}}

где произведение пробегает все пары аминокислот (с ), и является расстоянием между аминокислотами и . Очевидно, что отрицательный логарифм выражения имеет ту же функциональную форму, что и классические статистические PMF парных расстояний, при этом знаменатель играет роль исходного состояния. Это объяснение имеет два недостатка: оно опирается на необоснованное предположение, что вероятность может быть выражена как произведение парных вероятностей, и оно является чисто качественным . а я , а дж {\displaystyle a_{i},a_{j}} я < дж {\displaystyle я<j} г я дж {\displaystyle r_{ij}} я {\displaystyle я} дж {\displaystyle j}

Вероятностная кинематика

Хамельрик и его коллеги [6] позже дали количественное объяснение статистическим потенциалам, согласно которому они приближаются к форме вероятностного рассуждения, придуманного Ричардом Джеффри , и назвали вероятностной кинематикой . Этот вариант байесовского мышления (иногда называемый « обусловливанием Джеффри ») позволяет обновлять априорное распределение на основе новой информации о вероятностях элементов разбиения на основе априорного распределения. С этой точки зрения, (i) нет необходимости предполагать, что база данных структур белков, используемая для построения потенциалов, следует распределению Больцмана, (ii) статистические потенциалы легко обобщаются за пределами попарных различий, и (iii) референтное отношение определяется априорным распределением.

Справочное отношение

Метод референтного отношения. представляет собой распределение вероятностей, которое описывает структуру белков в локальной шкале длины (справа). Обычно, воплощается в библиотеке фрагментов, но другие возможности представляют собой энергетическую функцию или графическую модель . Для того чтобы получить полное описание структуры белка, также необходимо распределение вероятностей , которое описывает нелокальные аспекты, такие как водородные связи. обычно получается из набора решенных структур белков из PDB (слева). Для того чтобы объединить с осмысленным образом, необходимо выражение референтного отношения (внизу), которое учитывает сигнал относительно . В ( Х ) {\displaystyle Q(X)} В ( Х ) {\displaystyle Q(X)} П ( И ) {\displaystyle P(Y)} П ( И ) {\displaystyle P(Y)} В ( Х ) {\displaystyle Q(X)} П ( И ) {\displaystyle P(Y)} В ( Х ) {\displaystyle Q(X)} И {\displaystyle Y}

Выражения, которые напоминают статистические PMF, естественным образом возникают в результате применения теории вероятностей для решения фундаментальной проблемы, которая возникает при прогнозировании структуры белка: как улучшить несовершенное распределение вероятностей по первой переменной с помощью распределения вероятностей по второй переменной , с . [6] Обычно и являются мелкозернистыми и крупнозернистыми переменными соответственно. Например, может касаться локальной структуры белка, в то время как может касаться парных расстояний между аминокислотами. В этом случае может быть, например, вектором двугранных углов, который определяет все положения атомов (предполагая идеальные длины связей и углы). Чтобы объединить два распределения таким образом, чтобы локальная структура была распределена в соответствии с , в то время как парные расстояния будут распределены в соответствии с , необходимо следующее выражение: В ( Х ) {\displaystyle Q(X)} Х {\displaystyle X} П ( И ) {\displaystyle P(Y)} И {\displaystyle Y} И = ф ( Х ) {\displaystyle Y=f(X)} Х {\displaystyle X} И {\displaystyle Y} В ( Х ) {\displaystyle Q(X)} П ( И ) {\displaystyle P(Y)} Х {\displaystyle X} В ( Х ) {\displaystyle Q(X)} П ( И ) {\displaystyle P(Y)}

П ( Х , И ) = П ( И ) В ( И ) В ( Х ) {\displaystyle P(X,Y)={\frac {P(Y)}{Q(Y)}}Q(X)}

где — распределение по подразумеваемое . Отношение в выражении соответствует PMF. Обычно вводится путем выборки (обычно из библиотеки фрагментов) и не оценивается явно; отношение, которое, напротив, оценивается явно, соответствует PMF Сиппла. Это объяснение количественно и позволяет обобщить статистические PMF из парных расстояний на произвольные крупнозернистые переменные. Оно также дает строгое определение исходного состояния, которое подразумевается . Традиционным приложениям статистических PMF парных расстояний обычно не хватает двух необходимых особенностей, чтобы сделать их полностью строгими: использование надлежащего распределения вероятностей по парным расстояниям в белках и признание того, что исходное состояние строго определяется . В ( И ) {\displaystyle Q(Y)} И {\displaystyle Y} В ( Х ) {\displaystyle Q(X)} В ( Х ) {\displaystyle Q(X)} В ( Х ) {\displaystyle Q(X)} В ( Х ) {\displaystyle Q(X)}

Приложения

Статистические потенциалы используются в качестве энергетических функций при оценке ансамбля структурных моделей, полученных с помощью моделирования гомологии или белкового нитеобразования . Было показано, что многие статистические потенциалы с различными параметрами успешно идентифицируют структуру нативного состояния из ансамбля ложных или ненативных структур. [16] Статистические потенциалы используются не только для предсказания структуры белка , но и для моделирования пути сворачивания белка . [17] [18]

Смотрите также

Примечания

  1. ^ Не путать с фактическим PMF .

Ссылки

  1. ^ Postic, Guillaume; Hamelryck, Thomas; Chomilier, Jacques; Stratmann, Dirk (2018). «MyPMFs: простой инструмент для создания статистических потенциалов для оценки структурных моделей белков». Biochimie . 151 : 37–41 . doi :10.1016/j.biochi.2018.05.013. ISSN  0300-9084. PMID  29857183. S2CID  46923560.
  2. ^ Миядзава С., Джерниган Р. (1985). «Оценка эффективных энергий контакта между остатками из кристаллических структур белков: квазихимическое приближение». Макромолекулы . 18 (3): 534–552 . Bibcode : 1985MaMol..18..534M. CiteSeerX 10.1.1.206.715 . doi : 10.1021/ma00145a039. 
  3. ^ ab Sippl MJ (1990). "Расчет конформационных ансамблей из потенциалов средней силы. Подход к прогнозированию локальных структур в глобулярных белках на основе знаний". J Mol Biol . 213 (4): 859– 883. doi :10.1016/s0022-2836(05)80269-4. PMID  2359125.
  4. ^ ab Thomas PD, Dill KA (1996). «Статистические потенциалы, извлеченные из структур белков: насколько они точны?». J Mol Biol . 257 (2): 457– 469. doi :10.1006/jmbi.1996.0175. PMID  8609636.
  5. ^ abc Ben-Naim A (1997). «Статистические потенциалы, извлеченные из структур белков: имеют ли они смысл?». J Chem Phys . 107 (9): 3698– 3706. Bibcode : 1997JChPh.107.3698B. doi : 10.1063/1.474725.
  6. ^ abc Hamelryck T, Borg M, Paluszewski M и др. (2010). Flower DR (ред.). «Потенциалы средней силы для предсказания структуры белка подтверждены, формализованы и обобщены». PLOS ONE . ​​5 (11): e13714. arXiv : 1008.4006 . Bibcode :2010PLoSO...513714H. doi : 10.1371/journal.pone.0013714 . PMC 2978081 . PMID  21103041. 
  7. ^ Rooman M, Wodak S (1995). «Являются ли потенциалы, полученные из базы данных, действительными для оценки как прямого, так и обратного сворачивания белка?». Protein Eng . 8 (9): 849– 858. doi :10.1093/protein/8.9.849. PMID  8746722.
  8. ^ Коппенштайнер WA, Сиппл МДж (1998). «Потенциалы, основанные на знаниях – назад к корням». Biochemistry Mosc . 63 (3): 247–252 . PMID  9526121.
  9. ^ Shortle D (2003). «Склонности, вероятности и гипотеза Больцмана». Protein Sci . 12 (6): 1298– 1302. doi :10.1110/ps.0306903. PMC 2323900. PMID  12761401 . 
  10. ^ Sippl MJ, Ortner M, Jaritz M, Lackner P, Flockner H (1996). "Свободные энергии Гельмгольца взаимодействий пар атомов в белках". Fold Des . 1 (4): 289– 98. doi :10.1016/s1359-0278(96)00042-9. PMID  9079391.
  11. ^ ab Чандлер Д. (1987) Введение в современную статистическую механику. Нью-Йорк: Oxford University Press, США.
  12. ^ Эрамиан, Дэвид; Шен, Мин-И; Девос, Дэмиен; Мело, Франциско; Сали, Андрей; Марти-Реном, Марк (2006). «Композитная оценка для прогнозирования ошибок в моделях структуры белка». Protein Science . 15 (7): 1653– 1666. doi :10.1110/ps.062095806. PMC 2242555 . PMID  16751606. 
  13. ^ Чжао, Фэн; Сюй, Цзиньбо (2012). «Статистический потенциал, зависящий от положения и расстояния, для изучения структуры и функций белка». Структура . 20 (6): 1118– 1126. doi :10.1016/j.str.2012.04.003. PMC 3372698. PMID  22608968 . 
  14. ^ Senior AW, Evans R, Jumper J, et al. (2020). «Улучшенное предсказание структуры белка с использованием потенциалов глубокого обучения» (PDF) . Nature . 577 (7792): 706– 710. Bibcode :2020Natur.577..706S. doi :10.1038/s41586-019-1923-7. PMID  31942072. S2CID  210221987.
  15. ^ Simons KT, Kooperberg C, Huang E, Baker D (1997). «Сборка третичных структур белков из фрагментов с похожими локальными последовательностями с использованием имитации отжига и байесовских функций оценки». J Mol Biol . 268 (1): 209–225 . CiteSeerX 10.1.1.579.5647 . doi :10.1006/jmbi.1997.0959. PMID  9149153. 
  16. ^ Lam SD, Das S, Sillitoe I, Orengo C (2017). «Обзор сравнительного моделирования и ресурсов, посвященных крупномасштабному моделированию последовательностей генома». Acta Crystallogr D. 73 ( 8): 628– 640. Bibcode : 2017AcCrD..73..628L. doi : 10.1107/S2059798317008920. PMC 5571743. PMID  28777078 . {{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  17. ^ Kmiecik S и Kolinski A (2007). «Характеристика путей сворачивания белков с помощью моделирования в сокращенном пространстве». Proc. Natl. Acad. Sci. USA . 104 (30): 12330– 12335. Bibcode : 2007PNAS..10412330K. doi : 10.1073/pnas.0702265104 . PMC 1941469. PMID  17636132 . 
  18. ^ Adhikari AN, Freed KF, Sosnick TR (2012). «Прогнозирование de novo путей сворачивания белков и структуры с использованием принципа последовательной стабилизации». Proc. Natl. Acad. Sci. USA . 109 (43): 17442– 17447. Bibcode : 2012PNAS..10917442A. doi : 10.1073/pnas.1209000109 . PMC 3491489. PMID  23045636 . 
Взято с "https://en.wikipedia.org/w/index.php?title=Статистический_потенциал&oldid=1253642333"