В прогнозировании структуры белка статистические потенциалы или потенциалы, основанные на знаниях, представляют собой оценочные функции, полученные на основе анализа известных структур белков в Банке данных белков (PDB).
Первоначальным методом получения таких потенциалов является квазихимическое приближение , предложенное Миядзавой и Джерниганом. [2] Позднее за ним последовал потенциал средней силы (статистический PMF [Примечание 1] ), разработанный Сипплом. [3] Хотя полученные оценки часто рассматриваются как приближения свободной энергии — поэтому их называют псевдоэнергиями — эта физическая интерпретация неверна. [4] [5] Тем не менее, они успешно применяются во многих случаях, поскольку они часто коррелируют с фактическими различиями свободной энергии Гиббса . [6]
Возможные характеристики, которым может быть присвоена псевдоэнергия, включают:
Однако классическое применение основано на парных контактах аминокислот или расстояниях, что приводит к статистическим межатомным потенциалам . Для парных контактов аминокислот статистический потенциал формулируется как матрица взаимодействия , которая присваивает вес или значение энергии каждой возможной паре стандартных аминокислот . Энергия конкретной структурной модели в таком случае представляет собой объединенную энергию всех парных контактов (определяемых как две аминокислоты на определенном расстоянии друг от друга) в структуре. Энергии определяются с использованием статистики по контактам аминокислот в базе данных известных структур белков (полученной из PDB ).
Во многих учебниках статистические PMF, предложенные Сипплом [3], представляются как простое следствие распределения Больцмана , применяемого к парным расстояниям между аминокислотами. Это неверно, но полезно для начала введения построения потенциала на практике. Распределение Больцмана, применяемое к конкретной паре аминокислот, задается как:
где — расстояние, — постоянная Больцмана , — температура, — статистическая сумма , причем
Величина — это свободная энергия, приписанная парной системе. Простая перестановка приводит к обратной формуле Больцмана , которая выражает свободную энергию как функцию :
Чтобы построить PMF, вводят так называемое опорное состояние с соответствующим распределением и функцией распределения и вычисляют следующую разность свободной энергии:
Референтное состояние обычно возникает из гипотетической системы, в которой отсутствуют специфические взаимодействия между аминокислотами. Второй член, включающий и, можно игнорировать, так как он является константой.
На практике оценивается по базе данных известных структур белков, тогда как обычно является результатом расчетов или моделирования. Например, может быть условной вероятностью нахождения атомов валина и серина на заданном расстоянии друг от друга, что приводит к разнице свободной энергии . Общая разность свободной энергии белка, , затем утверждается как сумма всех попарных свободных энергий:
где сумма пробегает все пары аминокислот (с ) и является их соответствующим расстоянием. Во многих исследованиях не зависит от последовательности аминокислот . [7]
Интуитивно понятно, что низкое значение указывает на то, что набор расстояний в структуре более вероятен в белках, чем в исходном состоянии. Однако физическое значение этих статистических PMF широко обсуждалось с момента их введения. [4] [5] [8] [9] Основные вопросы:
В ответ на вопрос о физической обоснованности первое обоснование статистических PMF было предпринято Сипплом. [10] Оно было основано на аналогии со статистической физикой жидкостей. Для жидкостей потенциал средней силы связан с функцией радиального распределения , которая определяется как: [11]
где и — соответствующие вероятности нахождения двух частиц на расстоянии друг от друга в жидкости и в исходном состоянии. Для жидкостей исходное состояние четко определено; оно соответствует идеальному газу, состоящему из невзаимодействующих частиц. Двухчастичный потенциал средней силы связан с соотношением:
Согласно теореме об обратимой работе, двухчастичный потенциал средней силы представляет собой обратимую работу, необходимую для перемещения двух частиц в жидкости из бесконечного расстояния друг от друга. [11]
Сиппл обосновал использование статистических PMF — через несколько лет после того, как он ввел их для использования в предсказании структуры белка — апеллируя к аналогии с теоремой об обратимой работе для жидкостей. Для жидкостей может быть экспериментально измерено с использованием малоуглового рентгеновского рассеяния ; для белков получается из набора известных структур белков, как объяснялось в предыдущем разделе. Однако, как писал Бен-Наим в публикации по этой теме: [5]
[...] величины, называемые «статистическими потенциалами», «структурными потенциалами» или «парными потенциалами средней силы», полученные из банка данных по белкам (PDB), не являются ни «потенциалами», ни «потенциалами средней силы» в обычном смысле, используемом в литературе по жидкостям и растворам.
Более того, эта аналогия не решает вопроса о том, как указать подходящее референтное состояние для белков.
В середине 2000-х годов авторы начали объединять несколько статистических потенциалов, полученных из различных структурных особенностей, в составные оценки . [12] Для этой цели они использовали методы машинного обучения , такие как машины опорных векторов (SVM). Вероятностные нейронные сети (PNN) также применялись для обучения статистического потенциала, зависящего от положения и расстояния. [13] В 2016 году исследовательская лаборатория искусственного интеллекта DeepMind начала применять методы глубокого обучения для разработки статистического потенциала, зависящего от кручения и расстояния. [14] Полученный метод, названный AlphaFold , выиграл 13-ю критическую оценку методов прогнозирования структуры белка (CASP), правильно предсказав наиболее точную структуру для 25 из 43 свободных доменов моделирования .
Бейкер и его коллеги [15] обосновали статистические PMF с байесовской точки зрения и использовали эти идеи при построении крупнозернистой энергетической функции ROSETTA . Согласно байесовскому исчислению вероятностей , условная вероятность структуры , заданной аминокислотной последовательностью , может быть записана как:
пропорциональна произведению вероятности на априорную вероятность . Предположив, что вероятность может быть аппроксимирована как произведение парных вероятностей, и применив теорему Байеса , вероятность можно записать как:
где произведение пробегает все пары аминокислот (с ), и является расстоянием между аминокислотами и . Очевидно, что отрицательный логарифм выражения имеет ту же функциональную форму, что и классические статистические PMF парных расстояний, при этом знаменатель играет роль исходного состояния. Это объяснение имеет два недостатка: оно опирается на необоснованное предположение, что вероятность может быть выражена как произведение парных вероятностей, и оно является чисто качественным .
Хамельрик и его коллеги [6] позже дали количественное объяснение статистическим потенциалам, согласно которому они приближаются к форме вероятностного рассуждения, придуманного Ричардом Джеффри , и назвали вероятностной кинематикой . Этот вариант байесовского мышления (иногда называемый « обусловливанием Джеффри ») позволяет обновлять априорное распределение на основе новой информации о вероятностях элементов разбиения на основе априорного распределения. С этой точки зрения, (i) нет необходимости предполагать, что база данных структур белков, используемая для построения потенциалов, следует распределению Больцмана, (ii) статистические потенциалы легко обобщаются за пределами попарных различий, и (iii) референтное отношение определяется априорным распределением.
Выражения, которые напоминают статистические PMF, естественным образом возникают в результате применения теории вероятностей для решения фундаментальной проблемы, которая возникает при прогнозировании структуры белка: как улучшить несовершенное распределение вероятностей по первой переменной с помощью распределения вероятностей по второй переменной , с . [6] Обычно и являются мелкозернистыми и крупнозернистыми переменными соответственно. Например, может касаться локальной структуры белка, в то время как может касаться парных расстояний между аминокислотами. В этом случае может быть, например, вектором двугранных углов, который определяет все положения атомов (предполагая идеальные длины связей и углы). Чтобы объединить два распределения таким образом, чтобы локальная структура была распределена в соответствии с , в то время как парные расстояния будут распределены в соответствии с , необходимо следующее выражение:
где — распределение по подразумеваемое . Отношение в выражении соответствует PMF. Обычно вводится путем выборки (обычно из библиотеки фрагментов) и не оценивается явно; отношение, которое, напротив, оценивается явно, соответствует PMF Сиппла. Это объяснение количественно и позволяет обобщить статистические PMF из парных расстояний на произвольные крупнозернистые переменные. Оно также дает строгое определение исходного состояния, которое подразумевается . Традиционным приложениям статистических PMF парных расстояний обычно не хватает двух необходимых особенностей, чтобы сделать их полностью строгими: использование надлежащего распределения вероятностей по парным расстояниям в белках и признание того, что исходное состояние строго определяется .
Статистические потенциалы используются в качестве энергетических функций при оценке ансамбля структурных моделей, полученных с помощью моделирования гомологии или белкового нитеобразования . Было показано, что многие статистические потенциалы с различными параметрами успешно идентифицируют структуру нативного состояния из ансамбля ложных или ненативных структур. [16] Статистические потенциалы используются не только для предсказания структуры белка , но и для моделирования пути сворачивания белка . [17] [18]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )