В вычислительной биологии предсказание структуры белка de novo относится к алгоритмическому процессу, с помощью которого предсказывается третичная структура белка из его первичной последовательности аминокислот . Сама проблема занимала ведущих ученых на протяжении десятилетий, оставаясь при этом нерешенной. Согласно Science , проблема остается одной из 125 главных нерешенных проблем современной науки. [1] В настоящее время некоторые из наиболее успешных методов имеют разумную вероятность предсказания складок небольших однодоменных белков в пределах 1,5 ангстрем по всей структуре. [2]
Методы de novo , как правило, требуют огромных вычислительных ресурсов и, таким образом, были выполнены только для относительно небольших белков. Моделирование структуры белка de novo отличается от моделирования на основе шаблонов (TBM) тем, что не используется решенный гомолог интересующего белка, что делает попытки предсказать структуру белка по аминокислотной последовательности чрезвычайно сложными. Предсказание структуры белка de novo для более крупных белков потребует лучших алгоритмов и больших вычислительных ресурсов, таких как те, которые предоставляются либо мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3), либо проектами распределенных вычислений (такими как Folding@home , Rosetta@home , Human Proteome Folding Project или Nutritious Rice for the World ). Хотя вычислительные барьеры огромны, потенциальные преимущества структурной геномики (предсказанными или экспериментальными методами) для таких областей, как медицина и разработка лекарств, делают предсказание структуры de novo активной областью исследований.
В настоящее время разрыв между известными последовательностями белков и подтвержденными структурами белков огромен. В начале 2008 года только около 1% последовательностей, перечисленных в базе данных UniProtKB, соответствовали структурам в Protein Data Bank (PDB), оставляя разрыв между последовательностью и структурой приблизительно в пять миллионов. [3] Экспериментальные методы определения третичной структуры столкнулись с серьезными узкими местами в их способности определять структуры для конкретных белков. Например, в то время как рентгеновская кристаллография была успешной в кристаллизации приблизительно 80 000 цитозольных белков, она была гораздо менее успешной в кристаллизации мембранных белков – приблизительно 280. [4] В свете экспериментальных ограничений, разработка эффективных компьютерных программ для закрытия разрыва между известной последовательностью и структурой считается единственным возможным вариантом. [4]
Методы прогнозирования структуры белка de novo пытаются предсказать третичные структуры из последовательностей на основе общих принципов, которые управляют энергетикой сворачивания белка и/или статистическими тенденциями конформационных особенностей, которые приобретают нативные структуры, без использования явных шаблонов . Исследования в области прогнозирования структуры de novo были в основном сосредоточены на трех областях: альтернативные представления белков с более низким разрешением, точные энергетические функции и эффективные методы выборки.
Общая парадигма для прогнозирования de novo включает выборку пространства конформаций , руководствуясь функциями оценки и другими зависимыми от последовательности смещениями, так что генерируется большой набор структур-кандидатов («приманок»). Затем из этих приманок выбираются конформации, подобные нативным, с использованием функций оценки, а также кластеризации конформеров. Высокое разрешение уточнения иногда используется в качестве последнего шага для тонкой настройки структур, подобных нативным. Существует два основных класса функций оценки. Функции, основанные на физике, основаны на математических моделях, описывающих аспекты известной физики молекулярного взаимодействия. Функции, основанные на знаниях, формируются с помощью статистических моделей, фиксирующих аспекты свойств конформаций нативных белков. [5]
Было представлено несколько линий доказательств в пользу представления о том, что первичная последовательность белка содержит всю информацию, необходимую для общей трехмерной структуры белка, что делает возможным идею предсказания белка de novo. Во-первых, белки с разными функциями обычно имеют разные последовательности аминокислот. Во-вторых, несколько различных заболеваний человека, таких как мышечная дистрофия Дюшенна , могут быть связаны с потерей функции белка в результате изменения всего одной аминокислоты в первичной последовательности. В-третьих, белки со схожими функциями у многих разных видов часто имеют схожие последовательности аминокислот. Например, убиквитин — это белок, участвующий в регуляции деградации других белков; его аминокислотная последовательность почти идентична у видов, столь отдаленных друг от друга, как Drosophila melanogaster и Homo sapiens . В-четвертых, с помощью мысленного эксперимента можно сделать вывод, что сворачивание белка не должно быть полностью случайным процессом и что информация, необходимая для сворачивания, должна быть закодирована в первичной структуре. Например, если предположить, что каждый из 100 аминокислотных остатков в небольшом полипептиде может принимать в среднем 10 различных конформаций, что даст 10^100 различных конформаций для полипептида. Если бы одна возможная конформация проверялась каждые 10^-13 секунд, то потребовалось бы около 10^77 лет, чтобы опробовать все возможные конформации. Однако белки правильно сворачиваются в организме в короткие временные масштабы все время, что означает, что процесс не может быть случайным и, таким образом, потенциально может быть смоделирован.
Одно из самых веских доказательств предположения о том, что вся необходимая информация для кодирования третичной структуры белка содержится в первичной последовательности, было продемонстрировано в 1950-х годах Кристианом Анфинсеном . В классическом эксперименте он показал, что рибонуклеаза А может быть полностью денатурирована путем погружения в раствор мочевины (для разрушения стабилизирующих гидрофобных связей) в присутствии восстановителя (для расщепления стабилизирующих дисульфидных связей). После удаления белка из этой среды денатурированный и бесфункциональный белок рибонуклеазы спонтанно откатывался и восстанавливал функцию, демонстрируя, что третичная структура белка закодирована в первичной аминокислотной последовательности. Если бы белок был преобразован случайным образом, могло бы образоваться более ста различных комбинаций из четырех дисульфидных связей. Однако в большинстве случаев белкам потребуется присутствие молекулярных шаперонов внутри клетки для правильного сворачивания. Общая форма белка может быть закодирована в его аминокислотной структуре, но его сворачивание может зависеть от шаперонов, которые помогают в сворачивании. [6]
Предсказатели конформации de novo обычно функционируют, производя кандидатные конформации (приманки), а затем выбирая среди них на основе их термодинамической стабильности и энергетического состояния. Большинство успешных предсказателей будут иметь следующие три общих фактора:
1) Точная энергетическая функция, которая соответствует наиболее термодинамически стабильному состоянию нативной структуры белка.
2) Эффективный метод поиска, позволяющий быстро идентифицировать низкоэнергетические состояния с помощью конформационного поиска.
3) Возможность выбора моделей, похожих на нативные, из коллекции ложных структур [3]
Программы de novo будут искать в трехмерном пространстве и в процессе создавать кандидатные конформации белка. По мере того, как белок приближается к своему правильно свернутому, нативному состоянию, энтропия и свободная энергия будут уменьшаться. Используя эту информацию, предикторы de novo могут различать ложные варианты. В частности, программы de novo будут выбирать возможные конформации с более низкой свободной энергией, которые с большей вероятностью будут правильными, чем структуры с более высокой свободной энергией. [2] [6] [7] Как заявил Дэвид А. Бейкер относительно того, как работает его предиктор de novo Rosetta, «во время сворачивания каждый локальный сегмент цепи мерцает между различным подмножеством локальных конформаций... сворачивание в нативную структуру происходит, когда конформации, принятые локальными сегментами, и их относительная ориентация допускают... низкоэнергетические особенности нативных структур белка. В алгоритме Rosetta... программа затем ищет комбинацию этих локальных конформаций, которая имеет самую низкую общую энергию». [8]
Однако некоторые методы de novo работают, сначала перебирая все конформационное пространство, используя упрощенное представление структуры белка, а затем выбирая те, которые с наибольшей вероятностью будут похожи на нативные. Примером такого подхода является подход, основанный на представлении складок белка с использованием тетраэдрических решеток и построении всех моделей атомов поверх всех возможных конформаций, полученных с использованием тетраэдрического представления. Этот подход был успешно использован в CASP3 для предсказания складок белка, топология которых ранее не наблюдалась командой Майкла Левитта. [9]
Разрабатывая программу QUARK, Сюй и Чжан показали, что ab initio структуру некоторых белков можно успешно построить с помощью силового поля, основанного на знаниях. [10] [11]
Если белок с известной третичной структурой разделяет по крайней мере 30% своей последовательности с потенциальным гомологом неопределенной структуры, сравнительные методы, которые накладывают предполагаемую неизвестную структуру на известную, могут быть использованы для предсказания вероятной структуры неизвестной. Однако ниже этого порога используются три других класса стратегий для определения возможной структуры из исходной модели: предсказание белка ab initio, распознавание складки и протягивание.
Целью стратегий как сгиба, так и пронизывания является установление того, похожа ли складка в неизвестном белке на домен в известном, размещенном в базе данных, например, в банке данных белков (PDB). Это отличается от методов de novo (ab initio), где структура определяется с использованием подхода, основанного на физике, вместо сравнения складок в белке со структурами в базе данных. [12]
Основным ограничением методов прогнозирования белков de novo является чрезвычайно большое количество машинного времени, требуемое для успешного решения нативной конформации белка. Распределенные методы, такие как Rosetta@home, пытались улучшить это, привлекая людей, которые затем добровольно предоставляли время простоя домашнего компьютера для обработки данных. Однако даже эти методы сталкиваются с трудностями. Например, распределенный метод был использован группой исследователей из Вашингтонского университета и Медицинского института Говарда Хьюза для предсказания третичной структуры белка T0283 из его аминокислотной последовательности. В слепом тесте, сравнивающем точность этого распределенного метода с экспериментально подтвержденной структурой, депонированной в Protein Databank (PDB), предиктор дал превосходное согласие с депонированной структурой. Однако время и количество компьютеров, требуемых для этого подвига, были огромными — почти два года и приблизительно 70 000 домашних компьютеров соответственно. [13]
Один из методов, предложенных для преодоления таких ограничений, включает использование моделей Маркова (см. Марковские цепи Монте-Карло ). Одна из возможностей заключается в том, что такие модели могут быть построены для помощи в вычислении свободной энергии и прогнозировании структуры белка, возможно, путем уточнения вычислительных симуляций. [14] Другой способ обойти ограничения вычислительной мощности — использовать крупнозернистое моделирование . Крупнозернистые модели белков позволяют прогнозировать структуру de novo небольших белков или больших фрагментов белков за короткое вычислительное время. [15]
Другое ограничение программного обеспечения для прогнозирования структуры белка касается определенного класса белков, а именно белков de novo . Программное обеспечение для прогнозирования структуры, такое как AlphaFold, полагается на коэволюционные данные, полученные из множественного выравнивания последовательностей (MSA) и гомологичных последовательностей белков для прогнозирования структур белков. Однако, по определению, у белков de novo отсутствуют гомологичные последовательности, поскольку они являются эволюционно новыми. [16] Таким образом, можно ожидать, что программное обеспечение для прогнозирования структуры, которое полагается на такую гомологию, будет плохо работать при прогнозировании структур белков de novo . [17] Для повышения точности прогнозирования структуры белков de novo были разработаны новые программы. А именно, ESMFold — это недавно разработанная большая языковая модель (LLM) для прогнозирования структур белков, основанная исключительно на их аминокислотных последовательностях. Она может прогнозировать трехмерную структуру белка с разрешением на атомном уровне с вводом одной аминокислотной последовательности. [18]
«Прогресс для всех вариантов методов прогнозирования вычислительной структуры белка оценивается в двухгодичных экспериментах сообщества Critical Assessment of Protein Structure Prediction ( CASP ). В экспериментах CASP исследовательские группы приглашаются применять свои методы прогнозирования к последовательностям аминокислот, для которых нативная структура неизвестна, но должна быть определена и опубликована в ближайшее время. Несмотря на то, что количество последовательностей аминокислот, предоставленных экспериментами CASP, невелико, эти соревнования дают хорошую меру для оценки методов и прогресса в этой области, как можно утверждать, беспристрастным образом». [19]