Прогнозирование структуры белка de novo

Прогнозирование трехмерной структуры белка по его последовательности

В вычислительной биологии предсказание структуры белка de novo относится к алгоритмическому процессу, с помощью которого предсказывается третичная структура белка из его первичной последовательности аминокислот . Сама проблема занимала ведущих ученых на протяжении десятилетий, оставаясь при этом нерешенной. Согласно Science , проблема остается одной из 125 главных нерешенных проблем современной науки. [1] В настоящее время некоторые из наиболее успешных методов имеют разумную вероятность предсказания складок небольших однодоменных белков в пределах 1,5 ангстрем по всей структуре. [2]

Методы de novo , как правило, требуют огромных вычислительных ресурсов и, таким образом, были выполнены только для относительно небольших белков. Моделирование структуры белка de novo отличается от моделирования на основе шаблонов (TBM) тем, что не используется решенный гомолог интересующего белка, что делает попытки предсказать структуру белка по аминокислотной последовательности чрезвычайно сложными. Предсказание структуры белка de novo для более крупных белков потребует лучших алгоритмов и больших вычислительных ресурсов, таких как те, которые предоставляются либо мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3), либо проектами распределенных вычислений (такими как Folding@home , Rosetta@home , Human Proteome Folding Project или Nutritious Rice for the World ). Хотя вычислительные барьеры огромны, потенциальные преимущества структурной геномики (предсказанными или экспериментальными методами) для таких областей, как медицина и разработка лекарств, делают предсказание структуры de novo активной областью исследований.

Фон

В настоящее время разрыв между известными последовательностями белков и подтвержденными структурами белков огромен. В начале 2008 года только около 1% последовательностей, перечисленных в базе данных UniProtKB, соответствовали структурам в Protein Data Bank (PDB), оставляя разрыв между последовательностью и структурой приблизительно в пять миллионов. [3] Экспериментальные методы определения третичной структуры столкнулись с серьезными узкими местами в их способности определять структуры для конкретных белков. Например, в то время как рентгеновская кристаллография была успешной в кристаллизации приблизительно 80 000 цитозольных белков, она была гораздо менее успешной в кристаллизации мембранных белков – приблизительно 280. [4] В свете экспериментальных ограничений, разработка эффективных компьютерных программ для закрытия разрыва между известной последовательностью и структурой считается единственным возможным вариантом. [4]

Методы прогнозирования структуры белка de novo пытаются предсказать третичные структуры из последовательностей на основе общих принципов, которые управляют энергетикой сворачивания белка и/или статистическими тенденциями конформационных особенностей, которые приобретают нативные структуры, без использования явных шаблонов . Исследования в области прогнозирования структуры de novo были в основном сосредоточены на трех областях: альтернативные представления белков с более низким разрешением, точные энергетические функции и эффективные методы выборки.

Общая парадигма для прогнозирования de novo включает выборку пространства конформаций , руководствуясь функциями оценки и другими зависимыми от последовательности смещениями, так что генерируется большой набор структур-кандидатов («приманок»). Затем из этих приманок выбираются конформации, подобные нативным, с использованием функций оценки, а также кластеризации конформеров. Высокое разрешение уточнения иногда используется в качестве последнего шага для тонкой настройки структур, подобных нативным. Существует два основных класса функций оценки. Функции, основанные на физике, основаны на математических моделях, описывающих аспекты известной физики молекулярного взаимодействия. Функции, основанные на знаниях, формируются с помощью статистических моделей, фиксирующих аспекты свойств конформаций нативных белков. [5]

Аминокислотная последовательность определяет третичную структуру белка

Было представлено несколько линий доказательств в пользу представления о том, что первичная последовательность белка содержит всю информацию, необходимую для общей трехмерной структуры белка, что делает возможным идею предсказания белка de novo. Во-первых, белки с разными функциями обычно имеют разные последовательности аминокислот. Во-вторых, несколько различных заболеваний человека, таких как мышечная дистрофия Дюшенна , могут быть связаны с потерей функции белка в результате изменения всего одной аминокислоты в первичной последовательности. В-третьих, белки со схожими функциями у многих разных видов часто имеют схожие последовательности аминокислот. Например, убиквитин — это белок, участвующий в регуляции деградации других белков; его аминокислотная последовательность почти идентична у видов, столь отдаленных друг от друга, как Drosophila melanogaster и Homo sapiens . В-четвертых, с помощью мысленного эксперимента можно сделать вывод, что сворачивание белка не должно быть полностью случайным процессом и что информация, необходимая для сворачивания, должна быть закодирована в первичной структуре. Например, если предположить, что каждый из 100 аминокислотных остатков в небольшом полипептиде может принимать в среднем 10 различных конформаций, что даст 10^100 различных конформаций для полипептида. Если бы одна возможная конформация проверялась каждые 10^-13 секунд, то потребовалось бы около 10^77 лет, чтобы опробовать все возможные конформации. Однако белки правильно сворачиваются в организме в короткие временные масштабы все время, что означает, что процесс не может быть случайным и, таким образом, потенциально может быть смоделирован.

Одно из самых веских доказательств предположения о том, что вся необходимая информация для кодирования третичной структуры белка содержится в первичной последовательности, было продемонстрировано в 1950-х годах Кристианом Анфинсеном . В классическом эксперименте он показал, что рибонуклеаза А может быть полностью денатурирована путем погружения в раствор мочевины (для разрушения стабилизирующих гидрофобных связей) в присутствии восстановителя (для расщепления стабилизирующих дисульфидных связей). После удаления белка из этой среды денатурированный и бесфункциональный белок рибонуклеазы спонтанно откатывался и восстанавливал функцию, демонстрируя, что третичная структура белка закодирована в первичной аминокислотной последовательности. Если бы белок был преобразован случайным образом, могло бы образоваться более ста различных комбинаций из четырех дисульфидных связей. Однако в большинстве случаев белкам потребуется присутствие молекулярных шаперонов внутри клетки для правильного сворачивания. Общая форма белка может быть закодирована в его аминокислотной структуре, но его сворачивание может зависеть от шаперонов, которые помогают в сворачивании. [6]

Успешныйde novoтребования к моделированию

Предсказатели конформации de novo обычно функционируют, производя кандидатные конформации (приманки), а затем выбирая среди них на основе их термодинамической стабильности и энергетического состояния. Большинство успешных предсказателей будут иметь следующие три общих фактора:

1) Точная энергетическая функция, которая соответствует наиболее термодинамически стабильному состоянию нативной структуры белка.

2) Эффективный метод поиска, позволяющий быстро идентифицировать низкоэнергетические состояния с помощью конформационного поиска.

3) Возможность выбора моделей, похожих на нативные, из коллекции ложных структур [3]

Программы de novo будут искать в трехмерном пространстве и в процессе создавать кандидатные конформации белка. По мере того, как белок приближается к своему правильно свернутому, нативному состоянию, энтропия и свободная энергия будут уменьшаться. Используя эту информацию, предикторы de novo могут различать ложные варианты. В частности, программы de novo будут выбирать возможные конформации с более низкой свободной энергией, которые с большей вероятностью будут правильными, чем структуры с более высокой свободной энергией. [2] [6] [7] Как заявил Дэвид А. Бейкер относительно того, как работает его предиктор de novo Rosetta, «во время сворачивания каждый локальный сегмент цепи мерцает между различным подмножеством локальных конформаций... сворачивание в нативную структуру происходит, когда конформации, принятые локальными сегментами, и их относительная ориентация допускают... низкоэнергетические особенности нативных структур белка. В алгоритме Rosetta... программа затем ищет комбинацию этих локальных конформаций, которая имеет самую низкую общую энергию». [8]

Однако некоторые методы de novo работают, сначала перебирая все конформационное пространство, используя упрощенное представление структуры белка, а затем выбирая те, которые с наибольшей вероятностью будут похожи на нативные. Примером такого подхода является подход, основанный на представлении складок белка с использованием тетраэдрических решеток и построении всех моделей атомов поверх всех возможных конформаций, полученных с использованием тетраэдрического представления. Этот подход был успешно использован в CASP3 для предсказания складок белка, топология которых ранее не наблюдалась командой Майкла Левитта. [9]

Разрабатывая программу QUARK, Сюй и Чжан показали, что ab initio структуру некоторых белков можно успешно построить с помощью силового поля, основанного на знаниях. [10] [11]

Правильно свернутые белковые конформации (нативные структуры) имеют более низкую свободную энергию, чем частично свернутые или первичные структуры. Компьютеры ищут эти конформации, поскольку они указывают на правильное сворачивание.

Стратегии прогнозирования

Если белок с известной третичной структурой разделяет по крайней мере 30% своей последовательности с потенциальным гомологом неопределенной структуры, сравнительные методы, которые накладывают предполагаемую неизвестную структуру на известную, могут быть использованы для предсказания вероятной структуры неизвестной. Однако ниже этого порога используются три других класса стратегий для определения возможной структуры из исходной модели: предсказание белка ab initio, распознавание складки и протягивание.

  1. Методы ab initio: В методах ab initio первоначальная попытка выяснить вторичные структуры (альфа-спираль, бета-слой, бета-поворот и т. д.) из первичной структуры делается с использованием физико-химических параметров и алгоритмов нейронной сети. С этого момента алгоритмы предсказывают третичную укладку. Одним из недостатков этой стратегии является то, что она пока не способна включать местоположения и ориентацию боковых цепей аминокислот.
  2. Прогнозирование складок: В стратегиях распознавания складок сначала делается прогноз вторичной структуры, а затем сравнивается либо с библиотекой известных складок белков, таких как CATH или SCOP, либо с так называемой «периодической таблицей» возможных форм вторичной структуры. Затем вероятным совпадениям присваивается оценка достоверности.
  3. Протягивание: В стратегиях протягивания техника распознавания складки расширяется еще больше. В этом процессе эмпирически обоснованные энергетические функции для взаимодействия пар остатков используются для размещения неизвестного белка на предполагаемом остове в качестве наилучшего соответствия, принимая во внимание пробелы там, где это необходимо. Затем наилучшие взаимодействия акцентируются для того, чтобы различать потенциальные приманки и предсказывать наиболее вероятную конформацию.

Целью стратегий как сгиба, так и пронизывания является установление того, похожа ли складка в неизвестном белке на домен в известном, размещенном в базе данных, например, в банке данных белков (PDB). Это отличается от методов de novo (ab initio), где структура определяется с использованием подхода, основанного на физике, вместо сравнения складок в белке со структурами в базе данных. [12]

Ограниченияde novoметоды прогнозирования

Основным ограничением методов прогнозирования белков de novo является чрезвычайно большое количество машинного времени, требуемое для успешного решения нативной конформации белка. Распределенные методы, такие как Rosetta@home, пытались улучшить это, привлекая людей, которые затем добровольно предоставляли время простоя домашнего компьютера для обработки данных. Однако даже эти методы сталкиваются с трудностями. Например, распределенный метод был использован группой исследователей из Вашингтонского университета и Медицинского института Говарда Хьюза для предсказания третичной структуры белка T0283 из его аминокислотной последовательности. В слепом тесте, сравнивающем точность этого распределенного метода с экспериментально подтвержденной структурой, депонированной в Protein Databank (PDB), предиктор дал превосходное согласие с депонированной структурой. Однако время и количество компьютеров, требуемых для этого подвига, были огромными — почти два года и приблизительно 70 000 домашних компьютеров соответственно. [13]

Один из методов, предложенных для преодоления таких ограничений, включает использование моделей Маркова (см. Марковские цепи Монте-Карло ). Одна из возможностей заключается в том, что такие модели могут быть построены для помощи в вычислении свободной энергии и прогнозировании структуры белка, возможно, путем уточнения вычислительных симуляций. [14] Другой способ обойти ограничения вычислительной мощности — использовать крупнозернистое моделирование . Крупнозернистые модели белков позволяют прогнозировать структуру de novo небольших белков или больших фрагментов белков за короткое вычислительное время. [15]

Прогнозирование структурыde novoбелки

Другое ограничение программного обеспечения для прогнозирования структуры белка касается определенного класса белков, а именно белков de novo . Программное обеспечение для прогнозирования структуры, такое как AlphaFold, полагается на коэволюционные данные, полученные из множественного выравнивания последовательностей (MSA) и гомологичных последовательностей белков для прогнозирования структур белков. Однако, по определению, у белков de novo отсутствуют гомологичные последовательности, поскольку они являются эволюционно новыми. [16] Таким образом, можно ожидать, что программное обеспечение для прогнозирования структуры, которое полагается на такую ​​гомологию, будет плохо работать при прогнозировании структур белков de novo . [17] Для повышения точности прогнозирования структуры белков de novo были разработаны новые программы. А именно, ESMFold — это недавно разработанная большая языковая модель (LLM) для прогнозирования структур белков, основанная исключительно на их аминокислотных последовательностях. Она может прогнозировать трехмерную структуру белка с разрешением на атомном уровне с вводом одной аминокислотной последовательности. [18]

Пример распределенных вычислений (Rosetta) при прогнозировании трехмерной структуры белка по его аминокислотной последовательности. Предсказанная структура (пурпурная) белка накладывается на экспериментально определенную кристаллическую структуру (синяя) этого белка. Согласие между ними очень хорошее.

Критическая оценка предсказания структуры белка

«Прогресс для всех вариантов методов прогнозирования вычислительной структуры белка оценивается в двухгодичных экспериментах сообщества Critical Assessment of Protein Structure Prediction ( CASP ). В экспериментах CASP исследовательские группы приглашаются применять свои методы прогнозирования к последовательностям аминокислот, для которых нативная структура неизвестна, но должна быть определена и опубликована в ближайшее время. Несмотря на то, что количество последовательностей аминокислот, предоставленных экспериментами CASP, невелико, эти соревнования дают хорошую меру для оценки методов и прогресса в этой области, как можно утверждать, беспристрастным образом». [19]

Примечания

  • Samudrala, R, Xia, Y, Huang, ES, Levitt, M. Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода. (1999). Proteins Suppl 3: 194-198.
  • Брэдли, П.; Мальмстром, Л.; Цянь, Б.; Шёнбрун, Дж.; Чивиан, Д.; Ким, Д.Э.; Мейлер, Дж.; Мисура, К.М.; Бейкер, Д. (2005). «Свободное моделирование с Rosetta в CASP6». Белки . 61 (Suppl 7): 128–34. doi :10.1002/prot.20729. PMID  16187354. S2CID  36366681.
  • Бонно ; Бейкер, Д. (2001). «Предсказание структуры белка ab initio: прогресс и перспективы». Annu. Rev. Biophys. Biomol. Struct . 30 : 173–89. doi :10.1146/annurev.biophys.30.1.173. PMID  11340057.
  • J. Skolnick, Y. Zhang и A. Kolinski. Ab Initio моделирование. Структурная геномика и высокопроизводительная структурная биология. M. Sundsrom, M. Norin и A. Edwards, ред. 2006: 137-162.
  • J Lee, S Wu, Y Zhang. Ab initio предсказание структуры белка. От структуры белка к функции с помощью биоинформатики, Глава 1, под редакцией DJ Rigden, (Springer-London, 2009), стр. 1-26.

Смотрите также

Ссылки

  1. ^ «Редакционная статья: Еще так много нужно знать». Science . 309 (5731): 78–102. 2005. doi : 10.1126/science.309.5731.78b . PMID  15994524.
  2. ^ ab Дилл, Кен А .; и др. (2007). «Проблема сворачивания белка: когда она будет решена?». Current Opinion in Structural Biology . 17 (3): 342–346. doi :10.1016/j.sbi.2007.06.001. PMID  17572080.
  3. ^ ab Ригден, Дэниел Дж. От структуры белка к функции с помощью биоинформатики. Springer Science. 2009. ISBN 978-1-4020-9057-8 . 
  4. ^ ab Йонат, Ада. Рентгеновская кристаллография в основе науки о жизни. Current Opinion in Structural Biology. Том 21, выпуск 5, октябрь 2011 г., страницы 622–626.
  5. ^ Samudrala, R; Moult, J (1998). "Дискриминирующая функция условной вероятности, зависящая от расстояния всех атомов, для предсказания структуры белка". Журнал молекулярной биологии . 275 (5): 893–914. CiteSeerX 10.1.1.70.4101 . doi :10.1006/jmbi.1997.1479. PMID  9480776. 
  6. ^ ab Нельсон, Дэвид Л. и Кокс, Майкл. Lehninger Principles of Biochemistry 5th Edition. MWH Freeman; 15 июня 2008 г. ISBN 1429224169 . 
  7. ^ "The Baker Laboratory". Архивировано из оригинала 2012-11-13.
  8. ^ "Статья Rosetta News".
  9. ^ Samudrala, R; Xia, Y; Huang, ES; Levitt, M ​​(1999). " Ab initio предсказание структуры белка с использованием комбинированного иерархического подхода". Белки: структура, функция и генетика . S3 (S3): 194–198. doi :10.1002/(SICI)1097-0134(1999)37:3+<194::AID-PROT24>3.0.CO;2-F. S2CID  1566472.
  10. ^ Xu D, Zhang Y (июль 2012 г.). «Сборка структуры белка ab initio с использованием непрерывных фрагментов структуры и оптимизированного силового поля на основе знаний». Белки . 80 (7): 1715–35. doi :10.1002/prot.24065. PMC 3370074 . PMID  22411565. 
  11. ^ Xu D, Zhang J, Roy A, Zhang Y (август 2011 г.). «Автоматизированное моделирование структуры белка в CASP9 с помощью конвейера I-TASSER в сочетании с ab initio фолдингом на основе QUARK и уточнением структуры на основе FG-MD». Proteins . 79 (Suppl 10): 147–60. doi :10.1002/prot.23111. PMC 3228277 . PMID  22069036. 
  12. ^ Гибсон, Грег и Мьюз, Спенсер В. Учебник по геномной науке, 3-е издание. Sinauer Associates, Inc. 2009. ISBN 978-0-87893-236-8 . 
  13. ^ Цянь и др. Высокоразрешающее предсказание структуры и проблема кристаллографической фазы. (2007). Nature. Том 450.
  14. ^ Джайячандран, Гуха и др. (2006). Использование массивно-параллельного моделирования и марковских моделей для изучения сворачивания белка: изучение динамики головки виллина. Опубликовано онлайн.
  15. ^ Кмиецик, Себастьян; Гронт, Доминик; Колински, Михал; Витеска, Лукаш; Давид, Александра Эльжбета; Колинский, Анджей (22 июня 2016 г.). «Крупнозернистые белковые модели и их применение». Химические обзоры . 116 (14): 7898–936. doi : 10.1021/acs.chemrev.6b00163 . ISSN  0009-2665. ПМИД  27333362.
  16. ^ Шмитц, Джонатан Ф.; Борнберг-Бауэр, Эрих (19.01.2017). «Факт или вымысел: обновления о том, как гены, кодирующие белок, могут возникать de novo из ранее некодирующей ДНК». F1000Research . 6 : 57. doi : 10.12688/f1000research.10079.1 . ISSN  2046-1402. PMC 5247788. PMID 28163910  . 
  17. ^ Миддендорф, Лассе; Эйхольт, Ларс А. (июнь 2024 г.). «Случайные, de novo и консервативные белки: как предикторы структуры и беспорядка работают по-разному». Белки: структура, функция и биоинформатика . 92 (6): 757–767. doi : 10.1002/prot.26652 . ISSN  0887-3585. PMID  38226524.
  18. ^ Линь, Цзэминь; Акин, Халиль; Рао, Рошан; Хи, Брайан; Чжу, Чжункай; Лу, Вэнтинг; дос Сантос Коста, Аллан; Фазель-Заранди, Марьям; Серку, Том; Кандидо, Сал; Ривс, Александр (21 июля 2022 г.). «Языковые модели белковых последовательностей в масштабе эволюции позволяют точно предсказывать структуру» (PDF) . bioRxiv . doi :10.1101/2022.07.20.500902.
  19. ^ CA Floudas et al. Достижения в прогнозировании структуры белка и разработке белков de novo: обзор. Chemical Engineering Science 61 (2006) 966 – 988.
  • КАСП
  • Folding@Home Архивировано 2012-09-08 в Wayback Machine
  • проект HPF
  • Foldit Архивировано 2011-04-04 на Wayback Machine
  • UniProtKB
  • Банк данных белков (PDB)
  • Система анализа белка Expert - ссылки на инструменты прогнозирования белка
Взято с "https://en.wikipedia.org/w/index.php?title=De_novo_protein_structure_prediction&oldid=1237310139"