В биоинформатике матрица BLOSUM ( BLO cks SU bstitution M atrix) представляет собой матрицу замещения , используемую для выравнивания последовательностей белков . Матрицы BLOSUM используются для оценки выравниваний между эволюционно расходящимися последовательностями белков . Они основаны на локальных выравниваниях. Матрицы BLOSUM были впервые представлены в статье Стивена Хеникоффа и Джорджи Хеникофф. [1] Они просканировали базу данных BLOCKS на предмет очень консервативных областей семейств белков (не имеющих пробелов в выравнивании последовательностей), а затем подсчитали относительные частоты аминокислот и вероятности их замещения. Затем они вычислили логарифмическую оценку шансов для каждой из 210 возможных пар замещений 20 стандартных аминокислот. Все матрицы BLOSUM основаны на наблюдаемых выравниваниях; они не экстраполируются из сравнений близкородственных белков, таких как матрицы PAM .
Генетические инструкции каждой реплицирующейся клетки в живом организме содержатся в ее ДНК. [2] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или предоставления инструкций дочерним клеткам во время деления клетки , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [2] [3] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые исправляют большинство — но не все — этих изменений в ДНК до ее репликации. [3] [4]
Функциональность белка во многом зависит от его структуры. [5] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок. [3] Подобные изменения могут серьезно повлиять на важную функцию в клетке, потенциально вызывая гибель клетки — а в крайних случаях и организма. [6] И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приводит к какому-либо значительному физическому недостатку для потомства, существует вероятность того, что эта мутация сохранится в популяции. Существует также вероятность того, что изменение функции станет выгодным.
20 аминокислот, транслируемых генетическим кодом, сильно различаются по физическим и химическим свойствам их боковых цепей. [5] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [5] Замена аминокислоты другой из той же категории, скорее всего, окажет меньшее влияние на структуру и функцию белка, чем замена аминокислотой из другой категории.
Выравнивание последовательностей является фундаментальным методом исследования для современной биологии. Наиболее распространенным выравниванием последовательностей для белков является поиск сходства между различными последовательностями для того, чтобы вывести функцию или установить эволюционные связи. Это помогает исследователям лучше понять происхождение и функцию генов через природу гомологии и сохранения . Матрицы замещения используются в алгоритмах для расчета сходства различных последовательностей белков; однако полезность матрицы Dayhoff PAM со временем снизилась из-за необходимости последовательностей со сходством более 85%. Чтобы заполнить этот пробел, Хеникофф и Хеникофф представили матрицу BLOSUM (BLOcks SUbstitution Matrix), которая привела к заметным улучшениям в выравниваниях и в поиске с использованием запросов из каждой из групп связанных белков. [1]
Существует несколько наборов матриц BLOSUM, использующих различные базы данных выравнивания, названные с помощью номеров. Матрицы BLOSUM с большими номерами предназначены для сравнения близкородственных последовательностей, в то время как матрицы с малыми номерами предназначены для сравнения отдаленно родственных последовательностей. Например, BLOSUM80 используется для близкородственных выравниваний, а BLOSUM45 используется для более отдаленно родственных выравниваний. Матрицы были созданы путем слияния (кластеризации) всех последовательностей, которые были более похожи, чем заданный процент, в одну единую последовательность, а затем сравнения только тех последовательностей (которые были более расходящимися, чем заданное процентное значение); таким образом, уменьшая вклад близкородственных последовательностей. Используемый процент был добавлен к имени, что дало BLOSUM80, например, где были кластеризованы последовательности, которые были более чем на 80% идентичны.
Матрицы BLOSUM получаются путем использования блоков схожих аминокислотных последовательностей в качестве данных, а затем применения статистических методов к данным для получения оценок сходства. Этапы статистических методов: [8]
Устранить последовательности, которые идентичны более чем на r%. Существует два способа устранения последовательностей. Это можно сделать либо путем удаления последовательностей из блока, либо просто путем поиска похожих последовательностей и замены их новыми последовательностями, которые могли бы представлять кластер. Устранение выполняется для удаления последовательностей белков, которые похожи больше, чем указанный порог.
База данных, хранящая выравнивания последовательностей наиболее консервативных областей семейств белков. Эти выравнивания используются для получения матриц BLOSUM. Используются только последовательности с процентом идентичности ниже порогового значения. С помощью блока подсчитываются пары аминокислот в каждом столбце множественного выравнивания.
Он дает отношение встречаемости каждой комбинации аминокислот в наблюдаемых данных к ожидаемому значению встречаемости пары. Он округляется и используется в матрице замен.
где — вероятность наблюдения пары, а — ожидаемая вероятность появления такой пары, учитывая фоновые вероятности каждой аминокислоты.
Коэффициенты родства рассчитываются из логарифма отношения шансов, которые затем округляются для получения матриц подстановки (матриц BLOSUM).
Матрица оценок или таблица значений требуются для оценки значимости выравнивания последовательностей, например, описания вероятности появления биологически значимой пары аминокислотных или нуклеотидных остатков в выравнивании. Обычно, когда сравниваются две нуклеотидные последовательности, все, что оценивается, это то, являются ли два основания одинаковыми в одной позиции. Всем совпадениям и несовпадениям соответственно присваивается одинаковая оценка (обычно +1 или +5 для совпадений и -1 или -4 для несовпадений). [9] Но для белков все по-другому. Матрицы замен для аминокислот более сложны и неявно учитывают все, что может повлиять на частоту, с которой любая аминокислота заменяется другой. Цель состоит в том, чтобы обеспечить относительно высокий штраф за выравнивание двух остатков вместе, если они имеют низкую вероятность быть гомологичными (правильно выровненными эволюционным путем). Две основные силы отдаляют показатели замены аминокислот от единообразия: замены происходят с разной частотой и менее функционально переносимы, чем другие. Таким образом, замены выбираются против. [7]
Обычно используемые матрицы замен включают матрицы блоков замен (BLOSUM) [1] и точечных принятых мутаций (PAM) [10] [11] . Обе основаны на взятии наборов высоконадежных выравниваний многих гомологичных белков и оценке частот всех замен, но они вычисляются с использованием разных методов. [7]
Баллы в BLOSUM являются логарифмическими баллами, которые измеряют в выравнивании логарифм отношения вероятности появления двух аминокислот с биологическим смыслом и вероятности появления тех же аминокислот случайно. Матрицы основаны на минимальном проценте идентичности выровненной последовательности белка, используемом при их расчете. [12] Каждой возможной идентичности или замене присваивается балл на основе ее наблюдаемых частот в выравнивании родственных белков. [13] Положительный балл дается более вероятным заменам, в то время как отрицательный балл дается менее вероятным заменам.
Для расчета матрицы BLOSUM используется следующее уравнение:
Здесь — вероятность замены двух аминокислот и друг друга в гомологичной последовательности, а и — фоновые вероятности нахождения аминокислот и в любой белковой последовательности. Фактор — масштабирующий множитель, заданный таким образом, что матрица содержит легко вычисляемые целые значения.
BLOSUM80: больше родственных белков
BLOSUM62: средний диапазон
BLOSUM45: отдаленно родственные белки
Статья в Nature Biotechnology [14] показала, что BLOSUM62, используемый в течение многих лет в качестве стандарта, не совсем точен в соответствии с алгоритмом, описанным Хеникоффом и Хеникоффом. [1] Удивительно, но неправильно рассчитанный BLOSUM62 улучшает производительность поиска. [14]
Матрица BLOSUM62 с аминокислотами в таблице, сгруппированными в соответствии с химией боковой цепи, как в (a). Каждое значение в матрице вычисляется путем деления частоты встречаемости пары аминокислот в базе данных BLOCKS, сгруппированной на уровне 62%, на вероятность того, что те же две аминокислоты могут выровняться случайно. Затем отношение преобразуется в логарифм и выражается как оценка логарифма шансов, как для PAM. Матрицы BLOSUM обычно масштабируются в полубитовых единицах. Оценка, равная нулю, указывает на то, что частота, с которой данные две аминокислоты были найдены выровненными в базе данных, была ожидаемой случайностью, в то время как положительная оценка указывает на то, что выравнивание было найдено чаще, чем случайно, а отрицательная оценка указывает на то, что выравнивание было найдено реже, чем случайно.
Оценки BLOSUM использовались для прогнозирования и понимания вариантов поверхностных генов среди носителей вируса гепатита В [15] и эпитопов Т-клеток. [16]
Последовательности ДНК HBsAg были получены от 180 пациентов, среди которых 51 был хроническим носителем HBV и 129 недавно диагностированных пациентов, и сравнены с консенсусными последовательностями, построенными с 168 последовательностями HBV, импортированными из GenBank. Обзор литературы и оценки BLOSUM были использованы для определения потенциально измененной антигенности. [15]
Разработано новое представление входных данных, состоящее из комбинации разреженного кодирования, кодирования Blosum и входных данных, полученных из скрытых марковских моделей. Этот метод предсказывает эпитопы Т-клеток для генома вируса гепатита С и обсуждает возможные применения метода прогнозирования для руководства процессом рациональной разработки вакцины. [16]
Матрицы BLOSUM также используются в качестве матрицы подсчета при сравнении последовательностей ДНК или белковых последовательностей для оценки качества выравнивания. Эта форма системы подсчета используется широким спектром программного обеспечения для выравнивания, включая BLAST . [17]
В дополнение к матрицам BLOSUM можно использовать ранее разработанную матрицу подсчета очков. Она известна как PAM . Оба дают одинаковый результат подсчета очков, но используют разные методологии. BLOSUM напрямую смотрит на мутации в мотивах родственных последовательностей, в то время как PAM экстраполирует эволюционную информацию на основе тесно связанных последовательностей. [1]
Поскольку PAM и BLOSUM представляют собой разные методы отображения одной и той же информации об оценке, их можно сравнивать, но из-за совершенно разного метода получения этой оценки PAM100 не равен BLOSUM100. [18]
ПАМ | БЛОСУМ |
---|---|
ПАМ100 | БЛОСУМ90 |
ПАМ120 | BLOSUM80 |
ПАМ160 | BLOSUM62 |
ПАМ200 | БЛОСУМ50 |
ПАМ250 | BLOSUM45 |
ПАМ | БЛОСУМ |
---|---|
Для сравнения близкородственных последовательностей создаются матрицы PAM с меньшими номерами. | Для сравнения близкородственных последовательностей создаются матрицы BLOSUM с более высокими номерами. |
Для сравнения отдаленно родственных белков создаются матрицы PAM с большими числами. | Для сравнения отдаленно родственных белков создаются матрицы BLOSUM с малыми числами. |
ПАМ | БЛОСУМ |
---|---|
На основе глобального выравнивания близкородственных белков. | На основе местных выравниваний. |
PAM1 — это матрица, рассчитанная путем сравнения последовательностей с отклонением не более 1%, но соответствующая 99% идентичности последовательностей. | BLOSUM 62 — это матрица, рассчитанная на основе сравнений последовательностей с попарной идентичностью не более 62%. |
Другие матрицы PAM экстраполируются из PAM1. | Основаны на наблюдаемых выравниваниях; они не экстраполируются из сравнений близкородственных белков. |
Более высокие числа в схеме наименования матриц обозначают большее эволюционное расстояние. | Большие числа в схеме наименования матриц обозначают большее сходство последовательностей и, следовательно, меньшее эволюционное расстояние. [19] |
Существует несколько пакетов программного обеспечения на разных языках программирования, которые позволяют легко использовать матрицы Blosum.
Примерами являются модуль blosum для Python или библиотека BioJava для Java .
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка )