Точечная принятая мутация — также известная как PAM — это замена одной аминокислоты в первичной структуре белка другой одной аминокислотой, которая принимается процессами естественного отбора . Это определение не включает все точечные мутации в ДНК организма. В частности, молчаливые мутации не являются точечными принятыми мутациями, как и мутации, которые являются летальными или которые отвергаются естественным отбором иными способами.
Матрица PAM — это матрица , в которой каждый столбец и строка представляют одну из двадцати стандартных аминокислот. В биоинформатике матрицы PAM иногда используются в качестве матриц замещения для оценки выравнивания последовательностей белков. Каждая запись в матрице PAM указывает на вероятность замены аминокислоты этой строки аминокислотой этого столбца посредством серии из одной или нескольких точечных принятых мутаций в течение указанного эволюционного интервала, а не на то, что эти две аминокислоты будут выровнены случайно. Различные матрицы PAM соответствуют различным промежуткам времени в эволюции последовательности белка.
Генетические инструкции каждой реплицирующейся клетки в живом организме содержатся в ее ДНК. [1] На протяжении всей жизни клетки эта информация транскрибируется и реплицируется клеточными механизмами для производства белков или предоставления инструкций дочерним клеткам во время деления клетки , и существует вероятность того, что ДНК может быть изменена во время этих процессов. [1] [2] Это известно как мутация . На молекулярном уровне существуют регуляторные системы, которые исправляют большинство — но не все — этих изменений в ДНК до ее репликации. [2] [3]
Одной из возможных мутаций является замена одного нуклеотида , известная как точечная мутация. Если точечная мутация происходит в пределах экспрессируемой области гена , экзона , то это изменит кодон, определяющий определенную аминокислоту в белке, продуцируемом этим геном. [2] Несмотря на избыточность в генетическом коде , существует вероятность того, что эта мутация затем изменит аминокислоту, продуцируемую во время трансляции , и, как следствие, структура белка будет изменена.
Функциональность белка во многом зависит от его структуры. [4] Изменение одной аминокислоты в белке может снизить его способность выполнять эту функцию, или мутация может даже изменить функцию, которую выполняет белок. [2] Подобные изменения могут серьезно повлиять на важную функцию в клетке, потенциально вызывая гибель клетки — а в крайних случаях и организма. [5] И наоборот, изменение может позволить клетке продолжать функционировать, хотя и по-другому, и мутация может быть передана потомству организма. Если это изменение не приводит к какому-либо значительному физическому недостатку для потомства, существует вероятность того, что эта мутация сохранится в популяции. Существует также вероятность того, что изменение функции станет выгодным. В любом случае, подвергаясь процессам естественного отбора, точечная мутация была принята в генетический пул.
20 аминокислот, транслируемых генетическим кодом, сильно различаются по физическим и химическим свойствам их боковых цепей. [4] Однако эти аминокислоты можно разделить на группы со схожими физико-химическими свойствами. [4] Замена аминокислоты на другую из той же категории, скорее всего, окажет меньшее влияние на структуру и функцию белка, чем замена на аминокислоту из другой категории. Следовательно, принятие точечных мутаций сильно зависит от аминокислоты, заменяемой в мутации, и заменяющей аминокислоты. Матрицы PAM являются математическим инструментом, который учитывает эти различные скорости принятия при оценке сходства белков во время выравнивания.
Термин принятая точечная мутация изначально использовался для описания феномена мутации. Однако аббревиатура PAM была предпочтительнее АПМ из-за удобства чтения, поэтому термин принятая точечная мутация используется чаще. [6] Поскольку значение в матрице PAM n представляет собой количество мутаций на 100 аминокислот, что можно сравнить с процентом мутаций, иногда используется термин процент принятой мутации .
Важно различать точечные принятые мутации (PAM), матрицы точечных принятых мутаций (матрицы PAM) и матрицу PAM n . Термин «точечная принятая мутация» относится к самому событию мутации. Однако «матрица PAM» относится к одной из семейства матриц, которые содержат оценки, представляющие вероятность того, что две аминокислоты будут выровнены из-за серии событий мутации, а не из-за случайной случайности. «Матрица PAM n » — это матрица PAM, соответствующая временному интервалу, достаточно длинному для того, чтобы события мутации произошли на 100 аминокислот.
Матрицы PAM были введены Маргарет Дейхофф в 1978 году. [7] Расчет этих матриц был основан на 1572 наблюдаемых мутациях в филогенетических деревьях 71 семейства близкородственных белков. Белки для изучения были выбраны на основе их высокого сходства с их предшественниками. Включенные выравнивания белков должны были демонстрировать по крайней мере 85% идентичности. [6] [8] В результате разумно предположить, что любые выровненные несоответствия были результатом одного мутационного события, а не нескольких в одном и том же месте.
Каждая матрица PAM имеет двадцать строк и двадцать столбцов — по одному для каждой из двадцати аминокислот, транслируемых генетическим кодом. Значение в каждой ячейке матрицы PAM связано с вероятностью того, что аминокислота строки до мутации будет выровнена с аминокислотой столбца после нее. [6] [7] [8] Согласно этому определению, матрицы PAM являются примером матрицы замещения .
Для каждой ветви филогенетических деревьев семейств белков регистрировалось количество наблюдавшихся несоответствий и велась запись двух вовлеченных аминокислот. [7] Эти подсчеты использовались в качестве записей под главной диагональю матрицы . Поскольку подавляющее большинство образцов белков поступает из организмов, которые живут сегодня (существующие виды), «направление» мутации определить невозможно. То есть аминокислоту, присутствовавшую до мутации, нельзя отличить от аминокислоты, которая заменила ее после мутации. Из-за этого матрица считается симметричной , и записи над главной диагональю вычисляются на этой основе. Записи вдоль диагонали не соответствуют мутациям и могут быть оставлены незаполненными.
В дополнение к этим подсчетам были получены данные о мутабельности и частоте аминокислот. [6] [7] Мутабельность аминокислоты представляет собой отношение числа мутаций, в которых она участвует, к числу раз, когда она встречается в выравнивании. [7] Мутабельность измеряет, насколько вероятно, что аминокислота будет мутировать приемлемо. Аспарагин , аминокислота с небольшой полярной боковой цепью, оказалась наиболее мутабельной из аминокислот. [7] Цистеин и триптофан оказались наименее мутабельными аминокислотами. [7] Боковые цепи цистеина и триптофана имеют менее распространенные структуры: боковая цепь цистеина содержит серу, которая участвует в дисульфидных связях с другими молекулами цистеина, а боковая цепь триптофана большая и ароматическая . [4] Поскольку существует несколько небольших полярных аминокислот, эти крайности предполагают, что аминокислоты с большей вероятностью будут мутировать приемлемо, если их физические и химические свойства более распространены среди альтернативных аминокислот. [6] [8]
Для аминокислоты th значения и являются ее изменчивостью и частотой. Частоты аминокислот нормализованы так, что их сумма равна 1. Если общее число появлений аминокислоты th равно , а — общее число всех аминокислот, то
На основе определения мутабильности как отношения мутаций к встречаемости аминокислоты
или
Матрица мутаций строится так, что запись представляет вероятность мутации аминокислоты th в аминокислоту th. Недиагональные записи вычисляются по уравнению [7]
где — константа пропорциональности. Однако это уравнение не вычисляет диагональные элементы. Каждый столбец в матрице перечисляет каждый из двадцати возможных результатов для аминокислоты — она может мутировать в одну из 19 других аминокислот или остаться неизменной. Поскольку недиагональные элементы, перечисляющие вероятности каждой из 19 мутаций, известны, а сумма вероятностей этих двадцати результатов должна быть равна 1, эту последнюю вероятность можно вычислить с помощью
что упрощается до [7]
Расчет диагональных записей |
---|
Подставим в выражение для матрицы мутаций недиагональных элементов: Поскольку значения и являются константами, которые не изменяются со значением И таким образом отмена показывает, что |
Особое значение имеет тот факт, что для недиагональных записей
Это означает, что для всех записей в матрице мутаций
Вероятности, содержащиеся в , изменяются как некоторая неизвестная функция времени, в течение которого белковой последовательности разрешено мутировать. Вместо того, чтобы пытаться определить эту связь, значения рассчитываются для короткого периода времени, а матрицы для более длительных периодов времени рассчитываются, предполагая, что мутации следуют модели цепи Маркова . [9] [10] Базовой единицей времени для матриц PAM является время, необходимое для возникновения 1 мутации на 100 аминокислот, иногда называемое «единицей PAM» или «PAM» времени. [6] Это именно та продолжительность мутации, которая предполагается матрицей PAM 1 .
Константа используется для контроля доли аминокислот, которые не изменяются. Используя только выравнивания белков, которые имеют по крайней мере 85% сходства, можно было бы обоснованно предположить, что наблюдаемые мутации были прямыми, без каких-либо промежуточных состояний. Это означает, что уменьшение этих подсчетов на общий множитель даст точную оценку количества мутаций, если бы сходство было ближе к 100%. Это также означает, что количество мутаций на 100 аминокислот, в PAM n, равно количеству мутировавших аминокислот на 100 аминокислот.
Чтобы найти матрицу мутаций для матрицы PAM 1 , накладывается требование, чтобы 99% аминокислот в последовательности были сохранены. Количество равно числу консервативных аминокислотных единиц, и поэтому общее число консервативных аминокислот равно
Значение, которое необходимо выбрать для получения 99% идентичности после мутации, затем определяется уравнением
Это значение затем можно использовать в матрице мутаций для матрицы PAM 1 .
Модель цепи Маркова мутации белка связывает матрицу мутаций для PAM n , , с матрицей мутаций для матрицы PAM 1 простым соотношением
Матрица PAM n строится из отношения вероятности точечных принятых мутаций, заменяющих аминокислоту th на аминокислоту th, к вероятности случайного выравнивания этих аминокислот. Элементы матрицы PAM n задаются уравнением [11] [12]
Обратите внимание, что в книге Гасфилда записи и связаны с вероятностью мутации аминокислоты th в аминокислоту th. [11] Это является источником другого уравнения для записей матриц PAM.
При использовании матрицы PAM n для оценки выравнивания двух белков делается следующее предположение:
При рассмотрении выравнивания аминокислот th и th оценка показывает относительную вероятность выравнивания из-за родства белков или из-за случайности.
Хотя матрица вероятности мутации не является симметричной, каждая из матриц PAM симметрична. [6] [7] Это несколько удивительное свойство является результатом взаимосвязи, которая была отмечена для матрицы вероятности мутации:
Фактически, это соотношение справедливо для всех положительных целых степеней матрицы :
Обобщение свойства на положительные целые матричные степени |
---|
Это обобщение можно доказать с помощью математической индукции . Предположим, что для матрицы И это для положительного целого числа Путем расширения матричного произведения , Используя свойство матрицы, которое мы предположили И используя свойство для матрицы В этом случае сначала известно только, что результат справедлив для . Однако приведенный выше аргумент показывает, что свойство справедливо и для . Затем это новое знание показывает, что свойство справедливо и для , и это повторяется, чтобы показать, что свойство справедливо для всех положительных целых чисел . |
В результате элементы матрицы PAM n симметричны, поскольку
Значение представляет собой количество мутаций, которые происходят на 100 аминокислот, однако это значение редко доступно и часто оценивается. Однако при сравнении двух белков вместо этого легко вычислить, что является количеством мутировавших аминокислот на 100 аминокислот. Несмотря на случайный характер мутации, эти значения можно приблизительно связать с [13]
Вывод связи между и |
---|
Мутации в первичной структуре белка могут происходить в любом месте последовательности. Если предположить, что распределение мутаций среди позиций аминокислот равномерно, то проблема аналогична распределению "шариков по корзинам", распространенной проблеме в комбинаторике . В случае, когда шары (т.е. мутации) распределены по корзинам (позициям аминокислот), число корзин, содержащих хотя бы один шар, имеет распределение со средним значением, заданным как [14] Если скорость мутации равна мутациям на 100 аминокислот, то А если на 100 аминокислот приходится мутировавших аминокислот, то это примерно равно Теперь и можно связать При больших значениях , что можно обоснованно предположить для типичных белков, это выражение приблизительно равно |
Справедливость этих оценок можно проверить, подсчитав количество аминокислот, которые остаются неизменными под действием матрицы . Общее количество неизмененных аминокислот за временной интервал матрицы PAM n равно
и поэтому доля неизмененных аминокислот составляет
PAM250 — это часто используемая матрица оценки для сравнения последовательностей. Только нижняя половина матрицы должна быть вычислена, поскольку по своей конструкции матрицы PAM должны быть симметричными. Каждая из 20 аминокислот показана сверху и сбоку матрицы, с 3 дополнительными неоднозначными аминокислотами . Аминокислоты чаще всего показаны в алфавитном порядке или перечислены в группах. Эти группы являются характеристиками, общими для аминокислот. [7]
Гипотеза молекулярных часов предсказывает, что скорость замены аминокислот в конкретном белке будет приблизительно постоянной с течением времени, хотя эта скорость может различаться между семействами белков. [13] Это говорит о том, что количество мутаций на аминокислоту в белке увеличивается приблизительно линейно со временем.
Определение времени, в которое два белка распались, является важной задачей в филогенетике . Ископаемые останки часто используются для установления положения событий на временной шкале эволюционной истории Земли, но применение этого источника ограничено . Однако, если известна скорость, с которой тикают молекулярные часы семейства белков, то есть скорость, с которой увеличивается число мутаций на аминокислоту, то знание этого числа мутаций позволит найти дату расхождения.
Предположим, что ищется дата расхождения двух родственных белков, взятых из организмов, живущих сегодня. Оба белка накапливали принятые мутации с даты расхождения, и поэтому общее число мутаций на аминокислоту, разделяющее их, примерно вдвое больше, чем то, которое отделяет их от их общего предка . Если диапазон матриц PAM используется для выравнивания двух белков, которые, как известно, связаны, то значение в матрице PAM n , которое приводит к наилучшему результату, скорее всего, будет соответствовать мутациям на аминокислоту, разделяющую два белка. Деление этого значения пополам и деление на скорость, с которой принятые мутации накапливаются в семействе белков, дает оценку времени расхождения этих двух белков от их общего предка. То есть время расхождения в myr равно [13]
Где — число мутаций на аминокислоту, а — скорость накопления принятых мутаций в мутациях на аминокислотный участок за миллион лет.
Матрицы PAM также используются в качестве матрицы подсчета при сравнении последовательностей ДНК или белковых последовательностей для оценки качества выравнивания. Эта форма системы подсчета используется широким спектром программного обеспечения для выравнивания, включая BLAST . [15]
Хотя матрицы логарифмических шансов PAM были первыми матрицами оценки, использованными с BLAST, матрицы PAM были в значительной степени заменены матрицами BLOSUM . Хотя обе матрицы дают схожие результаты оценки, они были сгенерированы с использованием разных методологий. Матрицы BLOSUM были сгенерированы непосредственно из различий аминокислот в выровненных блоках, которые расходились в разной степени, матрицы PAM отражают экстраполяцию эволюционной информации, основанной на тесно связанных последовательностях, на более длительные временные масштабы. [16] Поскольку информация об оценке для матриц PAM и BLOSUM была сгенерирована совершенно разными способами, числа, связанные с матрицами, имеют принципиально разные значения; числа для матриц PAM увеличиваются для сравнений среди более расходящихся белков, тогда как числа для матриц BLOSUM уменьшаются. [17] Однако все матрицы замены аминокислот можно сравнивать в рамках теории информации [18], используя их относительную энтропию.
Матрица ПАМ | Эквивалентная матрица BLOSUM | Относительная энтропия (бит) |
---|---|---|
ПАМ100 | Blosum90 | 1.18 |
ПАМ120 | Blosum89 | 0,98 |
ПАМ160 | Blosum60 | 0,70 |
ПАМ200 | Blosum52 | 0,51 |
ПАМ250 | Blosum45 | 0,36 |