GC-перекос возникает, когда нуклеотиды гуанин и цитозин избыточны или недостаточны в определенном регионе ДНК или РНК . GC-перекос также является статистическим методом измерения специфического для цепи избыточного представительства гуанина. [1]
В условиях равновесия (без мутационного или селективного давления и с нуклеотидами, случайно распределенными в геноме ) наблюдается одинаковая частота четырех оснований ДНК ( аденин , гуанин , тимин и цитозин ) на обеих одиночных цепях молекулы ДНК. [2] Однако у большинства бактерий (например, E. coli ) и некоторых архей (например, Sulfolobus solfataricus ) состав нуклеотидов асимметричен между ведущей и отстающей цепями : ведущая цепь содержит больше гуанина (G) и тимина (T), тогда как отстающая цепь содержит больше аденина (A) и цитозина (C). [2] Это явление называется перекосом GC и AT , и соответствующая статистика была определена [2] как:
Наклон GC = (G - C)/(G + C)
Наклон AT = (A − T)/(A + T)
Работа Эрвина Чаргаффа в 1950 году продемонстрировала, что в ДНК основания гуанин и цитозин были обнаружены в равном количестве, а основания аденин и тимин были обнаружены в равном количестве. Однако не было равенства между количеством одной пары по сравнению с другой. [3] Открытие Чаргаффа называют правилом Чаргаффа или правилом четности 2. [ 3] Три года спустя Уотсон и Крик использовали этот факт при выводе структуры ДНК, своей модели двойной спирали .
Естественным результатом правила четности 1 в состоянии равновесия, в котором нет мутаций и/или смещений отбора в любой из двух цепей ДНК, является то, что при равной скорости замещения комплементарные нуклеотиды на каждой цепи имеют равное количество данного основания и его дополнения. [4] Другими словами, в каждой цепи ДНК частота появления T равна A, а частота появления G равна C, поскольку скорость замещения предположительно одинакова. Это явление называется правилом четности 2. Следовательно, второе правило четности существует только тогда, когда нет мутации или замещения.
Любое отклонение от правила четности 2 приведет к асимметричному составу оснований, который отличает ведущую цепь, т. е. цепь ДНК, которая реплицируется в прямом направлении, от отстающей цепи. Эта асимметрия называется GC или AT перекосом. [2]
В некоторых бактериальных геномах наблюдается обогащение гуанином над цитозином и тимином над аденином на ведущей нити и наоборот для отстающей нити. Спектры перекоса нуклеотидного состава варьируются от −1, что соответствует G = 0 или A = 0, до +1, что соответствует T = 0 или C = 0. [2] Таким образом, положительный перекос GC представляет собой богатство G над C, а отрицательный перекос GC представляет собой богатство C над G. В результате можно ожидать увидеть положительный перекос GC и отрицательный перекос AT в ведущей нити, а также отрицательный перекос GC и положительный перекос AT в отстающей нити. [5] Перекос GC или AT меняет знак на границах двух репликор , которые соответствуют началу или концу репликации ДНК. [2] [4] [5] Первоначально этот асимметричный состав нуклеотидов объяснялся как другой механизм, используемый в репликации ДНК между ведущей и отстающей цепями. Репликация ДНК является полуконсервативным и асимметричным процессом сама по себе. [6] Эта асимметрия обусловлена образованием репликационной вилки и ее разделением на зарождающиеся ведущую и отстающую цепи. Ведущая цепь синтезируется непрерывно и в противовес ведущей цепи; отстающая цепь реплицируется через короткие фрагменты полинуклеотида ( фрагменты Оказаки ) в направлении от 5' к 3'. [6]
Существует три основных подхода к расчету и графической демонстрации перекоса ГХ и его свойств.
Первый подход — асимметрия GC и AT. [2] Жан Р. Лобри был первым, кто сообщил в 1996 году [7] о наличии композиционной асимметрии в геномах трех бактерий: E. coli , Bacillus subtilis и Haemophilus influenzae . Первоначальные формулы в то время не назывались перекосом, а скорее отклонением от [A] = [T] или [C] = [G]:
отклонение от [A] = [T] как (A − T)/(A + T);
отклонение от [C] = [G] как (C − G)/(C + G);
где A, T, G и C представляют частоту встречаемости эквивалентного основания в определенной последовательности определенной длины. Стратегия скользящего окна используется для расчета отклонения от C по геному. На этих графиках положительное отклонение от C соответствует отстающей нити, а отрицательное отклонение от C соответствует ведущей нити. [8] Кроме того, участок, где меняется знак отклонения, соответствует началу или концу. Ось x представляет собой расположение хромосом, нанесенное на график от 5′ до 3′, а ось y представляет собой значение отклонения. Главным недостатком этого метода является его свойство зависимости от размера окна. Поэтому выбор адекватного размера окна сильно влияет на результат графика. Другие методы следует комбинировать с отклонением, чтобы с большей точностью идентифицировать и локализовать начало репликации ДНК.
Второй подход называется кумулятивным GC-скосом (CGC-скосом). [9] Этот метод по-прежнему использует стратегию скользящего окна, но он использует преимущество суммы соседних окон с произвольного начала. В этой схеме весь геном обычно отображается от 5' до 3' с использованием произвольного начала и произвольной цепи. На кумулятивном GC-скосе пики соответствуют точкам переключения (конец или начало).
В отличие от более ранней статьи Лобри, недавние реализации GC skew переворачивают первоначальное определение, давая ему следующее переопределение:
Наклон GC = (G − C)/(G + C).
При перевернутом определении перекоса GC максимальное значение кумулятивного перекоса соответствует терминалу, а минимальное значение соответствует началу репликации.
Последний подход — это кривая Z. [10] В отличие от предыдущих методов, этот метод не использует стратегию скользящего окна и считается более эффективным в поиске источника репликации. [10] В этом методе исследуется кумулятивная частота каждого основания по отношению к основанию в начале последовательности. Кривая Z использует трехмерное представление со следующими параметрами:
Где , представляет избыток пурина над пиримидином, обозначает избыток кето над амино и показывает соотношение между слабыми и сильными водородными связями . и компоненты могут самостоятельно обнаружить начало репликации и асимметричный состав нитей. Для прогнозирования начала репликации и окончания следует использовать комбинацию этих методов, чтобы компенсировать их слабость.
В научном сообществе отсутствует консенсус относительно механизма, лежащего в основе смещения в составе нуклеотидов в каждой цепи ДНК. Существуют две основные школы мысли, которые объясняют механизм, лежащий в основе специфического для цепи состава нуклеотидов в бактериях. [4]
Первый описывает смещение и асимметричное мутационное давление на каждую нить ДНК во время репликации и транскрипции . [4] [11] Из-за асимметричной природы процесса репликации, неравная частота мутаций и эффективность репарации ДНК во время процесса репликации могут вносить больше мутаций в одну нить по сравнению с другой. [5] Кроме того, время, используемое для репликации между двумя нитями, варьируется и может привести к асимметричному мутационному давлению между ведущей и отстающей нитью. [12] В дополнение к мутациям во время репликации ДНК, транскрипционные мутации могут создавать перекос нуклеотидного состава, специфичный для нити. [5] Дезаминирование цитозина и, в конечном итоге, мутация цитозина в тимин в одной нити ДНК может увеличить относительное количество гуанина и тимина в цитозин и аденин. [5] У большинства бактерий большинство генов кодируется в ведущей нити. [4] Например, ведущая нить у Bacillus subtilis кодирует 75% генов. [5] Кроме того, сообщалось об избытке дезаминирования и превращения цитозина в тимин в кодирующей цепи по сравнению с некодирующей цепью. [4] [5] [13] Одним из возможных объяснений является то, что нетранскрибированная цепь ( кодирующая цепь ) является одноцепочечной во время процесса транскрипции; поэтому она более уязвима для дезаминирования по сравнению с транскрибированной цепью ( некодирующей цепью ). [5] [14] Другое объяснение заключается в том, что активность дезаминирования во время транскрипции не происходит в кодирующей цепи. [5] Только транскрибированная цепь получает выгоду от этих событий дезаминирования.
Вторая школа мысли описывает механизм перекоса GC и AT как результат разницы в селективном давлении между ведущими и отстающими цепями. [4] [5] [14] Исследование прокариотического генома показывает предпочтение в третьей позиции кодона для G по сравнению с C и T по сравнению с A. [5] Эта дискриминация создает асимметричный состав нуклеотидов, если кодирующая цепь неравномерно распределена между ведущей и отстающей цепями, как в случае с бактериями. Кроме того, было показано, что высокотранскрибируемые гены, такие как рибосомальные белки , в основном расположены на ведущей цепи у бактерий. [5] Таким образом, смещение в выборе кодона третьей позиции G по сравнению с C может привести к перекосу GC. Кроме того, некоторые сигнальные последовательности богаты гуанином и тимином, такие как последовательности хи , и эти последовательности могут иметь более высокую частоту встречаемости в одной цепи по сравнению с другой. [4] [5]
Как мутационное, так и селективное давление могут независимо друг от друга вносить асимметрию в цепи ДНК. Однако сочетание и кумулятивный эффект обоих механизмов является наиболее правдоподобным объяснением перекоса GC и AT. [4] [14]
Доказано, что наклон GC полезен в качестве индикатора ведущей цепи ДНК, отстающей цепи, начала репликации и окончания репликации. [2] [4] [5] Большинство бактерий и архей содержат только одну точку начала репликации ДНК. [2] Наклон GC положителен и отрицателен в ведущей цепи и в отстающей цепи соответственно; поэтому ожидается, что знак наклона GC изменится только в точке начала и окончания репликации ДНК. [4] Наклон GC также можно использовать для изучения смещений цепей и связанных с ними механизмов путем вычисления избытка одного основания над его комплементарным основанием в различных средах. [4] [5] [14] Такие методы, как наклон GC, наклон CGC и кривая Z, являются инструментами, которые могут предоставить возможность лучше исследовать механизм репликации ДНК в различных организмах.