Кодирующая область

Часть последовательности гена, которая кодирует белок

Кодирующая область гена , также известная как кодирующая последовательность ДНК ( CDS ), представляет собой часть ДНК или РНК гена , которая кодирует белок . [1] Изучение длины, состава, регуляции, сплайсинга, структур и функций кодирующих областей по сравнению с некодирующими областями у разных видов и в разные периоды времени может предоставить значительный объем важной информации относительно организации генов и эволюции прокариот и эукариот . [2] Это может дополнительно помочь в картировании генома человека и разработке генной терапии. [3]

Определение

Хотя этот термин иногда используется взаимозаменяемо с экзоном , это не совсем одно и то же: экзон состоит из кодирующей области, а также 3' и 5' нетранслируемых областей РНК, и поэтому экзон будет частично состоять из кодирующих областей. 3' и 5' нетранслируемые области РНК, которые не кодируют белок, называются некодирующими областями и не обсуждаются на этой странице. [4]

Часто возникает путаница между кодирующими областями и экзомами , и между этими терминами существует четкое различие. В то время как экзом относится ко всем экзонам в геноме, кодирующий регион относится к единственному участку ДНК или РНК, который кодирует определенный вид белка.  

История

В 1978 году Уолтер Гилберт опубликовал статью «Почему гены по частям», в которой впервые начала изучаться идея о том, что ген представляет собой мозаику — что каждая полная цепочка нуклеиновой кислоты не кодируется непрерывно, а прерывается «молчаливыми» некодирующими областями. Это было первым указанием на необходимость проведения различия между частями генома, которые кодируют белок, теперь называемыми кодирующими областями, и теми, которые этого не делают. [5]

Состав

Типы точечных мутаций: транзиции (синие) встречаются чаще, чем трансверсии (красные) в кодирующих областях, богатых GC.

Данные свидетельствуют о том, что существует общая взаимозависимость между моделями состава оснований и доступностью кодирующей области. [6] Предполагается, что кодирующая область содержит более высокое содержание GC , чем некодирующие области. Существуют дополнительные исследования, которые обнаружили, что чем длиннее кодирующая цепь, тем выше содержание GC. Короткие кодирующие цепи сравнительно бедны GC, подобно низкому содержанию GC в трансляционных стоп-кодонах состава оснований, таких как TAG, TAA и TGA. [7]

Области, богатые GC, также являются местами, где тип точечных мутаций немного изменен: больше переходов , которые являются изменениями с пурина на пурин или с пиримидина на пиримидин, по сравнению с трансверсиями , которые являются изменениями с пурина на пиримидин или с пиримидина на пурин. Переходы с меньшей вероятностью изменят кодируемую аминокислоту и останутся молчаливой мутацией (особенно если они происходят в третьем нуклеотиде кодона), что обычно полезно для организма во время трансляции и образования белка. [8]

Это указывает на то, что основные кодирующие регионы (богатые генами) имеют более высокое содержание GC и более стабильны и устойчивы к мутациям по сравнению с дополнительными и неосновными регионами (бедными генами). [9] Однако до сих пор неясно, произошло ли это посредством нейтральной и случайной мутации или посредством модели отбора . [10] Также ведутся споры о том, являются ли методы, используемые для установления связи между содержанием GC и кодирующей областью, точными и беспристрастными. [11]

Структура и функции

Транскрипция : РНК-полимераза (РНКП) использует матрицу цепи ДНК и начинает кодирование в последовательности промотора (зеленый) и заканчивает в последовательности терминатора (красный), чтобы охватить всю кодирующую область в пре-мРНК (бирюзовый). Пре-мРНК полимеризуется от 5' до 3', а матрица ДНК считывается от 3' до 5'
Электронная микрофотография цепей ДНК, украшенных сотнями молекул РНК-полимеразы, слишком маленьких для разрешения. Каждая РНК-полимераза транскрибирует цепочку РНК, которая, как можно видеть, ответвляется от ДНК. «Начало» указывает на 3'-конец ДНК, где РНК-полимераза инициирует транскрипцию; «Конец» указывает на 5'-конец, где полностью транскрибируются более длинные молекулы РНК.

В ДНК кодирующая область фланкирована последовательностью промотора на 5'-конце цепи матрицы и последовательностью терминации на 3'-конце. Во время транскрипции РНК -полимераза (РНКП) связывается с последовательностью промотора и перемещается вдоль цепи матрицы к кодирующей области. Затем РНКП добавляет нуклеотиды РНК , комплементарные кодирующей области, для формирования мРНК , заменяя урацил на тимин . [12] Это продолжается до тех пор, пока РНКП не достигнет последовательности терминации. [12]

После транскрипции и созревания образовавшаяся зрелая мРНК включает в себя несколько частей, важных для ее конечной трансляции в белок . Кодирующая область в мРНК фланкирована 5'-нетранслируемой областью (5'-UTR) и 3'-нетранслируемой областью (3'-UTR), [1] 5' -кэпом и поли-А-хвостом . Во время трансляции рибосома облегчает присоединение тРНК к кодирующей области, по 3 нуклеотида за раз ( кодоны ). [13] ТРНК переносят связанные с ними аминокислоты в растущую полипептидную цепь, в конечном итоге образуя белок, определенный в исходной кодирующей области ДНК.

Кодирующая область (бирюзовая) окружена нетранслируемыми областями, 5'-кэпом и поли(А)-хвостом, которые вместе образуют зрелую мРНК . [14]

Регулирование

Кодирующую область можно модифицировать с целью регулирования экспрессии генов.

Алкилирование является одной из форм регуляции кодирующей области. [15] Ген, который должен был быть транскрибирован, может быть заглушен путем нацеливания на определенную последовательность. Основания в этой последовательности будут заблокированы с помощью алкильных групп , которые создают эффект заглушения . [16]

В то время как регуляция экспрессии генов управляет обилием РНК или белка, производимых в клетке, регуляция этих механизмов может контролироваться регуляторной последовательностью, обнаруженной до начала открытой рамки считывания в цепи ДНК. Регуляторная последовательность затем определит место и время, когда экспрессия будет происходить для области кодирования белка. [17]

Сплайсинг РНК в конечном итоге определяет, какая часть последовательности будет транслироваться и экспрессироваться, и этот процесс включает вырезание интронов и сборку экзонов. Однако то, где РНК- сплайсосома разрезает, определяется распознаванием сайтов сплайсинга , в частности сайта сплайсинга 5', который является одним из субстратов для первого шага сплайсинга. [18] Кодирующие области находятся внутри экзонов, которые ковалентно соединяются вместе, образуя зрелую информационную РНК .

Мутации

Мутации в кодирующей области могут иметь самые разные эффекты на фенотип организма. В то время как некоторые мутации в этой области ДНК/РНК могут приводить к полезным изменениям, другие могут быть вредными и иногда даже смертельными для выживания организма. Напротив, изменения в некодирующей области не всегда могут приводить к обнаруживаемым изменениям в фенотипе.

Типы мутаций

Примеры различных форм точечных мутаций , которые могут существовать в кодирующих областях. Такие изменения могут иметь или не иметь фенотипические изменения, в зависимости от того, кодируют ли они различные аминокислоты во время трансляции. [19]

Существуют различные формы мутаций, которые могут происходить в кодирующих областях. Одна из форм — молчаливые мутации , при которых изменение нуклеотидов не приводит к изменению аминокислоты после транскрипции и трансляции. [20] Существуют также бессмысленные мутации , при которых изменения оснований в кодирующей области кодируют преждевременный стоп-кодон, производя более короткий конечный белок. Точечные мутации , или изменения одной пары оснований в кодирующей области, которые кодируют различные аминокислоты во время трансляции, называются миссенс-мутациями . Другие типы мутаций включают мутации со сдвигом рамки считывания, такие как вставки или делеции . [20]

Формирование

Некоторые формы мутаций являются наследственными ( мутации зародышевой линии ) или передаются от родителя к потомству. [21] Такие мутировавшие кодирующие области присутствуют во всех клетках организма. Другие формы мутаций приобретаются ( соматические мутации ) в течение жизни организма и могут не быть постоянными от клетки к клетке. [21] Эти изменения могут быть вызваны мутагенами , канцерогенами или другими агентами окружающей среды (например, УФ ). Приобретенные мутации также могут быть результатом ошибок копирования во время репликации ДНК и не передаются потомству. Изменения в кодирующей области также могут быть de novo (новыми); считается, что такие изменения происходят вскоре после оплодотворения , в результате чего мутация присутствует в ДНК потомства, но отсутствует как в сперматозоидах, так и в яйцеклетках. [21]

Профилактика

Существуют множественные механизмы транскрипции и трансляции для предотвращения летальности из-за вредных мутаций в кодирующей области. Такие меры включают в себя проверку некоторыми ДНК-полимеразами во время репликации, исправление несоответствий после репликации [22] и « гипотезу колебания », которая описывает вырождение третьего основания в кодоне мРНК. [23]

Ограниченные кодирующие области (CCR)

Хотя хорошо известно, что геном одного человека может иметь значительные различия по сравнению с геномом другого, недавние исследования показали, что некоторые кодирующие регионы сильно ограничены или устойчивы к мутациям между особями одного вида. Это похоже на концепцию межвидового ограничения в консервативных последовательностях . Исследователи назвали эти сильно ограниченные последовательности ограниченными кодирующими регионами (CCR), и также обнаружили, что такие регионы могут быть вовлечены в высокоочищающий отбор . В среднем на каждые 7 кодирующих оснований приходится приблизительно 1 мутация, изменяющая белок, но некоторые CCR могут иметь более 100 оснований в последовательности без наблюдаемых мутаций, изменяющих белок, некоторые даже без синонимичных мутаций. [24] Эти модели ограничений между геномами могут дать подсказки об источниках редких заболеваний развития или потенциально даже эмбриональной летальности. Клинически подтвержденные варианты и мутации de novo в CCR ранее были связаны с такими расстройствами, как детская эпилептическая энцефалопатия , задержка развития и тяжелые заболевания сердца. [24]

Обнаружение кодирующей последовательности

Схематическая кариограмма человека, показывающая обзор генома человека по G-бэндингу (включая окрашивание по Гимзе ), где кодирующие участки ДНК встречаются в большей степени в более светлых ( богатых GC ) регионах. [25]

В то время как идентификация открытых рамок считывания в последовательности ДНК проста, идентификация кодирующих последовательностей не так проста, поскольку клетка транслирует только подмножество всех открытых рамок считывания в белки. [26] В настоящее время прогнозирование CDS использует отбор проб и секвенирование мРНК из клеток, хотя все еще существует проблема определения того, какие части данной мРНК фактически транслируются в белок. Прогнозирование CDS является подмножеством прогнозирования генов , причем последнее также включает прогнозирование последовательностей ДНК, которые кодируют не только белок, но и другие функциональные элементы, такие как гены РНК и регуляторные последовательности.

Как у прокариот , так и у эукариот перекрытие генов происходит относительно часто как у ДНК-, так и у РНК-вирусов как эволюционное преимущество для уменьшения размера генома при сохранении способности производить различные белки из доступных кодирующих областей. [27] [28] Как для ДНК, так и для РНК парное выравнивание может обнаружить перекрывающиеся кодирующие области, включая короткие открытые рамки считывания в вирусах, но для сравнения потенциально перекрывающейся кодирующей цепи с известной кодирующей цепью потребуется известная кодирующая цепь. [29] Альтернативный метод, использующий последовательности одного генома, не потребует нескольких геномных последовательностей для выполнения сравнений, но для обеспечения чувствительности потребуется перекрытие не менее 50 нуклеотидов. [30]

Смотрите также

Ссылки

  1. ^ ab Twyman, Richard (1 августа 2003 г.). "Gene Structure". The Wellcome Trust. Архивировано из оригинала 28 марта 2007 г. Получено 6 апреля 2003 г.
  2. ^ Höglund M, Säll T, Röhme D (февраль 1990). «О происхождении кодирующих последовательностей из случайных открытых рамок считывания». Journal of Molecular Evolution . 30 (2): 104– 108. Bibcode : 1990JMolE..30..104H. doi : 10.1007/bf02099936. ISSN  0022-2844. S2CID  5978109.
  3. ^ Sakharkar MK, Chow VT, Kangueane P (2004). «Распределение экзонов и интронов в геноме человека». In Silico Biology . 4 (4): 387–93 . PMID  15217358.
  4. ^ Парнелл, Лоуренс Д. (2012-01-01). «Достижения в технологиях и дизайне исследований». В Bouchard, C.; Ordovas, JM (ред.). Последние достижения в области нутригенетики и нутригеномики . Том 108. Academic Press. С.  17–50 . doi :10.1016/B978-0-12-398397-8.00002-2. ISBN 9780123983978. PMID  22656372 . Получено 2019-11-07 . {{cite book}}: |journal=проигнорировано ( помощь )
  5. ^ Gilbert W (февраль 1978). "Почему гены разделены на части?". Nature . 271 (5645): 501. Bibcode : 1978Natur.271..501G. doi : 10.1038/271501a0 . PMID  622185. S2CID  4216649.
  6. ^ Lercher MJ, Urrutia AO, Pavlícek A, Hurst LD (октябрь 2003 г.). «Унификация мозаичных структур в геноме человека». Молекулярная генетика человека . 12 (19): 2411– 5. doi : 10.1093/hmg/ddg251 . PMID  12915446.
  7. ^ Оливер Дж. Л., Марин А. (сентябрь 1996 г.). «Связь между содержанием GC и длиной кодирующей последовательности». Журнал молекулярной эволюции . 43 (3): 216–23 . Bibcode : 1996JMolE..43..216O. doi : 10.1007/pl00006080. PMID  8703087.
  8. ^ "ROSALIND | Глоссарий | Кодирующая область гена". rosalind.info . Получено 2019-10-31 .
  9. ^ Виноградов А.Е. (апрель 2003 г.). «Спираль ДНК: важность богатства GC». Nucleic Acids Research . 31 (7): 1838– 44. doi :10.1093/nar/gkg296. PMC 152811. PMID  12654999 . 
  10. ^ Bohlin J, Eldholm V, Pettersson JH, Brynildsrud O, Snipen L (февраль 2017 г.). «Нуклеотидный состав микробных геномов указывает на дифференциальные закономерности отбора в основных и дополнительных геномах». BMC Genomics . 18 (1): 151. doi : 10.1186/s12864-017-3543-7 . PMC 5303225 . PMID  28187704. 
  11. ^ Sémon M, Mouchiroud D, Duret L (февраль 2005 г.). «Связь между экспрессией генов и содержанием GC у млекопитающих: статистическая значимость и биологическая релевантность». Human Molecular Genetics . 14 (3): 421– 7. doi : 10.1093/hmg/ddi038 . PMID  15590696.
  12. ^ ab Обзор транскрипции. (nd). Получено с https://www.khanacademy.org/science/biology/gene-expression-central-dogma/transcription-of-dna-into-rna/a/overview-of-transcription .
  13. ^ Клэнси, Сюзанна (2008). «Перевод: ДНК в мРНК и белок». Scitable: By Nature Education .
  14. ^ Plociam (2005-08-08), английский: Структура зрелой эукариотической мРНК. Полностью обработанная мРНК включает 5' кэп, 5' НТО, кодирующую область, 3' НТО и поли(А) хвост. , получено 2019-11-19
  15. ^ Shinohara K, Sasaki S, Minoshima M, Bando T, Sugiyama H (2006-02-13). «Алкилирование шаблонной цепи кодирующей области вызывает эффективное подавление гена». Nucleic Acids Research . 34 (4): 1189– 95. doi :10.1093/nar/gkl005. PMC 1383623. PMID  16500890 . 
  16. ^ "Термин онтологии генов алкилирования ДНК (GO:0006305)". www.informatics.jax.org . Получено 30.10.2019 .
  17. ^ Shafee T, Lowe R (2017). «Структура гена эукариот и прокариот». WikiJournal of Medicine . 4 (1). doi : 10.15347/wjm/2017.002 .
  18. ^ Конарская М.М. (1998). «Распознавание 5'-сайта сплайсинга сплайсосомой». Акта Биохимика Полоника . 45 (4): 869–81 . doi : 10.18388/abp.1998_4346 . ПМИД  10397335.
  19. ^ Jonsta247 (2013-05-10), английский: Пример молчаливой мутации , получено 2019-11-19{{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  20. ^ ab Yang, J. (23 марта 2016 г.). Что такое генетические мутации? Получено с https://www.singerinstruments.com/resource/what-are-genetic-mutation/ .
  21. ^ abc Что такое мутация гена и как происходят мутации? - Genetics Home Reference - NIH. (nd). Получено с https://ghr.nlm.nih.gov/primer/mutationsanddisorders/genemutation .
  22. ^ "Проверка и восстановление ДНК (статья)". Khan Academy . Получено 2023-05-22 .
  23. ^ Перето Дж. (2011) Гипотеза колебания (генетика). В: Гарго М. и др. (ред.) Энциклопедия астробиологии. Шпрингер, Берлин, Гейдельберг
  24. ^ ab Havrilla, JM, Pedersen, BS, Layer, RM, & Quinlan, AR (2018). Карта ограниченных кодирующих областей в геноме человека. Nature Genetics , 88–95. doi :10.1101/220814
  25. ^ Romiguier J, Roux C (2017). «Аналитические смещения, связанные с содержанием GC в молекулярной эволюции». Front Genet . 8 : 16. doi : 10.3389/fgene.2017.00016 . PMC 5309256. PMID  28261263 . 
  26. ^ Фуруно М., Касукава Т., Сайто Р., Адачи Дж., Сузуки Х., Балдарелли Р. и др. (июнь 2003 г.). «Аннотация CDS в полноразмерной последовательности кДНК». Геномные исследования . 13 (6Б). Лабораторное издательство Колд-Спринг-Харбор: 1478–87 . doi : 10.1101/gr.1060303. ПМК 403693 . ПМИД  12819146. 
  27. ^ Рогозин ИБ, Спиридонов АН, Сорокин АВ, Вольф ЙИ, Иордан ИК, Татусов РЛ, Кунин ЕВ (май 2002). "Очищающий и направленный отбор в перекрывающихся прокариотических генах". Trends in Genetics . 18 (5): 228– 32. doi :10.1016/S0168-9525(02)02649-5. PMID  12047938.
  28. ^ Chirico N, Vianelli A, Belshaw R (декабрь 2010 г.). «Почему гены перекрываются у вирусов». Труды. Биологические науки . 277 (1701): 3809– 17. doi : 10.1098 /rspb.2010.1052. PMC 2992710. PMID  20610432. 
  29. ^ Firth AE, Brown CM (февраль 2005 г.). «Обнаружение перекрывающихся кодирующих последовательностей с помощью попарных выравниваний». Биоинформатика . 21 (3): 282–92 . doi : 10.1093/bioinformatics/bti007 . PMID  15347574.
  30. ^ Schlub TE, Buchmann JP, Holmes EC (октябрь 2018 г.). Malik H (ред.). «Простой метод обнаружения перекрывающихся генов-кандидатов в вирусах с использованием последовательностей одного генома». Молекулярная биология и эволюция . 35 (10): 2572– 2581. doi :10.1093/molbev/msy155. PMC 6188560. PMID  30099499. 
Взято с "https://en.wikipedia.org/w/index.php?title=Coding_region&oldid=1258203018"