Некодирующие РНК были обнаружены с использованием как экспериментальных, так и биоинформатических подходов. Биоинформатические подходы можно разделить на три основные категории. Первая включает в себя поиск гомологии, хотя эти методы по определению не способны находить новые классы некодируемых РНК. Вторая категория включает в себя алгоритмы, разработанные для обнаружения определенных типов некодируемых РНК, которые имеют схожие свойства. Наконец, некоторые методы обнаружения основаны на очень общих свойствах РНК и, таким образом, способны обнаруживать совершенно новые виды некодируемых РНК.
Открытие путем поиска гомологии
Поиск гомологии относится к процессу поиска в базе данных последовательностей РНК, которые похожи на уже известные последовательности РНК. Можно использовать любой алгоритм, разработанный для поиска гомологии последовательностей нуклеиновых кислот, например, BLAST . [1] Однако такие алгоритмы обычно не столь чувствительны или точны, как алгоритмы, специально разработанные для РНК.
Особое значение для РНК имеет сохранение вторичной структуры , которое можно моделировать для достижения дополнительной точности в поисках. Например, модели ковариации [2] можно рассматривать как расширение скрытой модели Маркова, которая также отражает сохраненную вторичную структуру. Модели ковариации реализованы в программном пакете Infernal. [3]
Открытие определенных типов некодируемых РНК
Некоторые типы РНК имеют общие свойства, которые алгоритмы могут использовать. Например, tRNAscan-SE [4] специализируется на поиске тРНК . Сердцем этой программы является поиск гомологии тРНК на основе моделей ковариации, но для ускорения поиска используются другие программы поиска, специфичные для тРНК.
Свойства snoRNAs позволили разработать программы для обнаружения новых примеров snoRNAs, включая те, которые могут быть лишь отдаленно связаны с ранее известными примерами. Компьютерные программы, реализующие такие подходы, включают snoscan [5] и snoReport. [6]
Аналогично было разработано несколько алгоритмов для обнаружения микроРНК . Примерами являются miRNAFold [7] и miRNAminer. [8]
Открытие по общим свойствам
Некоторые свойства являются общими для нескольких неродственных классов ncRNA, и эти свойства могут быть направлены на обнаружение новых классов. Главным из них является сохранение вторичной структуры РНК. Чтобы измерить сохранение вторичной структуры, необходимо каким-то образом найти гомологичные последовательности, которые могут демонстрировать общую структуру. Стратегии для этого включали использование BLAST между двумя последовательностями [9] или несколькими последовательностями, [10] использовали синтению через ортологичные гены [11] [12] или использовали локально-чувствительное хэширование в сочетании с последовательностями и структурными особенностями. [13]
Мутации, которые изменяют последовательность нуклеотидов , но сохраняют вторичную структуру, называются ковариацией и могут предоставить доказательства сохранения. Для измерения такого сохранения можно использовать другие статистические данные и вероятностные модели. Первым методом открытия некодируемых РНК, использующим структурное сохранение, был QRNA [9], который сравнивал вероятности выравнивания двух последовательностей на основе либо модели РНК, либо модели, в которой сохранялась только первичная последовательность. Работа в этом направлении позволила использовать более двух последовательностей и включала филогенетические модели, например, с EvoFold. [14] Подход, принятый в RNAz [15], включал вычисление статистики по входному выравниванию нескольких последовательностей. Некоторые из этих статистических данных относятся к структурному сохранению, в то время как другие измеряют общие свойства выравнивания, которые могут повлиять на ожидаемые диапазоны структурной статистики. Эти статистические данные были объединены с помощью машины опорных векторов .
Используя комбинацию этих подходов, многочисленные исследования перечислили кандидатные РНК, например, [9] [12].
Некоторые исследования перешли к ручному анализу прогнозов, чтобы найти детальный структурный и функциональный прогноз. [11] [16] [17]
^ Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (сентябрь 1997 г.). "Gapped BLAST и PSI-BLAST: новое поколение программ поиска в базе данных белков". Nucleic Acids Res . 25 (17): 3389– 3402. doi :10.1093/nar/25.17.3389. PMC 146917. PMID 9254694 .
^ Эдди SR, Дурбин R (июнь 1994 г.). «Анализ последовательности РНК с использованием ковариационных моделей». Nucleic Acids Res . 22 (11): 2079–2088 . doi :10.1093/nar/22.11.2079. PMC 308124. PMID 8029015 .
^ Nawrocki EP, Eddy SR (ноябрь 2013 г.). «Infernal 1.1: 100-кратно более быстрый поиск гомологии РНК». Bioinformatics . 29 (22): 2933– 2935. doi :10.1093/bioinformatics/btt509. PMC 3810854 . PMID 24008419.
^ Lowe TM, Eddy SR (март 1997 г.). "tRNAscan-SE: программа для улучшенного обнаружения генов транспортной РНК в геномной последовательности". Nucleic Acids Res . 25 (5): 955–964 . doi :10.1093/nar/25.5.955. PMC 146525. PMID 9023104 .
^ Lowe TM, Eddy SR (февраль 1999). "Вычислительный скрининг для метилирования направляющих snoRNAs в дрожжах". Science . 283 (5405): 1168– 1171. Bibcode :1999Sci...283.1168L. doi :10.1126/science.283.5405.1168. PMID 10024243. S2CID 8084145.
^ Hertel J, Hofacker IL, Stadler PF (январь 2008 г.). «SnoReport: вычислительная идентификация snoRNA с неизвестными целями». Биоинформатика . 24 (2): 158–164 . doi : 10.1093/bioinformatics/btm464 . PMID 17895272.
^ Темпель С., Тахи Ф. (2012). «Быстрый метод ab-initio для предсказания предшественников miRNA в геномах». Nucleic Acids Res . 40 (11): 955–964 . doi :10.1093/nar/gks146. PMC 3367186. PMID 22362754 .
^ Artzi S, Kiezun A, Shomron N (2008). "miRNAminer: инструмент для поиска гомологичных генов микроРНК". BMC Bioinformatics . 9 (1): 39. doi : 10.1186 /1471-2105-9-39 . PMC 2258288. PMID 18215311.
^ abc Rivas E, Eddy SR (2001). "Обнаружение генов некодирующей РНК с использованием сравнительного анализа последовательностей". BMC Bioinformatics . 2 : 8. doi : 10.1186/1471-2105-2-8 . PMC 64605. PMID 11801179.
^ Tseng HH, Weinberg Z, Gore J, Breaker RR, Ruzzo WL (апрель 2009 г.). «Поиск некодирующих РНК посредством кластеризации в масштабе генома». J Bioinform Comput Biol . 7 (2): 373– 388. doi :10.1142/s0219720009004126. PMC 3417115. PMID 19340921 .
^ ab Weinberg Z, Barrick JE, Yao Z, Roth A, Kim JN, Gore J, Wang JX, Lee ER, Block KF, Sudarsan N, Neph S, Tompa M, Ruzzo WL, Breaker RR (2007). «Идентификация 22 структурированных РНК-кандидатов в бактериях с использованием сравнительного геномного конвейера CMfinder». Nucleic Acids Res . 35 (14): 4809– 4819. doi :10.1093/nar/gkm487. PMC 1950547. PMID 17621584 .