Разработчик(и) | Ангермюллер С., Бигерт А. и Зёдинг Дж. |
---|---|
Стабильный релиз | 2.2.3 / 7 декабря 2013 г. ( 2013-12-07 ) |
Предварительный релиз | 1.1 / 14 апреля 2009 г. ( 2009-04-14 ) |
Репозиторий |
|
Написано в | С++ |
Доступно в | Английский |
Тип | Биоинформатический инструмент |
Лицензия | GNU GPL v3 |
Веб-сайт | http://wwwuser.gwdg.de/~compbiol/data/csblast/releases/, https://github.com/soedinglab/csblast |
CS-BLAST [1] [2] [3] (Context-Specific BLAST) — это инструмент, который ищет последовательность белка , которая расширяет BLAST (Basic Local Alignment Search Tool) [4] , используя контекстно-зависимые вероятности мутаций. Более конкретно, CS-BLAST выводит контекстно-зависимые сходства аминокислот в каждой последовательности запроса из коротких окон в последовательностях запроса. Использование CS-BLAST удваивает чувствительность и значительно улучшает качество выравнивания без потери скорости по сравнению с BLAST. CSI-BLAST (Context-Specific Iterated BLAST) — это контекстно-зависимый аналог PSI-BLAST [5] (Position-Specific Iterated BLAST), который вычисляет профиль мутаций с вероятностями замены и смешивает его с профилем запроса. CSI-BLAST (Context-Specific Iterated BLAST) — это контекстно-зависимый аналог PSI-BLAST (Position-Specific Iterated BLAST). Обе эти программы доступны в виде веб-сервера и доступны для бесплатной загрузки.
Гомология — это связь между биологическими структурами или последовательностями, полученными от общего предка. Гомологичные белки (белки, имеющие общее происхождение) выводятся из сходства их последовательностей. Вывод гомологичных отношений включает в себя расчет оценок выровненных пар за вычетом штрафов за пробелы. Выравнивание пар белков определяет области сходства, указывающие на связь между двумя или более белками. Для того чтобы иметь гомологичную связь, сумма оценок по всем выровненным парам аминокислот или нуклеотидов должна быть достаточно высокой [2]. Стандартные методы сравнения последовательностей используют для этого матрицу замещения [4]. Сходства между аминокислотами или нуклеотидами количественно определяются в этих матрицах замещения. Оценка замещения ( ) аминокислот и может быть записана следующим образом:
где обозначает вероятность мутации аминокислоты в аминокислоту [2]. В большом наборе выравниваний последовательностей подсчет количества аминокислот, а также количества выровненных пар позволит вам вывести вероятности и .
Поскольку белковые последовательности должны поддерживать стабильную структуру, вероятности замены остатка в значительной степени определяются структурным контекстом того, где он находится. В результате матрицы замены обучаются для структурных контекстов. Поскольку контекстная информация кодируется в вероятностях перехода между состояниями, смешивание вероятностей мутаций из матриц замены, взвешенных для соответствующих состояний, достигает улучшенных качеств выравнивания по сравнению со стандартными матрицами замены. CS-BLAST еще больше улучшает эту концепцию. Рисунок иллюстрирует эквивалентность последовательности к последовательности и профиля к последовательности с матрицей выравнивания. Профиль запроса получается из искусственных мутаций, в которых высоты столбцов пропорциональны соответствующим вероятностям аминокислот.
(ЗДЕСЬ НУЖНО ПОМЕСТИТЬ РИСУНОК, ЭТО ПОДПИСЬ) «Алгоритмы поиска/выравнивания последовательностей находят путь, который максимизирует сумму оценок сходства (цветовая кодировка от синего до красного). Оценки матрицы замен эквивалентны оценкам профиля, если профиль последовательности (цветная гистограмма) генерируется из последовательности запроса путем добавления искусственных мутаций с помощью схемы псевдосчета матрицы замен. Высота столбцов гистограммы представляет собой долю аминокислот в столбцах профиля».
CS-BLAST значительно улучшает качество выравнивания по всему диапазону идентичностей последовательностей и особенно для сложных выравниваний по сравнению с обычным BLAST и PSI-BLAST. PSI-BLAST (Position-Specific Iterated BLAST) работает примерно с той же скоростью на итерацию, что и обычный BLAST, но способен обнаруживать более слабые сходства последовательностей, которые все еще биологически значимы. Качество выравнивания основано на чувствительности выравнивания и точности выравнивания.
Чувствительность выравнивания измеряется путем правильного сравнения предсказанных выравниваний пар остатков с общим числом возможных выравниваемых пар. Она рассчитывается с помощью дроби: (пары правильно выровнены)/(пары структурно выровнены)
Точность выравнивания измеряется правильностью выровненных пар остатков. Она рассчитывается с помощью дроби: (пары выровнены правильно)/(пары выровнены)
График — это эталонный тест Бигерта и Сёдинга, используемый для оценки обнаружения гомологии. Этот эталонный тест сравнивает CS-BLAST с BLAST, используя истинные положительные результаты из одного и того же суперсемейства против ложных положительных результатов пар из разных складок. (ЗДЕСЬ НУЖЕН ГРАФИК)
Другой график использует обнаружение истинных положительных результатов (с другим масштабом, чем у предыдущего графика) и ложных положительных результатов PSI-BLAST и CSI-BLAST и сравнивает их для одной-пяти итераций. (ЗДЕСЬ НУЖЕН ДРУГОЙ ГРАФИК)
CS-BLAST обеспечивает улучшенную чувствительность и качество выравнивания при сравнении последовательностей. Поиск последовательностей с помощью CS-BLAST более чем в два раза чувствительнее, чем с помощью BLAST. Он обеспечивает более высокое качество выравниваний и генерирует надежные значения E без потери скорости. CS-BLAST обнаруживает на 139% больше гомологичных белков при совокупной частоте ошибок 20%. При частоте ошибок 10% обнаруживается на 138% больше гомологов, а для самых простых случаев при частоте ошибок 1% CS-BLAST все еще был на 96% эффективнее BLAST. Кроме того, CS-BLAST в 2 итерациях более чувствителен, чем 5 итераций PSI-BLAST. В сравнении было обнаружено примерно на 15% больше гомологов.
Метод CS-BLAST выводит сходства между аминокислотами, специфичными для контекста последовательности, для 13 окон остатков, центрированных на каждом остатке. CS-BLAST работает, генерируя профиль последовательности для последовательности запроса, используя мутации, специфичные для контекста, а затем запуская метод поиска профиля к последовательности.
CS-BLAST начинается с прогнозирования ожидаемых вероятностей мутаций для каждой позиции. Для определенного остатка выбирается окно последовательности из десяти общих окружающих остатков, как показано на изображении. Затем Бигерт и Сёдинг сравнили окно последовательности с библиотекой с тысячами профилей контекста. Библиотека создается путем кластеризации репрезентативного набора окон профилей последовательностей. Фактическое прогнозирование вероятностей мутаций достигается путем взвешенного смешивания центральных столбцов наиболее похожих профилей контекста. Это выравнивает короткие профили, которые негомологичны и не имеют пропусков, что придает больший вес более соответствующим профилям, что упрощает их обнаружение. Профиль последовательности представляет собой множественное выравнивание гомологичных последовательностей и описывает, какие аминокислоты, вероятно, будут встречаться в каждой позиции в связанных последовательностях. При использовании этого метода матрицы замещения не нужны. Кроме того, нет необходимости в вероятностях перехода в результате того, что информация о контексте кодируется в профилях контекста. Это упрощает вычисления и позволяет масштабировать время выполнения линейно, а не квадратично.
Контекстно-специфическая вероятность мутации, вероятность наблюдения определенной аминокислоты в гомологичной последовательности с учетом контекста, рассчитывается путем взвешенного смешивания аминокислот в центральных столбцах наиболее схожих контекстных профилей. Изображение иллюстрирует расчет ожидаемых вероятностей мутации для определенного остатка в определенной позиции. Как видно на изображении, библиотека контекстных профилей вносит свой вклад на основе сходства с контекстно-специфическим профилем последовательности для запрашиваемой последовательности.
При прогнозировании вероятностей замены с использованием только локального контекста последовательности аминокислоты вы получаете преимущество, заключающееся в отсутствии необходимости знать структуру белка запроса, при этом все еще позволяя обнаруживать больше гомологичных белков, чем стандартные матрицы замены [4]. Подход Бигерта и Сёдинга к прогнозированию вероятностей замены был основан на генеративной модели. В другой статье в сотрудничестве с Ангермюллером они разрабатывают дискриминационный метод машинного обучения, который повышает точность прогнозирования [2].
При наличии наблюдаемой переменной и целевой переменной генеративная модель определяет вероятности и отдельно. Для того чтобы предсказать ненаблюдаемую целевую переменную, , Теорема Байеса,
используется. Генеративная модель, как следует из названия, позволяет генерировать новые точки данных . Совместное распределение описывается как . Для обучения генеративной модели используется следующее уравнение для максимизации совместной вероятности .
Дискриминационная модель — это классификатор максимальной энтропии логистической регрессии. Цель дискриминационной модели — предсказать вероятность замены, специфичную для контекста, с учетом последовательности запроса. Дискриминационный подход к моделированию вероятностей замены, где описывается последовательность аминокислот вокруг позиции последовательности, основан на состояниях контекста. Состояния контекста характеризуются параметрами веса эмиссии ( ), веса смещения ( ) и веса контекста ( ) [2]. Вероятности эмиссии из состояния контекста задаются весами эмиссии следующим образом для to :
где — вероятность эмиссии, а — состояние контекста. В дискриминативном подходе вероятность для состояния контекста, заданного контекстом, моделируется непосредственно экспонентой аффинной функции профиля счета контекста, где — профиль счета контекста с константой нормализации, нормализует вероятность до 1. Это уравнение выглядит следующим образом, где первое суммирование принимает значение , а второе суммирование принимает значение : .
Как и в генеративной модели, целевое распределение получается путем смешивания вероятностей выбросов каждого состояния контекста, взвешенных по сходству.
Набор инструментов MPI Bioinformatics в виде интерактивного веб-сайта и сервиса, который позволяет любому человеку проводить комплексный и совместный анализ белков с помощью различных инструментов, включая CS-BLAST и PSI-BLAST [1]. Этот инструмент позволяет вводить белок и выбирать параметры для настройки анализа. Он также может пересылать выходные данные в другие инструменты.
[1] Альва, Викрам, Сын-Зин Нам, Йоханнес Сёдинг и Андрей Н. Лупас. «Набор инструментов биоинформатики MPI как интегративная платформа для расширенного анализа последовательности и структуры белка». Nucleic Acids Research 44. Выпуск веб-сервера (2016): W410-415. NCBI . Web. 2 ноября 2016 г.
[2] Ангермюллер, Кристоф, Андреас Бигерт и Йоханнес Сёдинг. «Дискриминативное моделирование свойств замены аминокислот в зависимости от контекста» BIOINFORMATICS 28.24 (2012): 3240-247. Oxford Journals . Web. 2 ноября 2016 г.
[3] Астшул, Стивен Ф. и др. «Gapped BLAST и PSI-BLAST: Новое поколение программ поиска в базе данных белков». Nucleic Acids Research 25.17 (1997): 3389-402. Oxford University Press. Печать
[4] Бигерт, А. и Й. Сёдинг. «Контекстно-специфические профили последовательностей для поиска гомологии». Труды Национальной академии наук 106.10 (2009): 3770-3775. PNAS. Web. 23 октября 2016 г.