Реконструкция предков (также известная как картирование признаков или оптимизация признаков ) — это экстраполяция назад во времени измеренных характеристик особей, популяций или видов к их общим предкам . Это важное приложение филогенетики , реконструкция и изучение эволюционных отношений между особями, популяциями или видами к их предкам. В контексте эволюционной биологии реконструкция предков может использоваться для восстановления различных видов состояний предковых признаков организмов, которые жили миллионы лет назад. [1] Эти состояния включают генетическую последовательность ( реконструкция предковой последовательности ), аминокислотную последовательность белка , состав генома ( например, порядок генов), измеримую характеристику организма ( фенотип ) и географический ареал предковой популяции или вида (реконструкция ареала предков). Это желательно, поскольку позволяет нам исследовать части филогенетических деревьев, соответствующие далекому прошлому, проясняя эволюционную историю вида в дереве. Поскольку современные генетические последовательности по сути являются вариацией древних, доступ к древним последовательностям может идентифицировать другие вариации и организмы, которые могли возникнуть из этих последовательностей. [2] В дополнение к генетическим последовательностям можно попытаться отследить изменение одной черты характера на другую, например, превращение плавников в ноги.
Небиологические приложения включают реконструкцию словарного запаса или фонем древних языков [3] и культурных особенностей древних обществ, таких как устные традиции [4] или брачные практики [5] .
Реконструкция предков опирается на достаточно реалистичную статистическую модель эволюции для точного восстановления предковых состояний. Эти модели используют генетическую информацию, уже полученную с помощью таких методов, как филогенетика, для определения пути, по которому пошла эволюция , и времени, когда произошли эволюционные события. [6] Однако независимо от того, насколько хорошо модель аппроксимирует фактическую эволюционную историю, способность точно реконструировать предка ухудшается с увеличением эволюционного времени между этим предком и его наблюдаемыми потомками. Кроме того, более реалистичные модели эволюции неизбежно более сложны и трудны для расчета. Прогресс в области реконструкции предков в значительной степени опирался на экспоненциальный рост вычислительной мощности и сопутствующую разработку эффективных вычислительных алгоритмов (например, алгоритм динамического программирования для совместной реконструкции максимального правдоподобия предковых последовательностей). [7] Методы реконструкции предков часто применяются к данному филогенетическому дереву , которое уже было выведено из тех же данных. Несмотря на удобство, этот подход имеет тот недостаток, что его результаты зависят от точности одного филогенетического дерева. Напротив, некоторые исследователи [8] выступают за более интенсивный в плане вычислений байесовский подход, который учитывает неопределенность в реконструкции деревьев путем оценки предковых реконструкций по многим деревьям.
Концепция предковой реконструкции часто приписывается Эмилю Цукеркандлю и Линусу Полингу . Мотивированные разработкой методов определения первичной (аминокислотной) последовательности белков Фредериком Сэнгером в 1955 году [9], Цукеркандль и Полинг постулировали [10] , что такие последовательности могут быть использованы для вывода не только филогении, связывающей наблюдаемые белковые последовательности, но и предковой белковой последовательности в самой ранней точке (корне) этого дерева. Однако идея реконструкции предков по измеримым биологическим характеристикам уже развивалась в области кладистики , одного из предшественников современной филогенетики. Кладистические методы, которые появились еще в 1901 году, выводят эволюционные связи видов на основе распределения общих характеристик, некоторые из которых, как предполагается, произошли от общих предков. Кроме того, в 1938 году Феодосий Добжанский и Альфред Стертевант сформулировали принципы реконструкции предков в филогенетическом контексте, делая выводы об эволюционной истории хромосомных инверсий у Drosophila pseudoobscura . [11]
Таким образом, предковая реконструкция имеет свои корни в нескольких дисциплинах. Сегодня вычислительные методы для предковой реконструкции продолжают расширяться и применяться в различных условиях, так что предковые состояния выводятся не только для биологических характеристик и молекулярных последовательностей, но также для структуры [12] [13] или каталитических свойств [14] древних и современных белков , географического расположения популяций и видов ( филогеография ) [15] [16] и структуры геномов более высокого порядка. [17]
Любая попытка реконструкции предков начинается с филогении . В общем, филогения — это основанная на дереве гипотеза о порядке, в котором популяции (называемые таксонами ) связаны происхождением от общих предков. Наблюдаемые таксоны представлены вершинами или конечными узлами дерева, которые постепенно соединяются ветвями со своими общими предками, которые представлены точками ветвления дерева, которые обычно называются предковыми или внутренними узлами . В конечном итоге все родословные сходятся к самому последнему общему предку всей выборки таксонов. В контексте реконструкции предков филогения часто рассматривается так, как если бы она была известной величиной (за исключением байесовских подходов). Поскольку может быть огромное количество филогений, которые почти одинаково эффективны для объяснения данных, сокращение подмножества филогений, поддерживаемых данными, до одного представителя или точечной оценки может быть удобным и иногда необходимым упрощающим предположением.
Реконструкцию предков можно рассматривать как прямой результат применения гипотетической модели эволюции к данной филогении. Когда модель содержит один или несколько свободных параметров, общая цель состоит в оценке этих параметров на основе измеренных характеристик среди наблюдаемых таксонов (последовательностей), которые произошли от общих предков. Экономия является важным исключением из этой парадигмы: хотя было показано, что существуют обстоятельства, при которых она является оценщиком максимального правдоподобия [18] , по своей сути она просто основана на эвристике, что изменения в состоянии признака редки, без попытки количественно оценить эту редкость.
Существует три различных класса методов для реконструкции предков. В хронологическом порядке открытия это максимальная экономия , максимальное правдоподобие и байесовский вывод . Максимальная экономия считает все эволюционные события одинаково вероятными; максимальное правдоподобие учитывает различную вероятность определенных классов событий; а байесовский вывод связывает условную вероятность события с вероятностью дерева, а также с величиной неопределенности, связанной с этим деревом. Максимальная экономия и максимальное правдоподобие дают один наиболее вероятный результат, тогда как байесовский вывод учитывает неопределенности в данных и дает выборку возможных деревьев.
Экономия, в просторечии известная как « бритва Оккама », относится к принципу выбора простейшей из конкурирующих гипотез. В контексте реконструкции предков экономия стремится найти распределение предковых состояний в пределах данного дерева, которое минимизирует общее количество изменений состояний признаков, которые были бы необходимы для объяснения состояний, наблюдаемых на вершинах дерева. Этот метод максимальной экономии [19] является одним из самых ранних формализованных алгоритмов для реконструкции предковых состояний, а также одним из самых простых. [13]
Максимальная экономия может быть реализована одним из нескольких алгоритмов. Одним из самых ранних примеров является метод Фитча [20] , который назначает состояния предкового символа с помощью экономии посредством двух обходов корневого двоичного дерева . Первый этап - это обход в обратном порядке , который идет от кончиков к корню дерева, посещая узлы-потомки (дочерние) до их родителей. Первоначально мы определяем множество возможных состояний символа S i для i -го предка на основе наблюдаемых состояний символа его потомков. Каждое назначение - это множество пересечений состояний символа потомков предка; если пересечение - это пустое множество, то это объединение множеств . В последнем случае подразумевается, что изменение состояния символа произошло между предком и одним из его двух непосредственных потомков. Каждое такое событие учитывается в функции стоимости алгоритма, которая может использоваться для различения альтернативных деревьев на основе максимальной экономии. Затем выполняется предварительный обход дерева, начиная с корня к кончикам. Затем состояния символов назначаются каждому потомку на основе того, какие состояния символов он разделяет со своим родителем. Поскольку у корня нет родительского узла, может потребоваться выбрать состояние символа произвольно, особенно когда в корне реконструировано более одного возможного состояния.
Например, рассмотрим филогению, восстановленную для рода растений, содержащего 6 видов A - F, где каждое растение опыляется либо «пчелой», либо «колибри», либо «ветром». Один очевидный вопрос заключается в том, какие опылители в более глубоких узлах были в филогении этого рода растений. При максимальной экономии реконструкция предкового состояния для этой клады показывает, что «колибри» является наиболее экономным предковым состоянием для нижней клады (растения D, E, F), что предковые состояния для узлов в верхней кладе (растения A, B, C) неоднозначны и что как «колибри», так и «пчела» опылители одинаково правдоподобны для состояния опыления в корне филогении. Предположим, у нас есть веские доказательства из ископаемой летописи, что корневое состояние — «колибри». Разрешение корня до «колибри» даст модель реконструкции предкового состояния, изображенную символами в узлах, при этом состояние, требующее наименьших изменений, обведено кружком.
Методы экономии интуитивно привлекательны и высокоэффективны, поэтому они все еще используются в некоторых случаях для затравки алгоритмов оптимизации максимального правдоподобия с начальной филогенией. [21] Однако базовое предположение о том, что эволюция достигла определенного конечного результата как можно быстрее, неверно. Естественный отбор и эволюция не работают на достижение цели, они просто выбирают за или против случайно происходящих генетических изменений. Методы экономии предполагают шесть общих предположений: что используемое вами филогенетическое дерево является правильным, что у вас есть все соответствующие данные, в которых не было сделано ошибок при кодировании, что все ветви филогенетического дерева с равной вероятностью изменятся, что скорость эволюции медленная и что вероятность потери или приобретения характеристики одинакова. [1] В действительности предположения часто нарушаются, что приводит к нескольким проблемам:
Методы максимального правдоподобия (ML) реконструкции предкового состояния рассматривают состояния признаков во внутренних узлах дерева как параметры и пытаются найти значения параметров, которые максимизируют вероятность данных (наблюдаемых состояний признаков) с учетом гипотезы (модели эволюции и филогении, связывающей наблюдаемые последовательности или таксоны). Другими словами, этот метод предполагает, что предковые состояния являются теми, которые статистически наиболее вероятны, учитывая наблюдаемые фенотипы. Некоторые из самых ранних подходов ML к реконструкции предков были разработаны в контексте эволюции генетической последовательности ; [29] [30] аналогичные модели были также разработаны для аналогичного случая дискретной эволюции признаков. [31]
Использование модели эволюции учитывает тот факт, что не все события имеют одинаковую вероятность. Например, переход , который является типом точечной мутации от одного пурина к другому или от одного пиримидина к другому, имеет гораздо большую вероятность, чем трансверсия , которая является вероятностью переключения пурина на пиримидин или наоборот. Эти различия не охватываются максимальной экономией. Однако то, что некоторые события более вероятны, чем другие, не означает, что они всегда происходят. Мы знаем, что на протяжении всей эволюционной истории были времена, когда существовал большой разрыв между тем, что с наибольшей вероятностью произойдет, и тем, что произошло на самом деле. Когда это так, максимальная экономия может быть на самом деле более точной, поскольку она более склонна совершать большие, маловероятные скачки, чем максимальная вероятность. Было показано, что максимальная вероятность довольно надежна при реконструкции состояний признаков, но она не так хороша для точной оценки стабильности белков. Максимальное правдоподобие всегда переоценивает стабильность белков, что имеет смысл, поскольку предполагает, что белки, которые были созданы и использованы, были наиболее стабильными и оптимальными. [13] Достоинства максимального правдоподобия были предметом споров, и некоторые пришли к выводу, что тест максимального правдоподобия представляет собой хорошую середину между точностью и скоростью. [32] Однако другие исследования жаловались, что максимальное правдоподобие требует слишком много времени и вычислительной мощности, чтобы быть полезным в некоторых сценариях. [33]
Эти подходы используют ту же вероятностную структуру, которая использовалась для вывода филогенетического дерева. [34] Вкратце, эволюция генетической последовательности моделируется обратимым во времени непрерывным марковским процессом . В простейшем из них все признаки претерпевают независимые переходы состояний (такие как замены нуклеотидов) с постоянной скоростью с течением времени. Эта базовая модель часто расширяется, чтобы допускать различные скорости на каждой ветви дерева. В действительности скорости мутаций также могут меняться со временем (например, из-за изменений окружающей среды); это можно смоделировать, позволяя параметрам скорости эволюционировать вдоль дерева за счет увеличения числа параметров. Модель определяет вероятности перехода из состояний i в j вдоль ветви длиной t (в единицах эволюционного времени). Вероятность филогении вычисляется из вложенной суммы вероятностей перехода, которая соответствует иерархической структуре предлагаемого дерева. В каждом узле вероятность его потомков суммируется по всем возможным состояниям предковых признаков в этом узле:
где мы вычисляем вероятность поддерева с корнем в узле x с прямыми потомками y и z , обозначает состояние символа i -го узла, — длина ветви (эволюционное время) между узлами i и j , а — набор всех возможных состояний символа (например, нуклеотиды A, C, G и T). [34] Таким образом, цель реконструкции предков — найти назначение для всех x внутренних узлов, которое максимизирует вероятность наблюдаемых данных для данного дерева.
Вместо вычисления общей вероятности для альтернативных деревьев, проблема реконструкции предков заключается в поиске комбинации состояний характера в каждом узле предка с наивысшим предельным максимальным правдоподобием. Вообще говоря, есть два подхода к этой проблеме. Во-первых, можно назначить наиболее вероятное состояние характера каждому предку независимо от реконструкции всех других состояний предка. Этот подход называется предельной реконструкцией . Он похож на суммирование по всем комбинациям состояний предка во всех других узлах дерева (включая корневой узел), кроме тех, для которых доступны данные. Предельная реконструкция — это нахождение состояния в текущем узле, которое максимизирует вероятность, интегрированную по всем другим состояниям во всех узлах, пропорционально их вероятности. Во-вторых, вместо этого можно попытаться найти совместную комбинацию состояний характера предка по всему дереву, которая совместно максимизирует вероятность всего набора данных. Таким образом, этот подход называется совместной реконструкцией. [29] Неудивительно, что совместная реконструкция является более сложной в вычислительном отношении, чем предельная реконструкция. Тем не менее, были разработаны эффективные алгоритмы для совместной реконструкции, временная сложность которых, как правило, линейно зависит от числа наблюдаемых таксонов или последовательностей. [7]
Методы реконструкции предков на основе МО, как правило, обеспечивают большую точность, чем методы МП, при наличии вариаций в скоростях эволюции среди признаков (или между участками в геноме). [35] [36] Однако эти методы пока не способны учитывать вариации в скоростях эволюции с течением времени, иначе известные как гетеротахия . Если скорость эволюции для определенного признака ускоряется на ветви филогении, то количество эволюции, произошедшей на этой ветви, будет недооценено для данной длины ветви и при условии постоянной скорости эволюции для этого признака. В дополнение к этому, трудно отличить гетеротахию от вариаций среди признаков в скоростях эволюции. [37]
Поскольку ML (в отличие от максимальной экономии) требует от исследователя указания модели эволюции, на его точность может повлиять использование грубо неверной модели (неправильная спецификация модели). Кроме того, ML может обеспечить только однократную реконструкцию состояний характера (что часто называют «точечной оценкой») — когда поверхность правдоподобия сильно невыпуклая, включающая несколько пиков (локальные оптимумы), то однократная точечная оценка не может обеспечить адекватное представление, и байесовский подход может быть более подходящим.
Байесовский вывод использует вероятность наблюдаемых данных для обновления убеждения исследователя или априорного распределения , чтобы получить апостериорное распределение . В контексте реконструкции предков цель состоит в том, чтобы вывести апостериорные вероятности состояний предковых признаков в каждом внутреннем узле данного дерева. Более того, можно интегрировать эти вероятности по апостериорным распределениям по параметрам эволюционной модели и пространству всех возможных деревьев. Это можно выразить как применение теоремы Байеса :
где S представляет собой предковые состояния, D соответствует наблюдаемым данным и представляет как эволюционную модель, так и филогенетическое дерево. — это вероятность наблюдаемых данных, которая может быть вычислена с помощью алгоритма обрезки Фельзенштейна , как указано выше. — это априорная вероятность предковых состояний для данной модели и дерева. Наконец, — это вероятность данных для данной модели и дерева, интегрированная по всем возможным предковым состояниям.
Байесовский вывод — это метод, который многие считают наиболее точным. [8] В целом, байесовский статистический метод позволяет исследователям объединять уже существующую информацию с новой гипотезой. В случае эволюции он объединяет вероятность наблюдаемых данных с вероятностью того, что события произошли в том порядке, в котором они произошли, признавая при этом потенциальную возможность ошибки и неопределенности. В целом, это наиболее точный метод реконструкции предковых генетических последовательностей, а также стабильности белка. [25] В отличие от двух других методов, байесовский вывод дает распределение возможных деревьев, что позволяет получать более точные и легко интерпретируемые оценки дисперсии возможных результатов. [38]
Выше мы привели две формулировки, чтобы подчеркнуть два различных применения теоремы Байеса, которые мы обсудим в следующем разделе.
Одна из первых реализаций байесовского подхода к реконструкции наследственной последовательности была разработана Янгом и коллегами [29] , где оценки максимального правдоподобия эволюционной модели и дерева, соответственно, использовались для определения априорных распределений. Таким образом, их подход является примером эмпирического байесовского метода для вычисления апостериорных вероятностей состояний предковых признаков; этот метод был впервые реализован в программном пакете PAML. [39] В терминах приведенной выше формулировки байесовского правила эмпирический байесовский метод фиксируется на эмпирических оценках модели и дерева, полученных из данных, эффективно отбрасывая апостериорное правдоподобие и априорные члены формулы. Более того, Янг и коллеги [29] использовали эмпирическое распределение шаблонов сайтов (т. е. назначения нуклеотидов вершинам дерева) при выравнивании наблюдаемых нуклеотидных последовательностей в знаменателе вместо исчерпывающего вычисления по всем возможным значениям S при заданном . С вычислительной точки зрения эмпирический метод Байеса похож на реконструкцию предковых состояний по методу максимального правдоподобия, за исключением того, что вместо поиска назначений состояний методом машинного обучения на основе их соответствующих распределений вероятностей в каждом внутреннем узле, сами распределения вероятностей сообщаются напрямую.
Эмпирические байесовские методы для реконструкции предков требуют от исследователя предположить, что параметры эволюционной модели и дерево известны без ошибок. Когда размер или сложность данных делают это предположение нереалистичным, может быть более благоразумным принять полностью иерархический байесовский подход и вывести совместное апостериорное распределение по состояниям предковых признаков, модели и дереву. [40] Хюльзенбек и Боллбак впервые предложили [40] иерархический байесовский метод для реконструкции предков с использованием методов Монте-Карло с цепями Маркова (MCMC) для выборки последовательностей предков из этого совместного апостериорного распределения. Похожий подход также использовался для реконструкции эволюции симбиоза с водорослями у видов грибов ( лихенизация ). [41] Например, алгоритм Метрополиса-Гастингса для MCMC исследует совместное апостериорное распределение, принимая или отклоняя назначения параметров на основе отношения апостериорных вероятностей.
Проще говоря, эмпирический байесовский подход вычисляет вероятности различных предковых состояний для конкретного дерева и модели эволюции. Выражая реконструкцию предковых состояний как набор вероятностей, можно напрямую количественно оценить неопределенность для назначения любого конкретного состояния предку. С другой стороны, иерархический байесовский подход усредняет эти вероятности по всем возможным деревьям и моделям эволюции пропорционально тому, насколько вероятны эти деревья и модели, учитывая данные, которые были получены.
Однако вопрос о том, дает ли иерархический байесовский метод существенное преимущество на практике, остается спорным. [42] Более того, этот полностью байесовский подход ограничен анализом относительно небольшого количества последовательностей или таксонов, поскольку пространство всех возможных деревьев быстро становится слишком обширным, что делает вычислительно невозможным схождение цепных выборок за разумное время.
Реконструкция предков может быть основана на наблюдаемых состояниях в исторических образцах известного возраста, таких как ископаемые останки или архивные образцы. Поскольку точность реконструкции предков обычно снижается со временем, использование таких образцов дает данные, которые ближе к реконструируемым предкам и, скорее всего, улучшит анализ, особенно когда скорости изменения признаков меняются со временем. Эта концепция была подтверждена экспериментальным эволюционным исследованием, в котором репликативные популяции бактериофага T7 были размножены для создания искусственной филогении. [43] Пересматривая эти экспериментальные данные, Окли и Каннингем [44] обнаружили, что методы максимальной экономии не смогли точно реконструировать известное состояние предков непрерывного признака ( размер бляшки ); эти результаты были подтверждены компьютерным моделированием. Эта неудача реконструкции предков была приписана направленному смещению в эволюции размера бляшки (от больших к малым диаметрам бляшки), что потребовало включения «окаменелых» образцов для решения.
Исследования как млекопитающих плотоядных [45], так и рыб [46] продемонстрировали, что без включения ископаемых данных реконструированные оценки размеров тела предков нереалистично велики. Более того, Грэм Слейтер и коллеги показали [47] с использованием собачьих плотоядных , что включение ископаемых данных в априорные распределения улучшило как байесовский вывод предковых состояний, так и выбор эволюционной модели по сравнению с анализами, использующими только современные данные.
Было разработано много моделей для оценки предковых состояний дискретных и непрерывных признаков из существующих потомков. [48] Такие модели предполагают, что эволюция признака с течением времени может быть смоделирована как стохастический процесс. Для дискретно-значимых признаков (таких как «тип опылителя») этот процесс обычно принимается за цепь Маркова ; для непрерывно-значимых признаков (таких как « размер мозга ») процесс часто принимается за броуновское движение или процесс Орнштейна-Уленбека . Используя эту модель в качестве основы для статистического вывода, теперь можно использовать методы максимального правдоподобия или байесовский вывод для оценки предковых состояний.
Предположим, что рассматриваемый признак может попасть в одно из состояний, обозначенных . Типичным средством моделирования эволюции этого признака является непрерывная во времени цепь Маркова, которую можно кратко описать следующим образом. Каждое состояние имеет связанные с ним скорости перехода во все другие состояния. Признак моделируется как шагающий между состояниями ; когда он достигает заданного состояния, он запускает экспоненциальные «часы» для каждого из других состояний, в которые он может перейти. Затем он «гоняет» часы друг с другом и делает шаг к состоянию, часы которого зазвонят первыми. В такой модели параметрами являются скорости перехода , которые можно оценить, используя, например, методы максимального правдоподобия, где максимизируется по набору всех возможных конфигураций состояний предковых узлов.
Чтобы восстановить состояние заданного предкового узла в филогении (назовем этот узел ) по максимальному правдоподобию, процедура такова: найти оценку максимального правдоподобия ; затем вычислить правдоподобие каждого возможного состояния для обусловливания ; наконец, выбрать предковое состояние, которое максимизирует это. [23] Можно также использовать эту модель подстановки в качестве основы для процедуры байесовского вывода, которая будет учитывать апостериорное убеждение в состоянии предкового узла с учетом некоторого выбранного пользователем априорного значения.
Поскольку такие модели могут иметь столько же параметров, переобучение может быть проблемой. Некоторые распространенные варианты, которые уменьшают пространство параметров:
Модель бинарного состояния видообразования и вымирания [49] (BiSSE) — это дискретно-пространственная модель, которая напрямую не следует структуре упомянутых выше. Она позволяет оценивать предковые бинарные состояния признаков совместно с показателями диверсификации , связанными с различными состояниями признаков; ее также можно напрямую расширить до более общей модели с несколькими дискретными состояниями. В своей самой базовой форме эта модель включает шесть параметров: два показателя видообразования (по одному для линий в состояниях 0 и 1); аналогично, два показателя вымирания; и два показателя изменения признаков. Эта модель позволяет проверять гипотезы о показателях видообразования/вымирания/изменения признаков за счет увеличения числа параметров.
В случае, когда признак принимает недискретные значения, вместо этого необходимо обратиться к модели, где признак развивается как некий непрерывный процесс. Вывод предковых состояний с помощью максимального правдоподобия (или байесовских методов) будет происходить так же, как и выше, но с вероятностями переходов в состоянии между соседними узлами, заданными некоторым другим непрерывным распределением вероятностей.
Реконструкция предков широко используется для выведения экологических, фенотипических или биогеографических признаков, связанных с предковыми узлами в филогенетическом дереве. Все методы реконструкции предковых признаков имеют подводные камни, поскольку они используют математические модели для прогнозирования того, как признаки изменились при большом количестве отсутствующих данных. Эти отсутствующие данные включают состояния вымерших видов, относительные скорости эволюционных изменений, знание начальных состояний признаков и точность филогенетических деревьев. Во всех случаях, когда используется реконструкция предковых признаков, результаты должны быть обоснованы с помощью изучения биологических данных, которые поддерживают выводы, основанные на модели. Гриффит О.В. и др. [55]
Реконструкция предков позволяет изучать эволюционные пути, адаптивный отбор , экспрессию генов развития, [56] [57] и функциональную дивергенцию эволюционного прошлого. Для обзора биологических и вычислительных методов реконструкции предков см. Chang et al. . [58] Для критики методов вычисления реконструкции предков см. Williams PD et al. . [13]
У рогатых ящериц (род Phrynosoma ) живорождение развивалось многократно, основываясь на методах реконструкции предков. [59]
Для радиации вьюрков, населяющих Галапагосские острова , доступны как филогенетические, так и характерные данные . Эти данные позволяют проверять гипотезы относительно сроков и порядка изменений состояния признаков с течением времени посредством реконструкции предкового состояния. В сухой сезон рацион 13 видов галапагосских вьюрков можно разделить на три широкие категории рационов: во-первых, те, которые потребляют зерноподобную пищу, считаются « зерноядными », те, которые поедают членистоногих, называются « насекомоядными », а те, которые потребляют растительность, классифицируются как « листоядные ». [23] Реконструкция диетического предкового состояния с использованием максимальной бережливости восстанавливает 2 основных перехода от насекомоядного состояния: один к зерноядности и один к листоядности. Реконструкция предкового состояния с максимальным правдоподобием восстанавливает в целом схожие результаты, с одним существенным отличием: общий предок кладов древесного вьюрка ( Camarhynchus ) и земляного вьюрка ( Geospiza ) скорее всего зерноядный, а не насекомоядный (судя по бережливости). В этом случае эта разница между предковыми состояниями, возвращаемыми с помощью максимальной бережливости и максимального правдоподобия, вероятно, возникает в результате того факта, что оценки ML учитывают длины ветвей филогенетического дерева. [23]
Ящерицы -фриносоматиды демонстрируют замечательное морфологическое разнообразие, в том числе в относительном составе типов мышечных волокон в мышцах задних конечностей . Реконструкция предка, основанная на экономии квадратичных изменений (эквивалентной максимальному правдоподобию при эволюции характера броуновского движения [60] ), указывает на то, что рогатые ящерицы , один из трех основных субкладов этой линии, претерпели значительное эволюционное увеличение доли быстроокислительных гликолитических волокон в своих подвздошно-малоберцовых мышцах. [61]
В анализе массы тела 1679 видов плацентарных млекопитающих , сравнивающих стабильные модели непрерывной эволюции признаков с моделями броуновского движения , Эллиот и Мурс [54] показали, что эволюционный процесс, описывающий эволюцию массы тела млекопитающих, лучше всего характеризуется стабильной моделью непрерывной эволюции признаков, которая учитывает редкие изменения большой величины. В стабильной модели предковые млекопитающие сохраняли низкую массу тела в ходе ранней диверсификации, при этом большой прирост массы тела совпадал с происхождением нескольких отрядов видов с большой массой тела (например, копытных). Напротив, моделирование в рамках модели броуновского движения восстановило менее реалистичную, на порядок большую массу тела среди предковых млекопитающих, что потребовало значительного уменьшения размера тела до эволюции отрядов, демонстрирующих малый размер тела (например, грызунов ). Таким образом, стабильные модели восстанавливают более реалистичную картину эволюции массы тела млекопитающих, позволяя большим преобразованиям происходить на небольшом подмножестве ветвей. [54]
Филогенетические сравнительные методы (выводы, сделанные путем сравнения родственных таксонов) часто используются для идентификации биологических характеристик, которые не развиваются независимо, что может выявить лежащую в основе зависимость. Например, эволюция формы клюва вьюрка может быть связана с его поведением при поиске пищи. Однако не рекомендуется искать эти ассоциации путем прямого сравнения измерений или генетических последовательностей, поскольку эти наблюдения не являются независимыми из-за их происхождения от общих предков. Для дискретных признаков эта проблема была впервые рассмотрена в рамках максимальной экономии путем оценки того, имеют ли два признака тенденцию претерпевать изменения на одних и тех же ветвях дерева. [62] [63] Фельзенштейн определил эту проблему для непрерывной эволюции признаков и предложил решение, похожее на предковую реконструкцию, в котором филогенетическая структура данных была размещена статистически путем направления анализа посредством вычисления «независимых контрастов» между узлами дерева, связанными неперекрывающимися ветвями. [28]
На молекулярном уровне аминокислотные остатки в разных местах белка могут эволюционировать не независимо, поскольку они имеют прямое физико-химическое взаимодействие, или косвенно через их взаимодействия с общим субстратом или через дальнодействующие взаимодействия в структуре белка. И наоборот, складчатая структура белка потенциально может быть выведена из распределения взаимодействий остатков. [64] Одно из самых ранних применений предковой реконструкции, для предсказания трехмерной структуры белка через контакты остатков, было опубликовано Шиндяловым и коллегами. [65] Филогении, связывающие 67 различных семейств белков, были получены с помощью метода кластеризации на основе расстояния ( метод невзвешенной парной группы со средним арифметическим , UPGMA), а предковые последовательности были реконструированы с помощью экономии. Авторы сообщили о слабой, но значимой тенденции к тому, что совместно эволюционирующие пары остатков будут совместно расположены в известной трехмерной структуре белков.
Реконструкция древних белков и последовательностей ДНК только недавно стала значительным научным начинанием. Развитие обширных баз данных геномных последовательностей в сочетании с достижениями в области биотехнологии и методов филогенетического вывода сделало реконструкцию предков дешевой, быстрой и научно практичной. Эта концепция была применена для идентификации коэволюционирующих остатков в последовательностях белков с использованием более продвинутых методов реконструкции филогений и последовательностей предков. Например, реконструкция предков использовалась для идентификации коэволюционирующих остатков в белках, кодируемых геномами РНК-вирусов, в частности, ВИЧ. [66] [67] [68]
Реконструкция предкового белка и ДНК позволяет воссоздать эволюцию белка и ДНК в лабораторных условиях, чтобы ее можно было изучать напрямую. [58] Что касается белков, это позволяет исследовать эволюцию современной молекулярной структуры и функции. Кроме того, реконструкция предкового белка может привести к открытию новых биохимических функций, которые были утрачены в современных белках. [69] [70] Она также позволяет получить представление о биологии и экологии вымерших организмов. [71] Хотя большинство реконструкций предков касалось белков, она также использовалась для проверки эволюционных механизмов на уровне бактериальных геномов [72] и последовательностей генов приматов. [73]
РНК-вирусы, такие как вирус иммунодефицита человека (ВИЧ), развиваются чрезвычайно быстро, на порядки быстрее, чем млекопитающие или птицы. Для этих организмов предковая реконструкция может применяться в гораздо более коротких временных масштабах; например, для того, чтобы реконструировать глобального или регионального предшественника эпидемии, которая охватывала десятилетия, а не миллионы лет. Группа под руководством Брайана Гашена предложила [74] , чтобы такие реконструированные штаммы использовались в качестве целей для разработки вакцин , а не последовательностей, выделенных у пациентов в настоящее время. Поскольку ВИЧ чрезвычайно разнообразен, вакцина, разработанная для работы с вирусной популяцией одного пациента, может не сработать для другого пациента, поскольку эволюционное расстояние между этими двумя вирусами может быть большим. Однако их последний общий предок ближе к каждому из двух вирусов, чем они друг к другу. Таким образом, вакцина, разработанная для общего предка, может иметь больше шансов быть эффективной для большей доли циркулирующих штаммов. Другая группа ученых развила эту идею дальше, разработав метод реконструкции центра дерева для получения последовательности, общее эволюционное расстояние которой до современных штаммов было бы как можно меньше. [75] Строго говоря, этот метод не был реконструкцией предков , поскольку последовательность центра дерева (COT) не обязательно представляет собой последовательность, которая когда-либо существовала в эволюционной истории вируса. Однако Ролланд и его коллеги обнаружили, что в случае ВИЧ вирус COT был функциональным при синтезе. Аналогичные эксперименты с синтетическими последовательностями предков, полученными путем реконструкции максимального правдоподобия, также показали, что эти предки являются как функциональными, так и иммуногенными, [76] [77] что придает этим методам некоторую достоверность. Кроме того, реконструкция предков может быть потенциально использована для выведения генетической последовательности переданных вариантов ВИЧ, которые пошли на установление следующей инфекции, с целью выявления отличительных характеристик этих вариантов (как неслучайного выбора переданной популяции вирусов), которые могут быть направлены на разработку вакцины. [78]
Вместо того, чтобы выводить последовательность ДНК предка, можно заинтересоваться более масштабной молекулярной структурой и содержанием генома предка. Эта проблема часто решается в комбинаторной структуре, путем моделирования геномов как перестановок генов или гомологичных областей. Различные операции разрешены для этих перестановок, такие как инверсия (сегмент перестановки переворачивается на месте), делеция (сегмент удаляется), транспозиция (сегмент удаляется из одной части перестановки и вставляется в другое место) или получение генетического содержания посредством рекомбинации , дупликации или горизонтального переноса генов . «Проблема перестройки генома», впервые поставленная Уоттерсоном и коллегами [17] , спрашивает: учитывая два генома (перестановки) и набор допустимых операций, какова кратчайшая последовательность операций, которая преобразует один геном в другой? Обобщением этой проблемы, применимым к реконструкции предков, является «задача множественной перестройки генома»: [79] учитывая набор геномов и набор допустимых операций, найти (i) бинарное дерево с заданными геномами в качестве его листьев, и (ii) назначение геномов внутренним узлам дерева, таким образом, чтобы общее число операций по всему дереву было минимальным. Этот подход похож на экономичность, за исключением того, что дерево выводится вместе с последовательностями предков. К сожалению, даже задача перестройки одного генома является NP-трудной , [80] хотя ей уделялось много внимания в математике и информатике (для обзора см. Fertin и коллеги [81] ).
Реконструкция геномов предков также называется реконструкцией кариотипа . В настоящее время основным экспериментальным методом является окраска хромосом. [82] [83] Недавно исследователи разработали вычислительные методы для реконструкции кариотипа предков, используя преимущества сравнительной геномики . [84] [85] Кроме того, сравнительная геномика и реконструкция генома предков применялись для идентификации древних событий горизонтального переноса генов у последнего общего предка линии (например, Candidatus Accumulibacter phosphatis [86] ) для определения эволюционной основы приобретения признаков.
Реконструкция предков не ограничивается биологическими признаками. Пространственное расположение также является признаком, и методы реконструкции предков могут вывести местоположение предков рассматриваемых особей. Такие методы были использованы Леми и коллегами [16] для географического отслеживания предков 192 штаммов птичьего гриппа A-H5N1, отобранных из двадцати мест в Европе и Азии, и для 101 последовательности вируса бешенства , отобранных из двенадцати африканских стран.
Рассмотрение местоположений как дискретных состояний (страны, города и т. д.) позволяет применять модели дискретных состояний, описанные выше. Однако, в отличие от модели, где пространство состояний для признака невелико, может быть много местоположений, и переходы между определенными парами состояний могут происходить редко или никогда не происходить; например, миграция между отдаленными местами может никогда не происходить напрямую, если между двумя местами не существует воздушного сообщения, поэтому такие миграции должны сначала проходить через промежуточные места. Это означает, что в модели может быть много параметров, которые равны нулю или близки к нулю. С этой целью Лемей и коллеги использовали байесовскую процедуру не только для оценки параметров и предковых состояний, но и для выбора параметров миграции, не равных нулю; их работа предполагает, что эта процедура приводит к более эффективному использованию данных. Они также изучают использование априорных распределений, которые включают географическую структуру или гипотезы о динамике миграции, обнаружив, что те, которые они рассматривали, не оказали большого влияния на результаты.
Используя этот анализ, команда вокруг Лемея обнаружила, что наиболее вероятным центром распространения A-H5N1 является Гуандун , а Гонконг также получает последующую поддержку. Кроме того, их результаты подтверждают гипотезу о давнем присутствии африканского бешенства в Западной Африке .
Выведение исторических биогеографических моделей часто требует реконструкции ареалов предков видов на филогенетических деревьях. [87] Например, хорошо решенная филогения видов растений в роде Cyrtandra [87] использовалась вместе с информацией об их географических ареалах для сравнения четырех методов реконструкции ареалов предков. Команда сравнила парсимонию Фитча, [20] (FP; парсимония) стохастическое картирование [88] (SM; максимальное правдоподобие), анализ дисперсии-викариантности [89] (DIVA; парсимония) и дисперсия-вымирание-кладогенез [15] [90] (DEC; максимальное правдоподобие). Результаты показали, что оба метода парсимонии работали плохо, что, вероятно, было связано с тем, что методы парсимонии не учитывают длины ветвей. Оба метода максимального правдоподобия работали лучше; однако анализы DEC, которые дополнительно позволяют включать геологические априорные данные, дали более реалистичные выводы об эволюции ареала в Cyrtandra по сравнению с другими методами. [87]
Другой метод максимального правдоподобия восстанавливает филогеографическую историю гена [91] путем реконструкции предковых местоположений выбранных таксонов. Этот метод предполагает пространственно явную модель случайного блуждания миграции для реконструкции предковых местоположений с учетом географических координат особей, представленных вершинами филогенетического дерева. При применении к филогенетическому дереву хоровых лягушек Pseudacris feriarum этот метод восстановил недавнюю экспансию на север, более высокое расстояние рассеивания на поколение в недавно колонизированном регионе, нецентральное предковое местоположение и направленную миграцию. [91]
Первое рассмотрение проблемы множественной перестройки генома, задолго до ее формализации в терминах перестановок, было представлено Стертевантом и Добжанским в 1936 году. [92] Они исследовали геномы нескольких штаммов плодовой мушки из разных географических мест и заметили, что одна конфигурация, которую они назвали «стандартной», была наиболее распространенной во всех изученных областях. Примечательно, что они также заметили, что четыре различных штамма можно получить из стандартной последовательности с помощью одной инверсии, а два других можно было связать с помощью второй инверсии. Это позволило им выдвинуть гипотезу о филогении последовательностей и сделать вывод, что стандартная последовательность, вероятно, также была предковой.
Реконструкции слов и феноменов древних протоязыков, таких как протоиндоевропейский, были выполнены на основе наблюдаемых аналогов в современных языках. Обычно эти анализы проводятся вручную с использованием «сравнительного метода». [93] Во-первых, слова из разных языков с общей этимологией ( когнаты ) идентифицируются в современных изучаемых языках, аналогично идентификации ортологичных биологических последовательностей. Во-вторых, идентифицируются соответствия между отдельными звуками в когнатах, шаг, аналогичный выравниванию биологических последовательностей , хотя и выполняется вручную. Наконец, вероятные предковые звуки предполагаются путем ручного осмотра и различных эвристик (например, тот факт, что большинство языков имеют как носовые, так и неносовые гласные ). [93]
Существует множество программных пакетов, которые могут выполнять реконструкцию предкового состояния. Как правило, эти программные пакеты разрабатываются и поддерживаются усилиями ученых в смежных областях и выпускаются по лицензиям свободного программного обеспечения . Следующая таблица не претендует на исчерпывающую детализацию всех доступных пакетов, но представляет собой репрезентативный пример обширного разнообразия пакетов, реализующих методы реконструкции предков с различными сильными сторонами и функциями.
Имя | Методы | Платформа | Входы | ! Типы персонажей | Непрерывные (C) или дискретные символы (D) | Лицензия на программное обеспечение |
---|---|---|---|---|---|---|
ПАМЛ | Максимальное Правдоподобие | Unix, Mac, Винда | ФИЛИПП, НЕКСУС, ФАСТ | Нуклеотид, Белок | Д | Стандартная общественная лицензия GNU , версия 3 |
ЗВЕРЬ | байесовский | Unix, Mac, Винда | NEXUS, ЗВЕРЬ XML | Нуклеотид, Белок, Географический | С, Д | Стандартная общественная лицензия ограниченного применения GNU |
фитоинструменты | Максимальное Правдоподобие | Unix, Mac, Винда | newick, нексус | Качественные и количественные признаки | С, Д | Стандартная общественная лицензия GNU |
Обезьяна | Максимальное Правдоподобие | Unix, Mac, Винда | НЕКСУС, ФАСТ, КЛУСТАЛ | Нуклеотид, Белок | С, Д | Стандартная общественная лицензия GNU |
Diversitree | Максимальное Правдоподобие | Unix, Mac, Винда | НЕКСУС | Качественные и количественные признаки, Географические | С, Д | Стандартная общественная лицензия GNU, версия 2 |
ХайФи | Максимальное Правдоподобие | Unix, Mac, Винда | МЕГА, НЕКСУС, ФАСТА, ФИЛИПП | Нуклеотид, Белок (настраиваемый) | Д | Лицензия свободной документации GNU 1.3 |
БайесХарактеристики | байесовский | Unix, Mac, Винда | TSV или таблица с разделителями-пробелами. Строки — виды, столбцы — признаки. | Качественные и количественные признаки | С, Д | Лицензия Creative Commons Attribution |
Лагранж | Максимальное Правдоподобие | Linux, Mac, Винда | TSV/CSV видов регионов. Строки — виды, столбцы — географические регионы. | Географический | - | Стандартная общественная лицензия GNU, версия 2 |
Мескит | Экономия, максимальное правдоподобие | Unix, Mac, Винда | Фаста, НБРФ, Генбанк, PHYLIP, CLUSTAL, ТСВ | Нуклеотид, Белок, Географический | С, Д | Лицензия Creative Commons Attribution 3.0 |
Филомаппер | Максимальное правдоподобие, байесовский (начиная с версии 2) | Unix, Mac, Винда | НЕКСУС | Географическая, Экологическая ниша | С, Д | - |
Предки | Максимальное Правдоподобие | Веб | Фаста | Нуклеотид (инделы) | Д | - |
Фирекс | Максимальная бережливость | линукс | Фаста | Экспрессия генов | С, Д | Запатентованный |
SIMMAP | Стохастическое картирование | Мак | Формат, подобный XML | Нуклеотид, качественные признаки | Д | Запатентованный |
MrBayes | байесовский | Unix, Mac, Винда | НЕКСУС | Нуклеотид, Белок | Д | Стандартная общественная лицензия GNU |
ПАРАНА | Максимальная бережливость | Unix, Mac, Винда | Ньюик | Биологические сети | Д | Лицензия Apache |
ФАСТ (ПРИКВЕЛ) | Максимальное Правдоподобие | Unix, Mac, Винда | Множественное выравнивание | Нуклеотид | Д | Лицензия BSD |
РАСП | Максимальное правдоподобие, байесовский | Unix, Mac, Винда | Ньюик | Географический | Д | - |
ВИП | Максимальная бережливость | Linux, Вин | Ньюик | Географический | D (сетка) | GPL Творческие общие права |
FastML | Максимальное Правдоподобие | Веб, Unix | Фаста | Нуклеотид, Белок | Д | Авторские права |
МЛГО | Максимальная вероятность | Веб | Обычай | Перестановка порядка генов | Д | ГНУ |
БАРСУК | байесовский | Unix, Mac, Винда | Обычай | Перестановка порядка генов | Д | GNU GPL версия 2 |
СЧИТАТЬ | Максимальная экономия, максимальное правдоподобие | Unix, Mac, Винда | Текстовый файл с разделителями-табуляциями, содержащий строки для таксонов и данные по количеству в столбцах. | Подсчет (численные) данные (например, размер семейства гомологов) | Д | БСД |
МЕГА | Максимальная экономия, максимальная правдоподобность. | Мак, Вин | МЕГА | Нуклеотид, Белок | Д | Запатентованный |
АНЖЕС | Местная бережливость | Unix | Обычай | Карты генома | Д | Стандартная общественная лицензия GNU, версия 3 |
РАСШИФРОВАТЬ | Максимальное Правдоподобие | Unix, Mac, Винда | FASTA, ГенБанк | Нуклеотид | Д | Стандартная общественная лицензия GNU, версия 3 |
ЕРЭМ | Максимальная вероятность. | Win, Unix, модуль Matlab | Пользовательский текстовый формат для параметров модели, дерева, наблюдаемых значений символов. | Двоичный | Д | Не указано, хотя на сайте указано, что программное обеспечение доступно бесплатно. |
Большинство этих программных пакетов предназначены для анализа данных генетических последовательностей. Например, PAML [94] представляет собой набор программ для филогенетического анализа выравниваний последовательностей ДНК и белков по максимальному правдоподобию. Реконструкция предков может быть выполнена с помощью программы codeml . Кроме того, LAZARUS представляет собой набор скриптов Python , которые оборачивают функции реконструкции предков PAML для пакетной обработки и большей простоты использования. [95] Такие программные пакеты, как MEGA , HyPhy и Mesquite, также выполняют филогенетический анализ данных последовательностей, но разработаны так, чтобы быть более модульными и настраиваемыми. HyPhy [96] реализует совместный метод максимального правдоподобия реконструкции предковой последовательности [7], который можно легко адаптировать для реконструкции более обобщенного диапазона дискретных состояний предковых признаков, таких как географические местоположения, путем указания настраиваемой модели в его пакетном языке. Mesquite [97] предоставляет методы реконструкции состояния предков как для дискретных, так и для непрерывных признаков, используя как методы максимальной экономии, так и методы максимального правдоподобия. Он также предоставляет несколько инструментов визуализации для интерпретации результатов реконструкции предков. MEGA [98] также является модульной системой, но делает больший упор на простоту использования, чем на настройку анализов. Начиная с версии 5, MEGA позволяет пользователю реконструировать состояния предков, используя методы максимальной экономии, максимального правдоподобия и эмпирические методы Байеса. [98]
Байесовский анализ генетических последовательностей может придать большую надежность неверной спецификации модели. MrBayes [99] позволяет делать выводы о предковых состояниях в предковых узлах, используя полный иерархический байесовский подход. Программа PREQUEL, распространяемая в пакете PHAST [100], выполняет сравнительную эволюционную геномику, используя реконструкцию предковой последовательности. SIMMAP [101] стохастически отображает мутации в филогениях. BayesTraits [31] анализирует дискретные или непрерывные признаки в байесовской структуре для оценки моделей эволюции, реконструкции предковых состояний и обнаружения коррелированной эволюции между парами признаков.
Другие программные пакеты больше ориентированы на анализ качественных и количественных признаков ( фенотипов ). Например, пакет ape [102] в статистической вычислительной среде R также предоставляет методы реконструкции предкового состояния как для дискретных, так и для непрерывных признаков через функцию ' ace ', включая максимальное правдоподобие. Phyrex реализует алгоритм на основе максимальной экономии для реконструкции профилей экспрессии предковых генов, в дополнение к методу максимального правдоподобия для реконструкции предковых генетических последовательностей (путем обертывания вокруг функции baseml в PAML). [103]
Несколько программных пакетов также реконструируют филогеографию . BEAST (байесовский эволюционный анализ с помощью деревьев выборки) [104] и BEAST 2 предоставляют инструменты для реконструкции предковых географических местоположений из наблюдаемых последовательностей, аннотированных данными о местоположении, с использованием байесовских методов выборки MCMC . Diversitree [105] — это пакет R, предоставляющий методы для реконструкции предкового состояния в соответствии с моделями Mk2 ( непрерывная марковская модель эволюции бинарных признаков) [106] и BiSSE (бинарное состояние видообразования и вымирания). Lagrange выполняет анализы по реконструкции эволюции географического ареала на филогенетических деревьях. [15] Phylomapper [91] — это статистическая структура для оценки исторических закономерностей потока генов и предковых географических местоположений. RASP [107] выводит предковые состояния с помощью статистического анализа дисперсии-викариантности, методов Лагранжа, Байеса-Лагранжа, BayArea и BBM. VIP [108] выводит историческую биогеографию, исследуя разрозненные географические распределения.
Перестройки генома предоставляют ценную информацию в сравнительной геномике между видами. ANGES [109] сравнивает существующие родственные геномы посредством реконструкции предков генетических маркеров. BADGER [110] использует байесовский подход к изучению истории перестройки генов. Count [111] реконструирует эволюцию размера семейств генов. EREM [112] анализирует приобретение и потерю генетических признаков, кодируемых бинарными символами. PARANA [113] выполняет вывод на основе экономии предковых биологических сетей, которые представляют потерю и дупликацию генов.
Наконец, существует несколько приложений на основе веб-сервера, которые позволяют исследователям использовать методы максимального правдоподобия для реконструкции предков различных типов признаков без необходимости установки какого-либо программного обеспечения. Например, Ancestors [114] — это веб-сервер для реконструкции генома предков путем идентификации и расположения синтенных регионов. FastML [115] — это веб-сервер для вероятностной реконструкции последовательностей предков методом максимального правдоподобия, который использует модель пробельных признаков для реконструкции вариации инделей . MLGO [116] — это веб-сервер для анализа порядка генов с максимальным правдоподобием.
Разработка и применение вычислительных алгоритмов для реконструкции предков продолжает оставаться активной областью исследований в различных дисциплинах. Например, реконструкция вставок и делеций последовательностей (инделей) отстает от более простого применения моделей замещения. Бушар-Коте и Джордан недавно описали новую модель (процесс Пуассона-инделей) [117] , которая представляет собой важный шаг вперед по сравнению с архетипической моделью эволюции инделей Торна-Кишино-Фельзенштейна. [118] Кроме того, эта область продвигается вперед благодаря быстрому прогрессу в области технологии секвенирования следующего поколения , где последовательности генерируются из миллионов шаблонов нуклеиновых кислот путем обширного распараллеливания реакций секвенирования в специальном аппарате. Эти достижения позволили создать «глубокий» снимок генетического состава быстро эволюционирующей популяции, такой как РНК-вирусы [119] или опухолевые клетки [120] за относительно короткий промежуток времени. В то же время огромный объем данных и специфичные для платформы профили ошибок секвенирования создали новые биоинформационные проблемы при обработке этих данных для реконструкции предковых последовательностей.
Эта статья была адаптирована из следующего источника по лицензии CC BY 4.0 (2015) (отчеты рецензента): Jeffrey B Joy; Richard H Liang; Rosemary M McCloskey; T Nguyen; Art Poon (12 июля 2016 г.). "Ancestral Reconstruction". PLOS Computational Biology . 12 (7): e1004763. doi : 10.1371/JOURNAL.PCBI.1004763 . ISSN 1553-734X. PMC 4942178. PMID 27404731. Wikidata Q28596371 .
Компьютерная программа и руководство доступны на анонимном FTP из Uppsala University[ постоянная мертвая ссылка ]