Геномный скимминг — это подход к секвенированию, который использует низкочастотное, поверхностное секвенирование генома (до 5%) для создания фрагментов ДНК, известных как геномные скиммы . [1] [2] Эти геномные скиммы содержат информацию о высококопийной фракции генома. [2] Высококопийная фракция генома состоит из рибосомальной ДНК , пластидного генома ( пластома ), митохондриального генома ( митогенома ) и ядерных повторов, таких как микросателлиты и мобильные элементы . [3] Для создания этих скиммов используется высокопроизводительная технология секвенирования следующего поколения . [1] Хотя эти скиммы являются всего лишь «верхушкой геномного айсберга», их филогенетический анализ все еще может дать представление об эволюционной истории и биоразнообразии при меньших затратах и в большем масштабе, чем традиционные методы. [2] [3] [4] Из-за небольшого количества ДНК, необходимого для геномного скимминга, его методология может применяться и в других областях, помимо геномики. Такие задачи включают определение прослеживаемости продуктов в пищевой промышленности, обеспечение соблюдения международных правил в отношении биоразнообразия и биологических ресурсов, а также судебно-медицинскую экспертизу . [5]
В дополнение к сборке меньших органеллярных геномов, геномный скимминг может также использоваться для обнаружения консервативных ортологичных последовательностей для филогеномных исследований . В филогеномных исследованиях многоклеточных патогенов геномный скимминг может использоваться для поиска эффекторных генов , обнаружения эндосимбионтов и характеристики геномной изменчивости . [6]
Внутренние транскрибируемые спейсеры (ITS) представляют собой некодирующие области в пределах 18-5.8-28S рДНК у эукариот и являются одной из особенностей рДНК, которая использовалась в исследованиях по скиммингу генома. [7] ITS используются для обнаружения различных видов в пределах рода из-за их высокой межвидовой изменчивости. [7] Они имеют низкую индивидуальную изменчивость, что не позволяет идентифицировать отдельные штаммы или особи. [7] Они также присутствуют у всех эукариот , имеют высокую скорость эволюции и использовались в филогенетическом анализе между видами и между ними. [7]
При нацеливании на ядерную рДНК предполагается, что минимальная конечная глубина секвенирования составляет 100X, а последовательности с глубиной менее 5X маскируются. [1]
Геном пластиды , или пластом, широко использовался в идентификационных и эволюционных исследованиях с использованием геномного скимминга из-за его высокой распространенности в растениях (~3-5% клеточной ДНК), небольшого размера, простой структуры, большей сохранности структуры гена, чем ядерные или митохондриальные гены. [8] [9] Исследования пластид ранее были ограничены количеством регионов, которые можно было оценить в традиционных подходах. [9] Используя геномный скимминг, секвенирование всего генома пластиды, или пластома, может быть выполнено за часть стоимости и времени, необходимых для типичных подходов секвенирования, таких как секвенирование по Сэнгеру . [3] Пластомы были предложены в качестве метода замены традиционных ДНК-штрихкодов в растениях, [3] таких как гены штрихкодов rbcL и matK . По сравнению с типичным ДНК-штрихкодом, геномный скимминг производит пластомы за десятую часть стоимости за основание. [5] Недавнее использование геномных срезов пластомов позволило лучше определить филогении, более точно дифференцировать определенные группы внутри таксонов и более точно оценить биоразнообразие. [9] Кроме того, пластом использовался для сравнения видов внутри рода, чтобы изучить эволюционные изменения и разнообразие внутри группы. [9]
При нацеливании на пластомы предполагается, что минимальная конечная глубина секвенирования 30X достигается для областей с одной копией, чтобы гарантировать высококачественные сборки. Полиморфизмы отдельных нуклеотидов (SNP) с глубиной менее 20X должны быть замаскированы. [1]
Митохондриальный геном , или митогеном, используется в качестве молекулярного маркера в самых разных исследованиях из-за его материнской наследственности , высокого числа копий в клетке, отсутствия рекомбинации и высокой скорости мутаций. Он часто используется для филогенетических исследований, поскольку он очень однороден во всех группах метазоа, с кольцевой двухцепочечной структурой молекулы ДНК, около 15-20 килобаз, с 37 генами рибосомальной РНК, 13 генами, кодирующими белок, и 22 генами транспортной РНК. Последовательности митохондриального штрихкода, такие как COI, NADH2 , 16S рРНК и 12S рРНК , также могут использоваться для таксономической идентификации. [10] Увеличение публикации полных митогеномов позволяет делать выводы о надежных филогениях во многих таксономических группах, и он может фиксировать такие события, как перестройки генов и позиционирование мобильных генетических элементов. Используя геномный скимминг для сборки полных митогеномов, можно раскрыть филогенетическую историю и биоразнообразие многих организмов. [4]
При нацеливании на митогеномы нет конкретных рекомендаций по минимальной конечной глубине секвенирования, поскольку митогеномы более изменчивы по размеру и более изменчивы по сложности в видах растений, что увеличивает сложность сборки повторяющихся последовательностей. Однако высококонсервативные кодирующие последовательности и неповторяющиеся фланкирующие области могут быть собраны с использованием референс-ориентированной сборки . Последовательности должны быть замаскированы аналогично нацеливанию на пластомы и ядерную рибосомальную ДНК. [1]
Ядерные повторы в геноме являются недостаточно используемым источником филогенетических данных. Когда ядерный геном секвенируется на уровне 5% генома, будут присутствовать тысячи копий ядерных повторов. Хотя секвенированные повторы будут репрезентативны только для тех, что есть во всем геноме, было показано, что эти секвенированные фракции точно отражают геномное изобилие. Эти повторы могут быть сгруппированы de novo , и их изобилие оценивается. Распределение и встречаемость этих типов повторов могут быть филогенетически информативными и предоставлять информацию об эволюционной истории различных видов. [1]
Низкокопийная ДНК может оказаться полезной для эволюционных исследований развития и филогенетических исследований. [11] Ее можно добыть из высококопийных фракций несколькими способами, такими как разработка праймеров из баз данных, содержащих консервативные ортологичные гены , однокопийные консервативные ортологичные гены и гены с общими копиями. [11] Другой метод заключается в поиске новых зондов, нацеленных на низкокопийные гены, с использованием транскриптомики через Hyb-Seq. [11] В то время как ядерные геномы, собранные с помощью геномных скимов, чрезвычайно фрагментированы, некоторые низкокопийные однокопийные ядерные гены могут быть успешно собраны. [12]
Предыдущие методы попытки восстановить деградированную ДНК основывались на секвенировании по Сэнгеру и полагались на большие неповрежденные шаблоны ДНК и были подвержены влиянию загрязнения и метода консервации. С другой стороны, геномный скимминг может быть использован для извлечения генетической информации из сохраненных видов в гербариях и музеях, где ДНК часто сильно деградирует, и от нее остается очень мало. [4] [13] Исследования на растениях показывают, что ДНК возрастом до 80 лет и с всего лишь 500 пг деградированной ДНК может быть использована с геномным скиммингом для выведения геномной информации. [13] В гербариях , даже с низким выходом и низкокачественной ДНК, одно исследование все еще могло производить «высококачественные полные последовательности хлоропластной и рибосомной ДНК» в больших масштабах для последующих анализов. [14]
В полевых исследованиях беспозвоночные хранятся в этаноле, который обычно выбрасывается во время исследований на основе ДНК. [15] Было показано, что геномный скимминг позволяет обнаружить низкое количество ДНК из этой фракции этанола и предоставить информацию о биомассе образцов во фракции, микробиоте внешних слоев тканей и содержимом кишечника (например, добыче), высвобождаемом рвотным рефлексом. [15] Таким образом, геномный скимминг может предоставить дополнительный метод понимания экологии с помощью низкокопийной ДНК. [15]
Протоколы извлечения ДНК будут различаться в зависимости от источника образца (т.е. растения, животные и т.д.). Следующие протоколы извлечения ДНК использовались при геномном скимминге:
Растения
| Другой
|
Протоколы подготовки библиотеки будут зависеть от множества факторов: организма, типа ткани и т. д. В случае консервированных образцов могут потребоваться определенные изменения протоколов подготовки библиотеки. [1] Следующие протоколы подготовки библиотеки использовались при геномном скимминге:
Секвенирование с короткими или длинными прочтениями будет зависеть от целевого генома или генов. Микросателлиты в ядерных повторах требуют более длинных прочтений. [23] Следующие платформы секвенирования использовались при геномном скимминге:
Платформа Illumina MiSeq была выбрана некоторыми исследователями из-за ее большой длины считывания для коротких считываний. [6]
После геномного скимминга высококопийная органеллярная ДНК может быть собрана с помощью справочного руководства или собрана de novo . Высококопийные ядерные повторы могут быть сгруппированы de novo . [1] Выбор ассемблеров будет зависеть от целевого генома и от того, используются ли короткие или длинные риды. Для сборки геномов из геномных скиммов использовались следующие инструменты:
Пластомы
| Митогеномы
|
Аннотация используется для идентификации генов в геномных сборках. Выбор инструмента аннотации будет зависеть от целевого генома и целевых характеристик этого генома. Следующие инструменты аннотации использовались при геномном скимминге для аннотации органелларных геномов:
Пластомы
| Митогеномы
| тРНК
| рРНК
|
|
|
Собранные последовательности глобально выравниваются , а затем филогенетические деревья выводятся с использованием программного обеспечения для филогенетической реконструкции. Программное обеспечение, выбранное для реконструкции филогении, будет зависеть от того, подходит ли метод максимального правдоподобия (ML) , максимальной экономии (MP) или байесовского вывода (BI) . Следующие программы филогенетической реконструкции использовались при геномном скимминге:
Максимальное правдоподобие (ML)
| Максимальная бережливость (MP)
| Байесовский вывод (БВ)
| Другой
|
Разработаны различные протоколы, конвейеры и биоинформационные инструменты, помогающие автоматизировать последующие процессы анализа генома.
Hyb-Seq — это новый протокол для захвата низкокопийных ядерных генов, который сочетает целевое обогащение и геномный скимминг. [29] Целевое обогащение низкокопийных локусов достигается с помощью разработанных зондов обогащения для определенных однокопийных экзонов, но требует ядерного проекта генома и транскриптома целевого организма. Затем библиотеки, обогащенные целевыми генами, секвенируются, а полученные считывания обрабатываются, собираются и идентифицируются. Используя нецелевые считывания, также можно собирать цистроны рДНК и полные пластомы. Благодаря этому процессу Hyb-Seq может производить наборы данных в масштабе генома для филогеномики .
GetOrganelle — это набор инструментов, который собирает геномы органелл, используя чтения геномного скимминга. [30] Чтения, связанные с органеллами, набираются с использованием модифицированного подхода «приманки и итеративного картирования». Чтения, выравнивающиеся с целевым геномом с помощью Bowtie2, [31] называются «затравочными чтениями». Затравочные чтения используются в качестве «приманок» для набора большего количества чтений, связанных с органеллами, с помощью нескольких итераций расширения. Алгоритм расширения чтения использует подход хеширования , при котором чтения разрезаются на подстроки определенной длины, называемые «словами». На каждой итерации расширения эти «слова» добавляются в хеш-таблицу , называемую «пулом приманок», которая динамически увеличивается в размере с каждой итерацией. Из-за низкого покрытия секвенирования геномных скиммов нецелевые чтения, даже те, которые имеют высокое сходство последовательностей с целевыми чтениями, в основном не набираются. Используя окончательно собранные органелларные считывания, GetOrganelle проводит сборку de novo с использованием SPAdes . [32] Граф сборки фильтруется и распутывается, создавая все возможные пути графа и, следовательно, все конфигурации кольцевых органелларных геномов.
Skmer — это инструмент без сборки и выравнивания для вычисления геномных расстояний между запрашиваемым и референтным геномными скиммами. [33] Skmer использует двухэтапный подход для вычисления этих расстояний. Сначала он генерирует частотное профилирование k-меров с помощью инструмента под названием JellyFish [34], а затем эти k-меры преобразуются в хэши. [33] Случайное подмножество этих хэшей выбирается для формирования так называемого «скетча». [33] На втором этапе Skmer использует Mash [35] для оценки индекса Жаккара двух из этих скетчей. [33] Комбинация этих двух этапов используется для оценки эволюционного расстояния. [33]
Geneious — это интегративная программная платформа, которая позволяет пользователям выполнять различные этапы биоинформатического анализа, такие как сборка , выравнивание и филогенетика, путем включения других инструментов в платформу на основе графического пользовательского интерфейса. [18] [28]
PhyloHerb — это биоинформационный конвейер, написанный на Python . Он использует встроенную базу данных или указанную пользователем ссылку для извлечения ортологичных последовательностей из пластидных , митохондриальных и ядерных рибосомных регионов с использованием поиска BLAST. [36]
Хотя геномный скимминг обычно выбирается как экономически эффективный метод секвенирования органеллярных геномов, геномный скимминг может быть выполнен in silico, если уже получены (глубокие) данные секвенирования всего генома. Было показано, что геномный скимминг упрощает сборку органеллярного генома путем подвыборки прочтений ядерного генома с помощью геномного скимминга in silico . [37] [38] Поскольку органеллярные геномы будут иметь высокую копийность в клетке, геномный скимминг in silico по существу отфильтровывает ядерные последовательности, оставляя более высокое соотношение органеллярных и ядерных последовательностей для сборки, что снижает сложность парадигмы сборки. Геномный скимминг in silico был впервые выполнен в качестве доказательства концепции, оптимизируя параметры для типа прочтения, длины прочтения и покрытия секвенирования. [1]
Помимо текущих применений, перечисленных выше, геномный скимминг также применялся для других задач, таких как количественная оценка смесей пыльцы, [19] мониторинг и сохранение определенных популяций. [39] Геномный скимминг также может использоваться для вызова вариантов, чтобы исследовать полиморфизмы отдельных нуклеотидов у видов. [22]
Геномный скимминг — это экономически эффективный, быстрый и надежный метод создания больших неглубоких наборов данных, [5] поскольку за один запуск генерируется несколько наборов данных (пластидных, митохондриальных, ядерных). [3] Он очень прост в реализации, требует меньше лабораторной работы и оптимизации и не требует априорных знаний об организме или размере его генома. [3] Это обеспечивает малорискованный путь для биологических исследований и генерации гипотез без огромных затрат ресурсов. [6]
Геномный скимминг является особенно выгодным подходом в случаях, когда геномная ДНК может быть старой и деградированной из-за химической обработки, например, образцы из гербариев и музейных коллекций, [4] в значительной степени неиспользованный геномный ресурс. Геномный скимминг позволяет проводить молекулярную характеристику редких или вымерших видов. [5] Процессы консервации в этаноле часто повреждают геномную ДНК, что препятствует успеху стандартных протоколов ПЦР [3] и других подходов, основанных на ампликонах. [5] Это дает возможность секвенировать образцы с очень низкими концентрациями ДНК, без необходимости обогащения ДНК или амплификации. Было показано, что подготовка библиотеки для специфического геномного скимминга работает с всего лишь 37 нг ДНК (0,2 нг/мкл), что в 135 раз меньше, чем рекомендовано Illumina. [1]
Хотя геномный скимминг в основном используется для извлечения высококопийных пластомов и митогеномов, он также может предоставить частичные последовательности низкокопийных ядерных последовательностей. Эти последовательности могут быть недостаточно полными для филогеномного анализа, но могут быть достаточными для разработки праймеров и зондов ПЦР для подходов, основанных на гибридизации. [1]
Геномный скимминг не зависит от каких-либо конкретных праймеров и не подвержен перестройкам генов. [4]
Геномный скимминг царапает поверхность генома, поэтому его будет недостаточно для биологических вопросов, требующих предсказания генов и аннотации. [6] Эти последующие шаги необходимы для глубокого и более содержательного анализа.
Хотя пластидные геномные последовательности широко представлены в геномных срезах, присутствие митохондриальных и ядерных псевдогенов пластидного происхождения может потенциально создавать проблемы для сборки пластома. [1]
Сочетание глубины секвенирования и типа считывания, а также геномной цели (пластом, митогеном и т. д.) будет влиять на успешность одноконцевых и парноконцевых сборок, поэтому эти параметры необходимо выбирать тщательно. [1]
Как лабораторная, так и биоинформатическая части геномного скимминга имеют определенные проблемы с масштабируемостью. Хотя стоимость секвенирования при геномном скимминге была доступной и составляла $80 за 1 Гб в 2016 году, подготовка библиотеки для секвенирования по-прежнему очень дорогая, не менее ~$200 за образец (по состоянию на 2016 год). Кроме того, большинство протоколов подготовки библиотеки еще не полностью автоматизированы с помощью робототехники. Что касается биоинформатики, необходимо разработать большие сложные базы данных и автоматизированные рабочие процессы для обработки больших объемов данных, полученных в результате геномного скимминга. Необходимо реализовать автоматизацию следующих процессов: [40]
Некоторые из этих задач масштабируемости уже реализованы, как показано выше в разделе «Инструменты и конвейеры».
{{cite book}}
: |last=
имеет общее название ( помощь )CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )