ChIP-секвенирование , также известное как ChIP-seq , — это метод, используемый для анализа взаимодействия белков с ДНК . ChIP-seq сочетает иммунопреципитацию хроматина (ChIP) с массивным параллельным секвенированием ДНК для идентификации участков связывания ДНК-ассоциированных белков. Его можно использовать для точного картирования глобальных участков связывания для любого интересующего белка. Ранее ChIP-on-chip был наиболее распространенным методом, используемым для изучения этих взаимоотношений белок–ДНК.
ChIP-seq в первую очередь используется для определения того, как факторы транскрипции и другие хроматин-ассоциированные белки влияют на механизмы, влияющие на фенотип . Определение того, как белки взаимодействуют с ДНК для регулирования экспрессии генов , необходимо для полного понимания многих биологических процессов и болезненных состояний. Эта эпигенетическая информация дополняет анализ генотипа и экспрессии. Технология ChIP-seq в настоящее время рассматривается в первую очередь как альтернатива ChIP-chip , который требует массива гибридизации . Это вносит некоторую предвзятость, поскольку массив ограничен фиксированным числом зондов. Секвенирование, напротив, считается менее предвзятым, хотя смещение секвенирования различных технологий секвенирования еще не полностью изучено. [1]
Конкретные участки ДНК, находящиеся в прямом физическом взаимодействии с факторами транскрипции и другими белками, могут быть выделены с помощью иммунопреципитации хроматина . ChIP создает библиотеку целевых участков ДНК, связанных с интересующим белком. Массовые параллельные анализы последовательностей используются в сочетании с базами данных последовательностей всего генома для анализа паттерна взаимодействия любого белка с ДНК [2] или паттерна любых эпигенетических модификаций хроматина . Это может быть применено к набору белков и модификаций, поддающихся ChIP, таких как факторы транскрипции, полимеразы и транскрипционные механизмы , структурные белки , модификации белков и модификации ДНК. [3] В качестве альтернативы зависимости от специфических антител были разработаны различные методы для поиска надмножества всех истощенных или нарушенных нуклеосомами активных регуляторных областей в геноме, таких как DNase-Seq [4] и FAIRE-Seq . [5] [6]
ChIP — это мощный метод селективного обогащения последовательностей ДНК, связанных с определенным белком в живых клетках . Однако широкое использование этого метода было ограничено отсутствием достаточно надежного метода для идентификации всех обогащенных последовательностей ДНК. Протокол ChIP wet lab содержит ChIP и гибридизацию. По сути, протокол ChIP состоит из пяти частей [7] , которые помогают лучше понять общий процесс ChIP. Для выполнения ChIP первым шагом является сшивание [8] с использованием формальдегида и больших партий ДНК для получения полезного количества. Сшивание осуществляется между белком и ДНК, а также между РНК и другими белками. Вторым шагом является процесс фрагментации хроматина, который разбивает хроматин для получения высококачественных фрагментов ДНК для анализа ChIP в конечном итоге. Эти фрагменты должны быть разрезаны так, чтобы каждый стал менее 500 пар оснований [9] , чтобы получить наилучший результат для картирования генома. Третий шаг называется иммунопреципитацией хроматина [7] , что является сокращением от ChIP. Процесс ChIP усиливает специфические сшитые комплексы ДНК-белок с использованием антитела против интересующего белка с последующей инкубацией и центрифугированием для получения иммунопреципитации. Шаг иммунопреципитации также позволяет удалить неспецифические сайты связывания. Четвертый шаг - восстановление и очистка ДНК, [7] происходящие путем обратного эффекта на сшивку между ДНК и белком для их разделения и очистки ДНК с помощью экстракции. Пятый и последний шаг - это шаг анализа протокола ChIP с помощью процесса qPCR , ChIP-on-chip (гибридный массив) или секвенирования ChIP. Затем олигонуклеотидные адаптеры добавляются к небольшим участкам ДНК, которые были связаны с интересующим белком, чтобы обеспечить массовое параллельное секвенирование . С помощью анализа последовательности затем могут быть идентифицированы и интерпретированы по гену или области, с которой был связан белок. [7]
После выбора размера все полученные фрагменты ChIP-DNA секвенируются одновременно с использованием геномного секвенатора. Один запуск секвенирования может сканировать геномные ассоциации с высоким разрешением, что означает, что признаки могут быть локализованы точно на хромосомах. ChIP-chip, напротив, требует больших наборов мозаичных массивов для более низкого разрешения. [10]
На этом этапе секвенирования используется много новых методов секвенирования . Некоторые технологии, анализирующие последовательности, могут использовать кластерную амплификацию фрагментов ChIP ДНК, лигированных адаптером, на твердом субстрате проточной ячейки для создания кластеров примерно из 1000 клонированных копий каждый. Полученный массив кластеров шаблонов высокой плотности на поверхности проточной ячейки секвенируется программой анализа генома. Каждый кластер шаблонов параллельно подвергается секвенированию-синтезу с использованием новых флуоресцентно меченых обратимых терминаторных нуклеотидов. Шаблоны секвенируются основание за основанием во время каждого считывания. Затем программное обеспечение для сбора и анализа данных выравнивает последовательности образцов с известной геномной последовательностью для идентификации фрагментов ChIP-ДНК. [ необходима цитата ]
ChIP-seq предлагает нам быстрый анализ, однако необходимо провести контроль качества, чтобы убедиться в надежности полученных результатов:
Чувствительность этой технологии зависит от глубины выполнения секвенирования (т. е. количества картированных тегов последовательности), размера генома и распределения целевого фактора. Глубина секвенирования напрямую коррелирует со стоимостью. Если обильные связующие вещества в больших геномах должны быть картированы с высокой чувствительностью, затраты высоки, поскольку потребуется чрезвычайно большое количество тегов последовательности. Это контрастирует с ChIP-chip, в котором затраты не коррелируют с чувствительностью. [12] [13]
В отличие от методов ChIP на основе микрочипов , точность анализа ChIP-seq не ограничивается расстоянием между предопределенными зондами. Интегрируя большое количество коротких прочтений, достигается высокоточная локализация сайта связывания. По сравнению с ChIP-chip, данные ChIP-seq могут быть использованы для определения местоположения сайта связывания в пределах нескольких десятков пар оснований от фактического сайта связывания белка. Плотность меток в сайтах связывания является хорошим индикатором сродства связывания белка с ДНК [14] , что упрощает количественную оценку и сравнение сродства связывания белка с различными сайтами ДНК. [15]
Ассоциация ДНК STAT1: ChIP-seq использовался для изучения мишеней STAT1 в клетках HeLa S3, которые являются клонами линии HeLa, используемых для анализа популяций клеток. [16] Затем эффективность ChIP-seq сравнивалась с альтернативными методами взаимодействия белка с ДНК ChIP-PCR и ChIP-chip. [17]
Нуклеосомная архитектура промоторов: с помощью ChIP-seq было установлено, что гены дрожжей, по-видимому, имеют минимальную свободную от нуклеосом промоторную область размером 150 п.н., в которой РНК-полимераза может инициировать транскрипцию. [18]
Консервация транскрипционных факторов: ChIP-seq использовался для сравнения консервации ТФ в переднем мозге и сердечной ткани у эмбриональных мышей. Авторы идентифицировали и подтвердили сердечную функциональность транскрипционных усилителей и определили, что транскрипционные усилители для сердца менее консервативны, чем для переднего мозга на той же стадии развития. [19]
Геномное ChIP-seq: ChIP-секвенирование было завершено на черве C. elegans для изучения сайтов связывания 22 факторов транскрипции по всему геному. До 20% аннотированных генов-кандидатов были отнесены к факторам транскрипции. Несколько факторов транскрипции были отнесены к некодирующим РНК-областям и могут зависеть от переменных развития или окружающей среды. Функции некоторых факторов транскрипции также были идентифицированы. Некоторые факторы транскрипции регулируют гены, которые контролируют другие факторы транскрипции. Эти гены не регулируются другими факторами. Большинство факторов транскрипции служат как мишенями, так и регуляторами других факторов, демонстрируя сеть регуляции. [20]
Вывод регуляторной сети: было показано, что сигнал ChIP-seq модификации гистонов в большей степени коррелирует с мотивами факторов транскрипции на промоторах по сравнению с уровнем РНК. [21] Поэтому автор предположил, что использование модификации гистонов ChIP-seq обеспечит более надежный вывод сетей регуляции генов по сравнению с другими методами, основанными на экспрессии.
ChIP-seq предлагает альтернативу ChIP-chip. Экспериментальные данные STAT1 ChIP-seq имеют высокую степень сходства с результатами, полученными ChIP-chip для того же типа эксперимента, с более чем 64% пиков в общих геномных регионах. Поскольку данные являются прочтениями последовательностей, ChIP-seq предлагает быстрый аналитический конвейер, пока доступна высококачественная последовательность генома для картирования прочтений, и геном не имеет повторяющегося содержимого, которое запутывает процесс картирования. ChIP-seq также имеет потенциал для обнаружения мутаций в последовательностях сайтов связывания, что может напрямую подтверждать любые наблюдаемые изменения в связывании белков и регуляции генов.
Как и многие высокопроизводительные подходы к секвенированию, ChIP-seq генерирует чрезвычайно большие наборы данных, для которых требуются соответствующие методы вычислительного анализа. Для прогнозирования сайтов связывания ДНК из данных подсчета прочтений ChIP-seq были разработаны методы вызова пиков . Одним из самых популярных методов [ требуется ссылка ] является MACS, который эмпирически моделирует размер сдвига тегов ChIP-Seq и использует его для улучшения пространственного разрешения предсказанных сайтов связывания. [22] MACS оптимизирован для пиков с более высоким разрешением, в то время как другой популярный алгоритм, SICER, запрограммирован на вызов более широких пиков, охватывающих от килобаз до мегабаз, чтобы искать более широкие домены хроматина. SICER более полезен для гистоновых меток, охватывающих тела генов. Математически более строгий метод BCP (Bayesian Change Point) может использоваться как для острых, так и для широких пиков с более высокой скоростью вычислений, [23] см. сравнительное исследование инструментов вызова пиков ChIP-seq Томаса и др. (2017). [24]
Другой важной вычислительной проблемой является дифференциальный пиковый вызов, который определяет существенные различия в двух сигналах ChIP-seq из различных биологических условий. Дифференциальные пиковые вызовы сегментируют два сигнала ChIP-seq и идентифицируют дифференциальные пики с использованием скрытых марковских моделей . Примерами двухступенчатых дифференциальных пиковых вызовов являются ChIPDiff [25] и ODIN. [26]
Чтобы уменьшить количество ложных сайтов из ChIP-seq, можно использовать несколько экспериментальных контролей для обнаружения сайтов связывания из эксперимента IP. Bay2Ctrls использует байесовскую модель для интеграции контроля ввода ДНК для IP, фиктивного IP и соответствующего ему контроля ввода ДНК для прогнозирования сайтов связывания из IP. [27] Этот подход особенно эффективен для сложных образцов, таких как целые модельные организмы. Кроме того, анализ показывает, что для сложных образцов фиктивные контроли IP существенно превосходят контроли ввода ДНК, вероятно, из-за активных геномов образцов. [27]