Методы анализа микрочипов используются для интерпретации данных, полученных в ходе экспериментов с ДНК ( анализ генных чипов ), РНК и белковыми микрочипами , которые позволяют исследователям исследовать состояние экспрессии большого количества генов — во многих случаях всего генома организма — в одном эксперименте. [1] Такие эксперименты могут генерировать очень большие объемы данных, позволяя исследователям оценивать общее состояние клетки или организма. Данные в таких больших объемах трудно — если не невозможно — анализировать без помощи компьютерных программ.
Анализ данных микрочипов является заключительным этапом в считывании и обработке данных, полученных с помощью микрочипа. Образцы подвергаются различным процессам, включая очистку и сканирование с использованием микрочипа, который затем производит большой объем данных, требующих обработки с помощью компьютерного программного обеспечения. Он включает в себя несколько отдельных этапов, как показано на изображении ниже. Изменение любого из этапов изменит результат анализа, поэтому был создан проект MAQC [2] для определения набора стандартных стратегий. Существуют компании, которые используют протоколы MAQC для выполнения полного анализа. [3]
Большинство производителей микрочипов, таких как Affymetrix и Agilent , [4] предоставляют коммерческое программное обеспечение для анализа данных вместе со своими продуктами микрочипов. Существуют также варианты с открытым исходным кодом, которые используют различные методы для анализа данных микрочипов.
Сравнение двух различных массивов или двух различных образцов, гибридизированных с одним и тем же массивом, обычно включает в себя корректировку систематических ошибок, вносимых различиями в процедурах и эффектами интенсивности красителя. Нормализация красителя для двух цветовых массивов часто достигается локальной регрессией . LIMMA предоставляет набор инструментов для коррекции фона и масштабирования, а также возможность усреднения дублирующихся пятен на слайде. [5] Распространенным методом оценки того, насколько хорошо нормализован массив, является построение графика MA данных. Графики MA можно создавать с помощью программ и языков, таких как R и MATLAB. [6] [7]
Необработанные данные Affy содержат около двадцати зондов для одной и той же РНК-мишени. Половина из них — это «пятна несовпадения», которые не совсем соответствуют целевой последовательности. Теоретически они могут измерять количество неспецифического связывания для данной цели. Надежное многомассивное среднее (RMA) [8] — это подход к нормализации, который не использует преимущества этих пятен несовпадения, но все равно должен суммировать идеальные совпадения с помощью медианной полировки . [9] Алгоритм медианной полировки, хотя и надежный, ведет себя по-разному в зависимости от количества проанализированных образцов. [10] Квантильная нормализация , также часть RMA, — это один из разумных подходов к нормализации партии массивов для того, чтобы сделать дальнейшие сравнения осмысленными.
Текущий алгоритм Affymetrix MAS5, который использует как идеальное совпадение, так и несовпадение зондов, продолжает пользоваться популярностью и показывает хорошие результаты в сравнительных тестах. [11]
Факторный анализ для Robust Microarray Summarization (FARMS) [12] — это основанный на модели метод для суммирования данных массива на уровне идеального соответствия. Он основан на модели факторного анализа, для которой метод байесовского максимума апостериори оптимизирует параметры модели в предположении гауссовского шума измерения. Согласно бенчмарку Affycomp [13], FARMS превзошел все другие методы суммирования по чувствительности и специфичности.
Существует множество стратегий для идентификации зондов массива, которые показывают необычный уровень сверхэкспрессии или недостаточной экспрессии. Простейшая из них — назвать «значимым» любой зонд, который отличается в среднем как минимум в два раза между группами лечения. Более сложные подходы часто связаны с t-тестами или другими механизмами, которые учитывают как размер эффекта, так и изменчивость. Любопытно, что p-значения, связанные с конкретными генами, плохо воспроизводятся между повторными экспериментами, а списки, созданные путем прямого изменения кратности, работают намного лучше. [14] [15] Это представляет собой чрезвычайно важное наблюдение, поскольку смысл проведения экспериментов связан с прогнозированием общего поведения. Группа MAQC рекомендует использовать оценку изменения кратности плюс нестрогое ограничение p-значения, дополнительно указывая на то, что изменения в процессе коррекции фона и масштабирования оказывают лишь минимальное влияние на порядок рангов различий изменения кратности, но существенное влияние на p-значения. [14]
Кластеризация — это метод добычи данных, используемый для группировки генов, имеющих схожие паттерны экспрессии. Иерархическая кластеризация и кластеризация k-средних — широко используемые методы в анализе микрочипов.
Иерархическая кластеризация — это статистический метод поиска относительно однородных кластеров. Иерархическая кластеризация состоит из двух отдельных фаз. Первоначально вычисляется матрица расстояний, содержащая все попарные расстояния между генами. Корреляция Пирсона и корреляция Спирмена часто используются в качестве оценок различий, но могут применяться и другие методы, такие как манхэттенское расстояние или евклидово расстояние . Учитывая количество доступных мер расстояния и их влияние на результаты алгоритма кластеризации, в нескольких исследованиях сравнивались и оценивались различные меры расстояния для кластеризации данных микрочипов с учетом их внутренних свойств и устойчивости к шуму. [16] [17] [18] После вычисления начальной матрицы расстояний иерархический алгоритм кластеризации либо (A) итеративно объединяет два ближайших кластера, начиная с отдельных точек данных (агломеративный, восходящий подход, который используется довольно часто), либо (B) итеративно разделяет кластеры, начиная с полного набора (разделительный, нисходящий подход). После каждого шага пересчитывается новая матрица расстояний между вновь сформированными кластерами и другими кластерами. Методы иерархического кластерного анализа включают:
Различные исследования уже показали эмпирически, что алгоритм кластеризации с одинарной связью дает плохие результаты при использовании для данных микрочипов экспрессии генов, и поэтому его следует избегать. [18] [19]
Кластеризация методом K-средних — это алгоритм группировки генов или образцов на основе шаблона в группы K. Группировка выполняется путем минимизации суммы квадратов расстояний между данными и соответствующим центроидом кластера . Таким образом, целью кластеризации методом K-средних является классификация данных на основе схожего выражения. [20] Было показано, что алгоритм кластеризации методом K-средних и некоторые его варианты (включая k-медоиды ) дают хорошие результаты для данных об экспрессии генов (по крайней мере, лучше, чем методы иерархической кластеризации). Эмпирические сравнения методов k-средних , k-медоидов , иерархических методов и различных мер расстояния можно найти в литературе. [18] [19]
Коммерческие системы для анализа генных сетей, такие как Ingenuity [21] и Pathway studio [22], создают визуальные представления дифференциально экспрессируемых генов на основе современной научной литературы. Некоммерческие инструменты, такие как FunRich, [23] GenMAPP и Moksiskaan, также помогают в организации и визуализации данных генных сетей, полученных из одного или нескольких экспериментов с микрочипами. Широкий спектр инструментов для анализа микрочипов доступен через Bioconductor, написанный на языке программирования R. Часто цитируемый модуль SAM и другие инструменты для микрочипов [24] доступны через Стэнфордский университет. Другой набор доступен из Гарварда и Массачусетского технологического института. [25]
Специализированные программные инструменты для статистического анализа для определения степени избыточной или недостаточной экспрессии гена в эксперименте с микрочипом относительно исходного состояния также были разработаны для помощи в идентификации генов или наборов генов, связанных с определенными фенотипами . Один из таких методов анализа, известный как анализ обогащения набора генов (GSEA), использует статистику в стиле Колмогорова-Смирнова для идентификации групп генов, которые регулируются вместе. [1] Этот сторонний статистический пакет предлагает пользователю информацию о генах или наборах генов, представляющих интерес, включая ссылки на записи в таких базах данных, как GenBank NCBI и курируемых базах данных, таких как Biocarta [26] и Gene Ontology . Инструмент анализа обогащения белковых комплексов (COMPLEAT) обеспечивает аналогичный анализ обогащения на уровне белковых комплексов. [27] Инструмент может идентифицировать динамическую регуляцию белковых комплексов при различных условиях или временных точках. Связанные системы, PAINT [28] и SCOPE [29], выполняют статистический анализ областей промотора гена, выявляя избыточное и недостаточное представительство ранее идентифицированных элементов ответа фактора транскрипции . Другим инструментом статистического анализа является Rank Sum Statistics for Gene Set Collections (RssGsc), который использует функции распределения вероятностей ранговой суммы для поиска наборов генов, которые объясняют экспериментальные данные. [30] Еще одним подходом является контекстный метаанализ, т. е. выяснение того, как кластер генов реагирует на различные экспериментальные контексты. Genevestigator — это общедоступный инструмент для выполнения контекстного метаанализа в таких контекстах, как анатомические части, стадии развития и реакция на заболевания, химические вещества, стрессы и новообразования .
Анализ значимости микрочипов (SAM) — это статистический метод , созданный в 2001 году Вирджинией Ташер, Робертом Тибширани и Гилбертом Чу для определения того, являются ли изменения в экспрессии генов статистически значимыми. С появлением ДНК-микрочипов теперь стало возможным измерять экспрессию тысяч генов в одном эксперименте по гибридизации. Полученные данные значительны, и метод сортировки того, что является значимым, а что нет, имеет важное значение. SAM распространяется Стэнфордским университетом в R-пакете . [31]
SAM идентифицирует статистически значимые гены, выполняя специфичные для генов t-тесты и вычисляя статистику d j для каждого гена j , которая измеряет силу связи между экспрессией гена и переменной отклика. [32] [33] [34] Этот анализ использует непараметрическую статистику , поскольку данные могут не следовать нормальному распределению . Переменная отклика описывает и группирует данные на основе экспериментальных условий. В этом методе повторные перестановки данных используются для определения того, является ли экспрессия любого гена значимой по отношению к ответу. Использование анализа на основе перестановок учитывает корреляции в генах и позволяет избежать параметрических предположений о распределении отдельных генов. Это является преимуществом по сравнению с другими методами (например, ANOVA и Bonferroni ), которые предполагают равную дисперсию и/или независимость генов. [35]
количество перестановок задается пользователем при подстановке корректных значений для набора данных для запуска SAM
Типы: [32]
SAM вычисляет статистику теста для относительной разницы в экспрессии генов на основе анализа перестановок данных экспрессии и вычисляет частоту ложных открытий. Основные расчеты программы проиллюстрированы ниже. [32] [33] [34]
Константа s o выбирается для минимизации коэффициента вариации d i . r i равен уровням экспрессии (x) для гена i в экспериментальных условиях y.
Изменения кратности (t) указываются для того, чтобы гарантировать, что гены, называемые значительными, изменятся по крайней мере на заранее указанную величину. Это означает, что абсолютное значение средних уровней экспрессии гена при каждом из двух условий должно быть больше изменения кратности (t), чтобы называться положительным, и меньше обратного значения изменения кратности (t), чтобы называться отрицательным.
Алгоритм SAM можно сформулировать следующим образом:
Целые массивы могут иметь очевидные недостатки, обнаруживаемые при визуальном осмотре, парных сравнениях с массивами в той же экспериментальной группе или при анализе деградации РНК. [39] Результаты могут быть улучшены, если полностью исключить эти массивы из анализа.
В зависимости от типа массива сигнал, связанный с неспецифическим связыванием флуорофора, может быть вычтен для достижения лучших результатов. Один из подходов заключается в вычитании средней интенсивности сигнала области между пятнами. Различные инструменты для коррекции фона и дальнейшего анализа доступны от TIGR, [40] Agilent (GeneSpring), [41] и Ocimum Bio Solutions (Genowiz). [42]
Визуальное выявление локальных артефактов, таких как дефекты печати или стирки, также может указывать на необходимость удаления отдельных пятен. Это может занять значительное время в зависимости от качества изготовления массива. Кроме того, некоторые процедуры требуют удаления всех пятен со значением экспрессии ниже определенного порога интенсивности.