Структура популяции (также называемая генетической структурой и стратификацией популяции ) — это наличие систематической разницы в частотах аллелей между субпопуляциями . В случайно спаривающейся (или панмиктической ) популяции частоты аллелей, как ожидается, будут примерно одинаковыми между группами. Однако спаривание, как правило, в некоторой степени неслучайно, что приводит к возникновению структуры. Например, барьер, такой как река, может разделять две группы одного вида и затруднять пересечение для потенциальных партнеров; если происходит мутация , в течение многих поколений она может распространиться и стать распространенной в одной субпопуляции, полностью отсутствуя в другой.
Генетические варианты не обязательно вызывают наблюдаемые изменения в организмах, но могут быть коррелированы по совпадению из-за структуры популяции — вариант, который распространен в популяции с высоким уровнем заболеваемости, может ошибочно считаться причиной заболевания. По этой причине структура популяции является распространенной смешивающей переменной в исследованиях медицинской генетики , и учет и контроль ее эффекта важны в исследованиях ассоциаций по всему геному (GWAS). Отслеживая происхождение структуры, также можно изучать генетическое происхождение групп и индивидуумов.
Основной причиной структуры популяции у видов, размножающихся половым путем , является неслучайное спаривание между группами: если все особи в популяции спариваются случайным образом, то частоты аллелей должны быть схожими между группами. Структура популяции обычно возникает из-за физического разделения расстоянием или барьерами, такими как горы и реки, за которыми следует генетический дрейф . Другие причины включают поток генов от миграций, узкие места и расширения популяции , эффекты основателя , эволюционное давление , случайность и (у людей) культурные факторы. Даже вместо этих факторов особи имеют тенденцию оставаться близко к месту своего рождения, что означает, что аллели не будут распределяться случайным образом по всему ареалу вида. [1] [2]
Структура популяции — это сложное явление, и ни одна мера не охватывает ее полностью. Понимание структуры популяции требует сочетания методов и мер. [3] [4] Многие статистические методы полагаются на простые модели популяции, чтобы вывести исторические демографические изменения, такие как наличие узких мест в популяции, событий смешения или времени расхождения популяции. Часто эти методы полагаются на предположение о панмикции или однородности в предковой популяции. Неправильная спецификация таких моделей, например, не принимая во внимание существование структуры в предковой популяции, может привести к сильно смещенным оценкам параметров. [5] Исследования с помощью моделирования показывают, что историческая структура популяции может даже иметь генетические эффекты, которые можно легко неверно истолковать как исторические изменения в размере популяции или существование событий смешения, даже если таких событий не было. [6]
Одним из результатов структуры популяции является снижение гетерозиготности . Когда популяции разделяются, аллели имеют более высокий шанс достичь фиксации в субпопуляциях, особенно если субпопуляции небольшие или были изолированы в течение длительных периодов. Это снижение гетерозиготности можно рассматривать как расширение инбридинга , при котором особи в субпопуляциях с большей вероятностью разделяют недавнего общего предка . [7] Масштаб важен — особь, оба родителя которой родились в Соединенном Королевстве, не инбридна относительно населения этой страны, но более инбридна, чем два человека, выбранных из всего мира. Это мотивирует вывод F -статистики Райта (также называемой «индексами фиксации»), которая измеряет инбридинг через наблюдаемую и ожидаемую гетерозиготность. [8] Например, измеряет коэффициент инбридинга в одном локусе для особи относительно некоторой субпопуляции : [9]
Здесь, — доля гетерозиготных особей в субпопуляции. Предполагая, что есть два аллеля, которые встречаются с соответствующими частотами , ожидается, что при случайном спаривании субпопуляция будет иметь уровень гетерозиготности . Тогда:
Аналогично, для всей популяции мы можем определить, что позволяет нам вычислить ожидаемую гетерозиготность субпопуляции и значение как: [9]
Если F равен 0, то частоты аллелей между популяциями идентичны, что предполагает отсутствие структуры. Теоретическое максимальное значение 1 достигается, когда аллель достигает полной фиксации, но большинство наблюдаемых максимальных значений намного ниже. [7] F ST является одной из наиболее распространенных мер популяционной структуры, и существует несколько различных формулировок в зависимости от количества популяций и интересующих аллелей. Хотя иногда она используется как генетическое расстояние между популяциями, она не всегда удовлетворяет неравенству треугольника и, таким образом, не является метрикой . [10] Она также зависит от внутрипопуляционного разнообразия, что затрудняет интерпретацию и сравнение. [4]
Генотип индивидуума может быть смоделирован как примесь между K дискретными кластерами популяций. [9] Каждый кластер определяется частотами его генотипов, а вклад кластера в генотипы индивидуума измеряется с помощью оценщика . В 2000 году Джонатан К. Притчард представил алгоритм STRUCTURE для оценки этих пропорций с помощью Монте-Карло с цепями Маркова , моделируя частоты аллелей в каждом локусе с помощью распределения Дирихле . [11] С тех пор были разработаны алгоритмы (такие как ADMIXTURE), использующие другие методы оценки. [12] [13] Оцененные пропорции можно визуализировать с помощью столбчатых диаграмм — каждый столбец представляет индивидуума и подразделяется для представления доли генетического происхождения индивидуума из одной из K популяций. [9]
Изменение K может иллюстрировать различные масштабы структуры населения; использование малого K для всей популяции людей будет подразделять людей примерно по континентам, в то время как использование большого K будет разделять популяции на более мелкие подгруппы. [9] Хотя методы кластеризации популярны, они открыты для неправильной интерпретации: для немоделированных данных никогда не существует «истинного» значения K , а скорее приближение, считающееся полезным для данного вопроса. [3] Они чувствительны к стратегиям выборки, размеру выборки и близким родственникам в наборах данных; может вообще не быть дискретных популяций; и может быть иерархическая структура, в которой субпопуляции вложены. [3] Кластеры могут быть смешаны сами по себе, [9] и могут не иметь полезной интерпретации в качестве исходных популяций. [14]
Генетические данные являются высокоразмерными , и методы снижения размерности могут захватывать структуру популяции. Анализ главных компонент (PCA) был впервые применен в популяционной генетике в 1978 году Кавалли-Сфорца и коллегами и возродился с высокопроизводительным секвенированием . [9] [17] Первоначально PCA использовался для частот аллелей в известных генетических маркерах для популяций, хотя позже было обнаружено, что путем кодирования SNP как целых чисел (например, как количество нереферентных аллелей ) и нормализации значений PCA можно применять на уровне особей. [13] [18] Одна формулировка рассматривает особей и биаллельные SNP. Для каждой особи значение в локусе равно количеству нереферентных аллелей (одному из ). Если частота аллеля в равна , то результирующая матрица нормализованных генотипов имеет записи: [9]
PCA преобразует данные для максимизации дисперсии; при наличии достаточного количества данных, когда каждый индивид визуализируется как точка на графике, могут формироваться дискретные кластеры. [13] Индивиды со смешанным происхождением будут иметь тенденцию попадать между кластерами, и когда в данных есть однородная изоляция по расстоянию , верхние векторы PC будут отражать географическую изменчивость. [19] [13] Собственные векторы, сгенерированные PCA, могут быть явно записаны в терминах среднего времени коалесценции для пар индивидов, что делает PCA полезным для вывода об истории популяции групп в данной выборке. Однако PCA не может различать разные процессы, которые приводят к одному и тому же среднему времени коалесценции. [20]
Многомерное масштабирование и дискриминантный анализ использовались для изучения дифференциации, распределения популяций и анализа генетических расстояний. [21] Подходы к графам соседства , такие как t-распределенное стохастическое вложение соседей (t-SNE) и равномерное многообразие аппроксимации и проекции (UMAP), могут визуализировать континентальную и субконтинентальную структуру в человеческих данных. [22] [23] При работе с большими наборами данных UMAP лучше фиксирует множественные масштабы структуры популяции; мелкомасштабные паттерны можно скрыть или разделить с помощью других методов, и они представляют интерес, когда диапазон популяций разнообразен, когда есть смешанные популяции или при изучении взаимосвязей между генотипами, фенотипами и/или географией. [23] [24] Вариационные автокодировщики могут генерировать искусственные генотипы со структурой, репрезентативной для входных данных, хотя они не воссоздают паттерны неравновесного сцепления. [25]
Структура популяции является важным аспектом эволюционной и популяционной генетики . Такие события, как миграции и взаимодействия между группами, оставляют генетический отпечаток на популяциях. Смешанные популяции будут иметь фрагменты гаплотипа от своих предковых групп, которые постепенно уменьшаются со временем из-за рекомбинации . Используя этот факт и сопоставляя общие фрагменты гаплотипа от людей в генетическом наборе данных, исследователи могут проследить и датировать происхождение смешения популяций и реконструировать исторические события, такие как подъем и падение империй, работорговля, колониализм и расширение населения. [26]
Структура популяции может быть проблемой для ассоциативных исследований , таких как исследования случай-контроль , где ассоциация между интересующим признаком и локусом может быть неверной. Например, в исследуемой популяции европейцев и жителей Восточной Азии ассоциативное исследование использования палочек для еды может «обнаружить» ген у азиатских индивидуумов, который приводит к использованию палочек для еды. Однако это ложная связь , поскольку генетический вариант просто более распространен у азиатов, чем у европейцев. [27] Кроме того, фактические генетические результаты могут быть упущены из виду, если локус менее распространен в популяции, где выбираются субъекты случая. По этой причине в 1990-х годах было принято использовать данные на основе семей, где эффект структуры популяции можно было легко контролировать с помощью таких методов, как тест на неравновесие передачи (TDT). [28]
Фенотипы (измеримые признаки), такие как рост или риск сердечных заболеваний, являются продуктом некоторой комбинации генов и окружающей среды . Эти признаки можно предсказать с помощью полигенных оценок , которые стремятся выделить и оценить вклад генетики в признак путем суммирования эффектов многих отдельных генетических вариантов. Чтобы построить оценку, исследователи сначала регистрируют участников в ассоциативном исследовании, чтобы оценить вклад каждого генетического варианта. Затем они могут использовать предполагаемые вклады каждого генетического варианта, чтобы рассчитать оценку признака для человека, который не был в исходном ассоциативном исследовании. Если структура в исследуемой популяции коррелирует с вариацией окружающей среды, то полигенная оценка больше не измеряет только генетический компонент. [29]
Несколько методов могут, по крайней мере, частично контролировать этот смешивающий эффект. Метод геномного контроля был введен в 1999 году и является относительно непараметрическим методом контроля инфляции статистики тестов . [30] Также возможно использовать несвязанные генетические маркеры для оценки пропорций предков каждого индивидуума из некоторых субпопуляций K , которые, как предполагается, неструктурированы. [31] Более поздние подходы используют анализ главных компонент (PCA), как продемонстрировали Элкс Прайс и коллеги, [32] или путем получения матрицы генетического родства (также называемой матрицей родства) и включения ее в линейную смешанную модель (LMM). [33] [34]
PCA и LMM стали наиболее распространенными методами контроля за искажениями из структуры популяции. Хотя они, вероятно, достаточны для избежания ложных положительных результатов в исследованиях ассоциаций, они все еще уязвимы для переоценки размеров эффекта незначительно ассоциированных вариантов и могут существенно смещать оценки полигенных оценок и наследуемости признаков . [35] [36] Если экологические эффекты связаны с вариантом, который существует только в одном конкретном регионе (например, загрязнитель обнаружен только в одном городе), может оказаться вообще невозможным скорректировать этот эффект структуры популяции. [29] Для многих признаков роль структуры сложна и не полностью понята, и включение ее в генетические исследования остается проблемой и является активной областью исследований. [37]