Проект анатомии генома рака ( Cancer Genome Anatomy Project, CGAP ), созданный Национальным институтом рака (NCI) в 1997 году и представленный Элом Гором , представляет собой онлайн-базу данных о нормальных, предраковых и раковых геномах. Он также предоставляет инструменты для просмотра и анализа данных, что позволяет идентифицировать гены, участвующие в различных аспектах прогрессирования опухоли. Цель CGAP — охарактеризовать рак на молекулярном уровне, предоставив платформу с легкодоступными обновленными данными и набором инструментов, чтобы исследователи могли легко соотносить свои выводы с существующими знаниями. Также уделяется внимание разработке программных инструментов, которые улучшают использование больших и сложных наборов данных. [1] [2] Проектом руководит Даниэла С. Герхард, и он включает в себя подпроекты или инициативы, среди которых наиболее заметными являются Проект аберрации хромосом рака (Cancer Chromosome Aberration Project, CCAP) и Инициатива генетической аннотации (Genetic Annotation Initiative, GAI). CGAP вносит вклад во многие базы данных, а такие организации, как NCBI, вносят вклад в базы данных CGAP.
Конечные результаты CGAP включают установление корреляции между прогрессированием конкретного вида рака и его терапевтическим результатом, улучшение оценки лечения и разработку новых методов профилактики, обнаружения и лечения. Это достигается путем характеристики продуктов мРНК биологических тканей.
Основная причина рака — неспособность клетки регулировать экспрессию генов. Чтобы охарактеризовать определенный тип рака, можно исследовать белки, которые производятся из измененной экспрессии генов или предшественника мРНК белка. CGAP работает над тем, чтобы связать определенный профиль экспрессии клетки , молекулярную подпись или транскриптом , который по сути является отпечатком пальца клетки, с фенотипом клетки. Таким образом, профили экспрессии существуют с учетом типа рака и стадии прогрессирования. [3]
Первоначальной целью CGAP было создание индекса генов опухолей (TGI) для хранения профилей экспрессии. Это должно было внести вклад как в новые, так и в существующие базы данных. [4] Это способствовало появлению двух типов библиотек: dbEST и позднее dbSAGE. Это было выполнено в несколько этапов: [3]
TGI сначала сосредоточилась на раке простаты, груди, яичников, легких и толстой кишки, а CGAP расширила свои исследования на другие виды рака. На практике возникли проблемы, которые CGAP учел, когда стали доступны новые технологии.
Многие виды рака возникают в тканях с несколькими типами клеток. Традиционные методы брали весь образец ткани и производили библиотеки кДНК ткани. Эта клеточная гетерогенность делала информацию об экспрессии генов с точки зрения биологии рака менее точной. Примером является ткань рака простаты, где эпителиальные клетки, которые, как было показано, являются единственным типом клеток, вызывающим рак, составляют только 10% от общего числа клеток. Это привело к разработке лазерной захватной микродиссекции (LCM), метода, который может изолировать отдельные типы клеток, что давало начало библиотекам кДНК определенных типов клеток. [4]
Секвенирование кДНК даст полный транскрипт мРНК, который ее сгенерировал. Фактически, для уникальной идентификации связанной мРНК или белка требуется только часть последовательности. Полученная часть последовательности была названа экспрессируемой меткой последовательности (EST) и всегда находится в конце последовательности близко к поли А-хвосту. Данные EST хранятся в базе данных под названием dbEST. EST должны быть длиной всего около 400 оснований, но с методами секвенирования NGS это все равно будет давать низкокачественные считывания. Поэтому также используется улучшенный метод, называемый последовательным анализом экспрессии генов (SAGE). Этот метод идентифицирует для каждой молекулы транскрипта кДНК, полученной в результате экспрессии гена клетки, области длиной всего 10-14 оснований в любом месте последовательности считывания, достаточные для уникальной идентификации этого транскрипта кДНК. Эти основания вырезаются и связываются вместе, затем включаются в бактериальные плазмиды, как упоминалось выше. Библиотеки SAGE имеют лучшее качество чтения и генерируют больший объем данных при секвенировании, а поскольку транскрипты сравниваются на абсолютных, а не на относительных уровнях, преимущество SAGE заключается в том, что не требуется нормализация данных путем сравнения с эталоном. [1] [4]
После секвенирования и создания библиотек CGAP объединяет данные с существующими источниками данных и предоставляет различные базы данных и инструменты для анализа. Подробное описание инструментов и баз данных, созданных или используемых CGAP, можно найти на веб-сайте CGAP NCI. Ниже приведены некоторые инициативы или исследовательские инструменты, предоставленные CGAP.
Целью проекта Cancer Genome Anatomy Project Genome Annotation Initiative (CGAP-GAI) является обнаружение и каталогизация однонуклеотидных полиморфизмов (SNP), которые коррелируют с возникновением и прогрессированием рака. [4] CGAP-GAI создали множество инструментов для обнаружения, анализа и отображения SNP. SNP ценны в исследованиях рака, поскольку их можно использовать в нескольких различных генетических исследованиях, обычно для отслеживания передачи, идентификации альтернативных форм генов и анализа сложных молекулярных путей, которые регулируют метаболизм, рост или дифференциацию клеток. [5]
SNP в CGAP-GAI либо обнаруживаются в результате повторного секвенирования интересующих генов у разных людей, либо просматриваются существующие базы данных EST человека и проводятся сравнения. [2] Он изучает транскрипты от здоровых людей, людей с заболеваниями, опухолевые ткани и клеточные линии от большого набора людей; поэтому база данных, скорее всего, будет включать редкие мутации заболеваний в дополнение к высокочастотным вариантам. [6] Распространенной проблемой при обнаружении SNP является дифференциация ошибок секвенирования с фактическими полиморфизмами. Найденные SNP подвергаются статистическому анализу с использованием конвейера CGAP SNP для расчета вероятности того, что вариант на самом деле является полиморфизмом. Высоковероятные SNP проверяются, и существуют инструменты, которые делают прогнозы относительно того, изменена ли функция. [2]
Чтобы сделать данные легкодоступными, CGAP-GAI имеет ряд инструментов, которые могут отображать как выравнивание последовательностей, так и обзор сборки с контекстом последовательностей, из которых они были предсказаны. SNP аннотируются, и часто определяются интегрированные генетические/физические карты. [6]
Геномная нестабильность является распространенной чертой рака; поэтому понимание структурных и хромосомных аномалий может дать представление о прогрессировании заболевания. Проект по аберрациям хромосом рака (cCAP) — это поддерживаемая CGAP инициатива, используемая для определения структуры хромосом и характеристики перестроек, связанных со злокачественной трансформацией. [4] [7] Он включает в себя онлайн-версию базы данных Мительмана, созданную Феликсом Мительманом, Бертилем Йоханссоном и Фредриком Мертенсом до создания CGAP, еще одного сборника известных хромосомных перестроек. CCAP преследует несколько целей: [7]
В базе данных содержится цитогенетическая информация по более чем 64 000 случаям пациентов, включая более 2000 слияний генов. [1]
В рамках этого проекта существует репозиторий физически и цитогенетически картированных клонов BAC для генома человека, которые физически доступны через сеть дистрибьюторов. [1] Карты клонов CCAP были картированы цитогенетически с использованием FISH с разрешением 1-2 Мб по всему геному человека и физически картированы с использованием участков с маркировкой последовательностей (STS). [8] Данные для клонов BAC также доступны через базы данных CGAP и NCBI.
Ниже перечислены некоторые другие ресурсы, доступные через CGAP. [1]
Ранний метод, используемый CGAP, — это цифровой дифференциальный дисплей (DDD), который использует точный тест Фишера для сравнения библиотек друг с другом, чтобы найти существенные различия между популяциями. CGAP гарантировал, что DDD сможет сравнивать все библиотеки cDNA в dbEST, а не только те, которые были созданы CGAP. [4]
MGC предоставляет исследователям информацию о полноразмерном белке из cDNA, в отличие от баз данных EST или SAGE, которые предоставляют только идентифицирующую метку. Проект включает гены человека и мыши, а позднее были добавлены коровьи cDNA, созданные Genome Canada . [9]
SAGEmap — это база данных, используемая для хранения библиотек SAGE. По состоянию на 2001 год существует более 3,4 миллионов тегов SAGE. Инструменты могут использоваться для сопоставления тегов SAGE с кластерами UniGene , базой данных, которая хранит транскриптомы. Это позволяет легче идентифицировать соответствующую последовательность тега SAGE. Кроме того, существуют инструменты, связанные с SAGEmaps: [10]
CGAP находит ген или список генов на основе указанных критериев поиска и предоставляет ссылки на различные базы данных NCI и NCBI. Ген можно искать конкретно, используя уникальный идентификатор, такой как символы гена и номер гена Entrez, а также, как правило, по функции, ткани или ключевому слову. [11]
Другие генные инструменты, доступные через веб-интерфейс CGAP, включают Gene Ontology Browser (GO) и инструмент Nucleotide BLAST.
cDNA xProfiler и cDNA Digital gene expression displayer (DGED) вместе используются для поиска статистически значимых интересующих генов, которые по-разному экспрессируются в двух пулах библиотек cDNA, обычно сравнение проводится между нормальными и раковыми тканями. [12] Статистическая значимость определяется DGED с использованием комбинации байесовской статистики и отношения шансов последовательности для расчета вероятности. cDNA DGED опирается на реляционную базу данных UniGene, в то время как cDNA xProfiler использует базу данных плоских файлов, которая недоступна в Интернете. [13]
CGAP в настоящее время является централизованным местом для нескольких геномных инструментов и генетических баз данных и широко используется в исследованиях рака и молекулярной биологии. Базы данных, созданные CGAP, продолжают вносить вклад в знания о раке с точки зрения его путей и прогрессирования. Базы данных транскриптома также могут использоваться в исследованиях, не связанных с раком, поскольку они содержат информацию, которая может быть использована для быстрой и легкой идентификации определенных секвенированных генов. Данные также имеют клиническое значение, поскольку кДНК могут использоваться для создания микрочипов для диагностики и сравнения методов лечения. CGAP использовался во многих исследованиях, среди примеров которых: [1] [4]
Кроме того, огромный объем данных, сгенерированных CGAP, побудил к совершенствованию методов анализа и добычи данных, в том числе: [1]