WormBase

База данных геномики нематод

WormBase
Содержание
ОписаниеWormBase: комплексный ресурс для исследования нематод.
ОрганизмыCaenorhabditis elegans
Контакт
Первичная ссылкаPMID  19910365
Доступ
Веб-сайтwww.wormbase.org

WormBase — это онлайновая биологическая база данных о биологии и геноме модельного организма нематоды Caenorhabditis elegans , содержащая информацию о других родственных нематодах. [1] [2] WormBase используется сообществом исследователей C. elegans как информационный ресурс и как место для публикации и распространения результатов. База данных регулярно обновляется, и каждые два месяца выпускаются новые версии. WormBase — одна из организаций, участвующих в проекте Generic Model Organism Database (GMOD).

Содержание

WormBase включает в себя следующие основные наборы данных:

Кроме того, WormBase содержит актуальную библиографию исследований C. elegans с возможностью поиска и связан с проектом WormBook .

Инструменты

WormBase предлагает множество способов поиска и извлечения данных из базы данных:

  • WormMart, Wiki - был [3] инструментом для получения разнообразной информации о многих генах (или последовательностях этих генов). Это была реализация WormBase BioMart. [4]
  • WormMine, Wiki - по состоянию на 2016 год [3] основной инструмент для добычи данных. Это реализация InterMine в WormBase. [5]
  • Браузер генома — просматривайте гены C. elegans (и других видов) в их геномном контексте.
  • Textpresso — поисковый инструмент, который ищет опубликованную литературу по C. elegans (включая рефераты конференций) и подмножество литературы по нематодам.

Курирование последовательности

Под курированием последовательностей в WormBase понимается поддержание и аннотирование первичной геномной последовательности и консенсусного набора генов.

Последовательность генома

Несмотря на то, что последовательность генома C. elegans является наиболее точной и полной последовательностью генома эукариот, она постоянно нуждалась в уточнении по мере появления новых доказательств. Многие из этих изменений представляли собой вставки или делеции отдельных нуклеотидов, однако было обнаружено несколько крупных ошибок сборки. Например, в 2005 году пришлось инвертировать 39-килобайтную космиду. Другие улучшения были получены в результате сравнения геномной ДНК с последовательностями кДНК и анализа высокопроизводительных данных RNASeq. Когда выявляются различия между геномной последовательностью и транскриптами, повторный анализ исходных геномных данных часто приводит к модификациям геномной последовательности. Изменения в геномной последовательности создают трудности при сравнении хромосомных координат данных, полученных из разных выпусков WormBase. Существует программа повторного картирования координат и доступны данные картирования для помощи в этих сравнениях. [6]

Модели структуры гена

Все наборы генов видов WormBase изначально были сгенерированы программами предсказания генов. Программы предсказания генов дают разумный набор структур генов, но лучшие из них правильно предсказывают только около 80% полных структур генов. У них возникают трудности с предсказанием генов с необычными структурами, а также генов со слабым сигналом начала трансляции, слабыми сайтами сплайсинга или генами с одним экзоном. Они могут неправильно предсказать модель кодирующего гена, где ген является псевдогеном, и они плохо предсказывают изоформы гена, если вообще предсказывают.

Генные модели генов C. elegans , C. briggsae , C. remanei и C. brenneri курируются вручную. Большинство изменений структуры генов были основаны на данных транскриптов из крупномасштабных проектов, таких как библиотеки EST Юджи Кохары, проект Orfeome Марка Видала (worfdb.dfci.harvard.edu/), данные Illumina Уотерстона и Хиллиера и данные 454 Македонки Митревы. Однако другие типы данных (например, выравнивания белков, программы прогнозирования ab initio , лидерные сайты транс-сплайсинга, сигналы поли-А и сайты присоединения, теги транскриптов SAGE и TEC-RED , масс-спектроскопические пептиды и консервативные домены белков) полезны для уточнения структур, особенно там, где экспрессия низкая и поэтому транскрипты недостаточно доступны. Когда гены консервативны между доступными видами нематод, сравнительный анализ также может быть очень информативным.

WormBase призывает исследователей сообщать им через службу поддержки, если у них есть доказательства неправильной структуры гена. Любые доказательства последовательности кДНК или мРНК для изменения должны быть отправлены в EMBL/GenBank/DDBJ; это помогает в подтверждении и доказательстве для модели гена, поскольку WormBase регулярно извлекает данные о последовательностях из этих общедоступных баз данных. Это также делает данные общедоступными, позволяя соответствующим образом ссылаться и подтверждать исследователей.

При внесении любых изменений в CDS (или псевдоген) старая модель гена сохраняется как объект «истории». Он будет иметь суффиксное имя, например: «AC3.5:wp119», где «AC3.5» — это имя CDS, а «119» относится к версии базы данных, в которой было сделано изменение. Причина изменения и доказательства изменения добавляются в аннотацию CDS — их можно увидеть в разделе Visible/Remark раздела CDS «Tree Display» на веб-сайте WormBase.

Номенклатура генов

Гены

В WormBase ген — это область, которая экспрессируется или область, которая была экспрессирована и теперь является псевдогеном. Гены имеют уникальные идентификаторы, такие как «WBGene00006415». Все гены C. elegans WormBase также имеют имя последовательности, которое происходит от космиды, фосмиды или клона YAC, на котором они находятся, например, F38H4.7 , что указывает на то, что он находится на космиде «F38H4», и на этой космиде есть по крайней мере 6 других генов. Если ген производит белок, который можно классифицировать как член семейства, гену также может быть присвоено имя CGC, например tag-30, указывающее, что это 30-й член семейства генов тегов . Назначение имен семейств генов контролируется WormBase. [7] Перед публикацией запросы на имена должны быть сделаны в WormBase. [8]

Из этого формата есть несколько исключений, например, гены cln-3.1 , cln-3.2 и cln-3.3 , которые в равной степени похожи на человеческий ген CLN3 . Названия генов GCG для видов, не относящихся к семейству elegans , в WormBase имеют трехбуквенный код вида, например, Cre-acl-5 , Cbr-acl-5 , Cbn-acl-5 .

Ген может быть псевдогеном или может экспрессировать один или несколько генов некодирующей РНК (нкРНК) или последовательностей, кодирующих белок (CDS).

Псевдогены

Псевдогены — это гены, которые не производят разумный, функциональный транскрипт. Они могут быть псевдогенами кодирующих генов или некодирующих РНК и могут быть целыми или фрагментами гена и могут или не могут выражать транскрипт. Граница между тем, что считается разумным кодирующим транскриптом, иногда субъективна, поскольку при отсутствии других доказательств использование слабых сайтов сплайсинга или коротких экзонов часто может производить предполагаемую, хотя и неудовлетворительную, модель CDS. Псевдогены и гены с проблемной структурой постоянно рассматриваются в WormBase, и новые доказательства используются для попытки определить их статус.

CDS

Кодирующие последовательности (CDS) — единственная часть структуры гена, которая вручную курируется в WormBase. Структура гена и его транскриптов выводится из структуры их CDS.

CDS имеют Имя последовательности, которое получено из того же Имени последовательности, что и их родительский объект Gene, поэтому ген 'F38H4.7' имеет CDS с названием 'F38H4.7'. CDS определяет кодирующие экзоны в гене от кодона START (метионин) до (и включая) кодона STOP.

Любой ген может кодировать несколько белков в результате альтернативного сплайсинга. Эти изоформы имеют название, которое образовано из имени последовательности гена с добавлением уникальной буквы. В случае гена bli-4 известно 6 изоформ CDS, называемых K04F10.4a, K04F10.4b, K04F10.4c, K04F10.4d, K04F10.4e и K04F10.4f.

В литературе принято ссылаться на изоформы, используя название семейства генов CGC с добавлением буквы, например pha-4a , однако это не имеет смысла в базе данных WormBase, и поиск pha-4a в WormBase ничего не вернет. Правильное название этой изоформы — либо CDS/Transcript name: F38A6.1a , либо, что еще лучше, Protein name: WP:CE15998 .

Генные транскрипты

Транскрипты гена в WormBase автоматически выводятся путем сопоставления любых доступных выравниваний кДНК или мРНК с моделью CDS. Поэтому эти транскрипты генов часто включают экзоны UTR, окружающие CDS. Если нет доступных транскриптов кДНК или мРНК, то транскрипты генов будут иметь точно такую ​​же структуру, как и CDS, на основе которой они смоделированы.

Транскрипты генов называются по названию последовательности CDS, использованной для их создания, например, F38H4.7 или K04F10.4a .

Однако, если в UTR есть альтернативный сплайсинг, который не изменяет последовательность белка, то альтернативно сплайсированные транскрипты именуются с добавлением цифры, например: K04F10.4a.1 и K04F10.4a.2 . Если нет изоформ кодирующего гена, например AC3.5 , но есть альтернативный сплайсинг в UTR, будет несколько транскриптов с именами AC3.5.1 и AC3.5.2 и т. д. Если нет альтернативных транскриптов UTR, то один coding_transcript именуется так же, как CDS, и не имеет добавленного .1, как в случае K04F10.4f.

Опероны

Группы генов, которые ко-транскрибируются как опероны, курируются как объекты Operon. Они имеют имена типа CEOP5460 и курируются вручную с использованием доказательств из сайтов транс-сплайсинга лидерной последовательности SL2.

Гены некодирующей РНК

В WormBase существует несколько классов генов некодирующей РНК:

  • Гены тРНК предсказываются программой «tRNAscan-SE».
  • Гены рРНК предсказываются на основе гомологии с другими видами.
  • Гены мяРНК в основном импортируются из Rfam .
  • Гены piRNA получены в результате анализа характерного мотива в этих генах.
  • Гены miRNA в основном импортируются из miRBase . Они имеют первичный транскрипт и зрелый транскрипт, размеченные. Первичный транскрипт будет иметь имя последовательности, например W09G3.10 , а зрелый транскрипт будет иметь букву, добавленную к этому имени, например W09G3.10a (и если есть альтернативные зрелые транскрипты, W09G3.10b и т. д.).
  • Гены snoRNA в основном импортируются из Rfam или из статей.
  • Гены ncRNA, которые не имеют очевидной другой функции, но которые, очевидно, не кодируют белок и не являются псевдогенами, курируются. Многие из них имеют сохраненную гомологию с генами других видов. Некоторые из них экспрессируются в обратном направлении по отношению к генам, кодирующим белок.

Также имеется один ген scRNA.

Транспозоны

Транспозоны не классифицируются как гены и поэтому не имеют родительского объекта гена. Их структура курируется как объект Transposon_CDS с именем типа C29E6.6 .

Другие виды

Виды non-elegans в WormBase имеют геномы, собранные с помощью технологий секвенирования, которые не включают секвенирование космид или YAC. Поэтому эти виды не имеют названий последовательностей для CDS и транскриптов генов, основанных на названиях космид. Вместо этого у них есть уникальные буквенно-цифровые идентификаторы, сконструированные подобно названиям в таблице ниже.

Названия генов
РазновидностьПример названия гена
C. briggsaeCBG00001
C. remaneiCRE00001
C. бреннериCBN00001
C. japonicaCJA00001
Пристиончус пацификусPPA00001

Белки

Белковые продукты гена создаются путем трансляции последовательностей CDS. Каждой уникальной белковой последовательности присваивается уникальное идентификационное имя, например WP:CE40440 . Примеры имен идентификаторов белков для каждого вида в WormBase приведены в таблице ниже.

Названия генов
РазновидностьПример названия белка
C. elegansWP:CE00001
C. briggsaeБП:CBP00001
C. remaneiРП:РП00001
C. бреннериCN:CN00001
C. japonicaJA:JA00001
Пристиончус пацификусПП:ПП00001
Гетерорабдитис бактериофораНВ:НВ00001
Бругия малайскаяБМ:БМ00001
Мелоидогина гаплаМН:МН00001
Мелоидогин инкогнитаМИ:МИ00001
Haemonchus contortusHC:HC00001

Две последовательности CDS из отдельных генов в пределах одного вида могут быть идентичными, и поэтому возможно, что идентичные белки кодируются отдельными генами. Когда это происходит, для белка используется одно уникальное идентифицирующее имя, даже если он производится двумя генами.

Паразиты

WormBase ParaSite [9] — это подпортал для примерно 100 проектов геномов паразитических гельминтов ( нематоды и плоские черви ), разработанных в Европейском институте биоинформатики и Институте Сенгера Wellcome Trust . Все геномы собраны и аннотированы. Также доступна дополнительная информация, такая как домены белков и термины Gene Ontology . Генные деревья позволяют выравнивать ортологов между паразитическими червями, другими нематодами и видами-компараторами, не являющимися червями. Предлагается инструмент для добычи данных BioMart , позволяющий обеспечить широкомасштабный доступ к данным.

Управление WormBase

WormBase — это совместный проект Европейского института биоинформатики , Института Сенгера Wellcome Trust , Института исследований рака Онтарио , Университета Вашингтона в Сент-Луисе и Калифорнийского технологического института . Он поддерживается грантом P41-HG002223 от Национальных институтов здравоохранения и грантом G0701197 от Британского совета по медицинским исследованиям . [10] Caltech осуществляет биологическое курирование и разрабатывает базовые онтологии, EBI осуществляет курирование последовательностей и вычисления, а также построение баз данных, Sanger в основном участвует в курировании и отображении геномов и генов паразитических нематод, а OICR разрабатывает веб-сайт и основные инструменты для добычи данных.

Смотрите также

Примечания и ссылки

  1. ^ Harris, TW; et al. (12 ноября 2009 г.). «WormBase: всеобъемлющий ресурс для исследования нематод». Nucleic Acids Res . 38 (выпуск базы данных): D463–7. doi : 10.1093/nar/gkp952. PMC 2808986. PMID  19910365. 
  2. ^ Уильямс, GW; Дэвис, PA; Роджерс, AS; Биери, T.; Озерский, P.; Спиет, J. (2011). «Методы и стратегии для курирования структуры генов в WormBase». База данных . 2011 : baq039. doi :10.1093/database/baq039. PMC 3092607. PMID  21543339 . 
  3. ^ ab "WormMart Sunset Period: будет выведен из эксплуатации 01 января 2016 г.". Блог . WormBase. 13 ноября 2015 г.
  4. ^ "WormMart". Добыча данных . WormBase.
  5. ^ "WormMine". Добыча данных . WormBase.
  6. ^ "Преобразование координат между выпусками" . Получено 21 сентября 2023 г. .
  7. ^ "Номенклатура генов WormBase". Wormbase .
  8. ^ "Форма подачи предложения по названию гена/класса гена" . Получено 21 сентября 2023 г. .
  9. ^ "WormBase ParaSite" . Получено 21 сентября 2023 г.
  10. ^ "WormBaseWiki:Copyrights - WormBaseWiki". www.wormbase.org . Архивировано из оригинала 27 сентября 2006 г.
  • WormBase
  • Паразиты WormBase
  • Сайт WormBook, онлайн-учебник, дополняющий WormBase.
  • Textpresso, поисковая система по C. elegans и другой биологической литературе.
  • WormBase Вики
  • Заметки о выпуске, подробности о последнем выпуске WormBase
  • WormBase: лучшее программное обеспечение, более богатый контент Статья в журнале Nucleic Acids Research, описывающая WormBase (2006).
  • WormBase в Твиттере
Retrieved from "https://en.wikipedia.org/w/index.php?title=WormBase&oldid=1265580002"