UniProt

База данных белковых последовательностей и функциональной информации
UniProt
Содержание
ОписаниеUniProt — это универсальный белковый ресурс, центральное хранилище данных о белках, созданное путем объединения баз данных Swiss-Prot, TrEMBL и PIR-PSD .

Типы собираемых данных
Аннотация белка
ОрганизмыВсе
Контакт
Исследовательский центрEMBL-EBI , Великобритания; СИБ , Швейцария; ПИР , США.
Первичная ссылкаКонсорциум UniProt [1]
Доступ
Формат данныхПользовательский плоский файл, FASTA , GFF , RDF , XML .
Веб-сайтwww.uniprot.org
www.uniprot.org/news/
URL-адрес для загрузкиwww.uniprot.org/downloads и для загрузки полных наборов данных ftp.uniprot.org
URL веб-сервисаДа – JAVA API см. информацию здесь и REST см. информацию здесь
Инструменты
ВебРасширенный поиск, BLAST , Clustal O, массовый поиск/загрузка, сопоставление идентификаторов
Разнообразный
ЛицензияCreative Commons Attribution-NoDerivs
ВерсионированиеДа

Частота публикации данных
8 недель
Политика кураторстваДа – вручную и автоматически. Правила автоматического аннотирования, сформированные кураторами базы данных и вычислительными алгоритмами.
Добавляемые в закладки
сущности
Да – как отдельные записи белков, так и поиск

UniProt — это свободно доступная база данных последовательности белков и функциональной информации, многие записи которой получены из проектов по секвенированию генома . Она содержит большой объем информации о биологической функции белков, полученной из исследовательской литературы. Она поддерживается консорциумом UniProt, который состоит из нескольких европейских организаций по биоинформатике и фонда из Вашингтона, округ Колумбия , США .

Консорциум UniProt

Консорциум UniProt состоит из Европейского института биоинформатики (EBI), Швейцарского института биоинформатики (SIB) и Информационного ресурса по белкам (PIR). EBI, расположенный в кампусе Wellcome Trust Genome в Хинкстоне, Великобритания, размещает большой ресурс баз данных и услуг по биоинформатике. SIB, расположенный в Женеве, Швейцария, поддерживает серверы ExPASy (Expert Protein Analysis System), которые являются центральным ресурсом для инструментов и баз данных протеомики. PIR, размещенный Национальным фондом биомедицинских исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, Атласа последовательности и структуры белков Маргарет Дейхофф , впервые опубликованного в 1965 году. [2] В 2002 году EBI, SIB и PIR объединили свои усилия в качестве консорциума UniProt. [3]

Корни баз данных UniProt

Каждый член консорциума активно участвует в обслуживании и аннотации базы данных белков. До недавнего времени EBI и SIB совместно создавали базы данных Swiss-Prot и TrEMBL, в то время как PIR создавала базу данных последовательностей белков (PIR-PSD). [4] [5] [6] Эти базы данных сосуществовали с различным покрытием последовательностей белков и приоритетами аннотации.

Swiss-Prot был создан в 1986 году Амосом Байрохом во время его докторской диссертации и разработан Швейцарским институтом биоинформатики и впоследствии разработан Рольфом Апвайлером в Европейском институте биоинформатики . [7] [8] [9] Swiss-Prot был нацелен на предоставление надежных последовательностей белков, связанных с высоким уровнем аннотации (например, описание функции белка, его доменной структуры, посттрансляционных модификаций , вариантов и т. д.), минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных. Признавая, что данные о последовательностях генерируются со скоростью, превышающей способность Swiss-Prot поддерживать их, была создана TrEMBL (Translated EMBL Nucleotide Sequence Data Library) для предоставления автоматизированных аннотаций для тех белков, которых нет в Swiss-Prot. Тем временем PIR поддерживал PIR-PSD и связанные базы данных, включая iProClass, базу данных последовательностей белков и курируемых семейств.

Члены консорциума объединили свои пересекающиеся ресурсы и опыт и запустили UniProt в декабре 2003 года. [10]

Организация баз данных UniProt

UniProt предоставляет четыре основные базы данных: UniProtKB (с подразделами Swiss-Prot и TrEMBL), UniParc, UniRef и Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) — это база данных белков, частично курируемая экспертами, состоящая из двух разделов: UniProtKB/Swiss-Prot (содержащая проверенные, вручную аннотированные записи) и UniProtKB/TrEMBL (содержащая непроверенные, автоматически аннотированные записи). [11] По состоянию на 22 февраля 2023 года [обновлять]выпуск «2023_01» UniProtKB/Swiss-Prot содержит 569 213 записей последовательностей (включая 205 728 242 аминокислоты, извлеченные из 291 046 ссылок), а выпуск «2023_01» UniProtKB/TrEMBL содержит 245 871 724 записей последовательностей (включая 85 739 380 194 аминокислоты). [12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot — это вручную аннотированная, не избыточная база данных последовательностей белков. Она объединяет информацию, извлеченную из научной литературы, и вычислительный анализ, оцененный биокураторами . Цель UniProtKB/Swiss-Prot — предоставить всю известную релевантную информацию о конкретном белке. Аннотации регулярно пересматриваются, чтобы соответствовать текущим научным открытиям. Ручная аннотация записи включает в себя подробный анализ последовательности белка и научной литературы. [13]

Последовательности из одного гена и одного вида объединяются в одну запись базы данных. Различия между последовательностями идентифицируются, и их причина документируется (например, альтернативный сплайсинг , естественная вариация , неправильные сайты инициации , неправильные границы экзонов , сдвиги рамки считывания , неопознанные конфликты). Ряд инструментов анализа последовательностей используется в аннотации записей UniProtKB/Swiss-Prot. Компьютерные предсказания оцениваются вручную, и соответствующие результаты выбираются для включения в запись. Эти предсказания включают посттрансляционные модификации, трансмембранные домены и топологию , сигнальные пептиды , идентификацию доменов и классификацию семейств белков . [13] [14]

Соответствующие публикации определяются путем поиска в базах данных, таких как PubMed . Полный текст каждой статьи читается, и информация извлекается и добавляется к записи. Аннотация, полученная из научной литературы, включает, но не ограничивается: [10] [13] [14]

Аннотированные записи проходят контроль качества перед включением в UniProtKB/Swiss-Prot. При появлении новых данных записи обновляются.

UniProtKB/TrEMBL

UniProtKB/TrEMBL содержит высококачественные записи, проанализированные с помощью вычислений, которые обогащены автоматической аннотацией. Он был введен в ответ на возросший поток данных в результате геномных проектов, поскольку трудоемкий и требующий много времени процесс ручной аннотации UniProtKB/Swiss-Prot не мог быть расширен для включения всех доступных последовательностей белков. [10] Переводы аннотированных кодирующих последовательностей в базе данных нуклеотидных последовательностей EMBL-Bank/GenBank/DDBJ автоматически обрабатываются и вводятся в UniProtKB/TrEMBL. UniProtKB/TrEMBL также содержит последовательности из PDB и из предсказания генов, включая Ensembl , RefSeq и CCDS . [15] С 22 июля 2021 года он также включает структуры, предсказанные с помощью AlphaFold2 . [16]

UniParc

Архив UniProt (UniParc) — это комплексная и не избыточная база данных, которая содержит все последовательности белков из основных общедоступных баз данных последовательностей белков. [17] Белки могут существовать в нескольких различных исходных базах данных и в нескольких копиях в одной и той же базе данных. Чтобы избежать избыточности, UniParc хранит каждую уникальную последовательность только один раз. Идентичные последовательности объединяются, независимо от того, принадлежат ли они к одному или разным видам. Каждой последовательности присваивается стабильный и уникальный идентификатор (UPI), что позволяет идентифицировать один и тот же белок из разных исходных баз данных. UniParc содержит только последовательности белков без аннотаций. Перекрестные ссылки в записях базы данных UniParc позволяют извлекать дополнительную информацию о белке из исходных баз данных. Когда последовательности в исходных базах данных изменяются, эти изменения отслеживаются UniParc, и история всех изменений архивируется.

Исходные базы данных

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

UniRef

Справочные кластеры UniProt (UniRef) состоят из трех баз данных кластеризованных наборов последовательностей белков из UniProtKB и выбранных записей UniParc. [20] База данных UniRef100 объединяет идентичные последовательности и фрагменты последовательностей (из любого организма ) в одну запись UniRef. Отображаются последовательность репрезентативного белка, номера доступа всех объединенных записей и ссылки на соответствующие записи UniProtKB и UniParc. Последовательности UniRef100 кластеризуются с использованием алгоритма CD-HIT для построения UniRef90 и UniRef50. [20] [21] Каждый кластер состоит из последовательностей, которые имеют по крайней мере 90% или 50% идентичности последовательности, соответственно, с самой длинной последовательностью. Кластеризация последовательностей значительно уменьшает размер базы данных, что позволяет ускорить поиск последовательностей.

UniRef доступен на FTP-сайте UniProt.

Финансирование

UniProt финансируется за счет грантов Национального института исследований генома человека , Национальных институтов здравоохранения (NIH), Европейской комиссии , Федерального правительства Швейцарии через Федеральное управление образования и науки, NCI-caBIG и Министерства обороны США. [11]

Ссылки

  1. ^ UniProt, Consortium. (Январь 2015). «UniProt: центр информации о белках». Nucleic Acids Research . 43 (выпуск базы данных): D204–12. doi :10.1093/nar/gku989. PMC  4384041. PMID  25348405 .
  2. ^ Дейхофф, Маргарет О. (1965). Атлас последовательности и структуры белка . Силвер-Спринг, Мэриленд: Национальный фонд биомедицинских исследований.
  3. ^ "Выпуск 2002: NHGRI финансирует глобальную базу данных белков". Национальный институт исследований генома человека (NHGRI) . Архивировано из оригинала 24 сентября 2015 года . Получено 14 апреля 2018 года .
  4. ^ O'Donovan, C.; Martin, MJ; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "Высококачественный ресурс знаний о белках: SWISS-PROT и TrEMBL". Briefings in Bioinformatics . 3 (3): 275–284 . doi : 10.1093/bib/3.3.275 . PMID  12230036. Архивировано из оригинала 24.01.2024 . Получено 24.01.2024 .
  5. ^ Ву, CH; Да, ЛС; Хуанг, Х.; Армински, Л.; Кастро-Альвеар, Дж.; Чен, Ю.; Ху, З.; Куртезис, П.; Ледли, РС; Сузек, Б.Е.; Винаяка, ЧР; Чжан, Дж.; Баркер, WC (2003). «Информационный ресурс о белках». Исследования нуклеиновых кислот . 31 (1): 345–347 . doi :10.1093/nar/gkg040. ПМК 165487 . ПМИД  12520019. 
  6. ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martin, MJ; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "База знаний о белках SWISS-PROT и ее дополнение TrEMBL в 2003 году". Nucleic Acids Research . 31 (1): 365– 370. doi :10.1093/nar/gkg095. PMC 165542. PMID  12520024 . 
  7. ^ Bairoch, A.; Apweiler, R. (1996). «Банк данных последовательности белков SWISS-PROT и его новое дополнение TREMBL». Nucleic Acids Research . 24 (1): 21– 25. doi :10.1093 / nar/24.1.21. PMC 145613. PMID  8594581. 
  8. ^ Bairoch, A. (2000). «Serendipity in bioinformatics, the tributlings of a Swiss bioinformatics through thrill times!». Bioinformatics . 16 (1): 48– 64. doi : 10.1093/bioinformatics/16.1.48 . PMID  10812477. Архивировано из оригинала 2024-02-05 . Получено 2024-02-05 .
  9. ^ Северин Альтаирак, «Naissance d'une Banque de Données: Интервью профессора Амоса Байроха. Архивировано 12 июля 2010 г. в Wayback Machine ». Protéines à la Une. Архивировано 21 июня 2011 г. в Wayback Machine , август 2006 г. ISSN  1660-9824.
  10. ^ abc Apweiler, R.; Bairoch, A.; Wu, CH (2004). «Базы данных последовательностей белков». Current Opinion in Chemical Biology . 8 (1): 76– 80. doi :10.1016/j.cbpa.2003.12.004. PMID  15036160.
  11. ^ ab Uniprot, C. (2009). «Универсальный белковый ресурс (UniProt) в 2010 году». Nucleic Acids Research . 38 (выпуск базы данных): D142 – D148 . doi :10.1093/nar/gkp846. PMC 2808944. PMID 19843607  .  
  12. ^ "UniProtKB/Swiss-Prot Release 2023_01 statistics". web.expasy.org . Архивировано из оригинала 4 апреля 2023 г. . Получено 31 марта 2023 г. .
  13. ^ abc "Как вручную аннотировать запись UniProtKB?". UniProt . 21 сентября 2011 г. Архивировано из оригинала 13 декабря 2013 г. Получено 14 апреля 2018 г.
  14. ^ аб Апвейлер, Р.; Байрох, А.; Ву, CH; Баркер, туалет; Бекманн, Б.; Ферро, С.; Гастайгер, Э.; Хуанг, Х.; Лопес, Р.; Магран, М.; Мартин, MJ; Натале, округ Колумбия; о'Донован, К.; Редаски, Н.; Да, Л.С. (2004). «UniProt: Универсальная база знаний по белкам». Исследования нуклеиновых кислот . 32 (90001): 115Д–1119. дои : 10.1093/nar/gkh131 . ПМК 308865 . ПМИД  14681372. 
  15. ^ «Откуда берутся последовательности белков UniProtKB?». UniProt . 21 сентября 2011 г. Архивировано из оригинала 15 декабря 2013 г. Получено 14 апреля 2018 г.
  16. ^ Хассабис, Демис (22 июля 2022 г.). «Передача власти AlphaFold в руки мира». Deepmind . Архивировано из оригинала 24 июля 2021 г. Получено 24 июля 2021 г.
  17. ^ Leinonen, R.; Diez, FG; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics . 20 (17): 3236– 3237. doi : 10.1093/bioinformatics/bth191 . PMID  15044231. Архивировано (PDF) из оригинала 30 марта 2024 г.
  18. ^ "Protein Research Foundation". Архивировано из оригинала 2010-08-30 . Получено 2010-08-25 .
  19. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ постоянная мертвая ссылка ‍ ]
  20. ^ ab Suzek, BE; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). «UniRef: всеобъемлющие и неизбыточные справочные кластеры UniProt». Биоинформатика . 23 (10): 1282– 1288. doi :10.1093/bioinformatics/btm098. PMID  17379688.
  21. ^ Ли, В.; Ярошевский, Л.; Годзик, А. (2001). «Кластеризация высоко гомологичных последовательностей для уменьшения размера больших баз данных белков». Биоинформатика . 17 (3): 282– 283. doi :10.1093/bioinformatics/17.3.282. PMID  11294794.
  • UniProt
Взято с "https://en.wikipedia.org/w/index.php?title=UniProt&oldid=1258970372#UniProtKB.2FSwiss-Prot"