Химическая база данных

Химическая база данных — это база данных , специально разработанная для хранения химической информации . Эта информация касается химических и кристаллических структур , спектров, реакций и синтезов, а также термофизических данных.

Типы химических баз данных

База данных биоактивности

Базы данных по биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, взятыми из биологических анализов в литературе, патентах и ​​программах скрининга.

ИмяРазработчик(и)Первоначальный выпуск
СкрабХемДжейсон Брет Харрис2016 [1] [2]
ChEMBLEMBL-EBI2009 [3]
Reaxys биоактивность DBЭльзевир2017
PubChem-BioAssayНациональные институты здравоохранения США 2004 [4] [5]

Химические структуры

Химические структуры традиционно представляются с помощью линий, указывающих химические связи между атомами и нарисованных на бумаге (двумерные структурные формулы ). Хотя это идеальные визуальные представления для химика , они не подходят для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Большие молекулы, такие как белки, однако, более компактно представляются с помощью последовательностей их аминокислотных строительных блоков. Радиоактивные изотопы также представлены, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных для структур будут обрабатывать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти. [6] [7]

База данных литературы

Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, которые фокусируются на химической характеристике.

Кристаллографическая база данных

Кристаллографические базы данных хранят данные о структуре рентгеновских кристаллов. Распространенными примерами являются Protein Data Bank и Cambridge Structural Database .

База данных спектров ЯМР

Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .

База данных реакций

Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных для реакций также хранятся промежуточные продукты и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, исходных веществах и механизмах реакций .

Популярным примером, содержащим данные о химических реакциях , является база данных Beilstein , Reaxys.

База данных термофизических данных

Теплофизические данные представляют собой информацию о

Представление химической структуры

Существует два основных метода представления химических структур в цифровых базах данных.

Эти подходы были усовершенствованы, чтобы позволить представление стереохимических различий и зарядов, а также особых видов связей, таких как те, которые наблюдаются в органо-металлических соединениях. Главным преимуществом компьютерного представления является возможность увеличения памяти и быстрого, гибкого поиска.

Подструктура

Препарат леналидомид содержит подструктуры изоиндолина (красный) и глутаримида (синий).

Химики могут выполнять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных отличаются от других баз данных общего назначения поддержкой поиска подструктур, метода извлечения химикатов, соответствующих шаблону атомов и связей, который указывает пользователь. Этот вид поиска достигается путем поиска изоморфизма подграфа (иногда также называемого мономорфизмом ) и является широко изученным применением теории графов . [8] [9] [10]

Структуры запросов могут содержать шаблоны связей, такие как «одиночный/ароматический» или «любой», чтобы обеспечить гибкость. Аналогично, вершины, которые в реальном соединении были бы определенным атомом, могут быть заменены списком атомов в запросе. Цис - транс -изомерия в двойных связях обеспечивается путем предоставления выбора извлечения только формы E , формы Z или обеих. [8] [11]

Конформация

Поиск путем сопоставления 3D-конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиск такого рода может быть очень затратным в вычислительном отношении. Было предложено много приближенных методов, например, BCUTS, [12] [13] [14] специальные функциональные представления, моменты инерции , гистограммы трассировки лучей , гистограммы максимального расстояния, мультиполи формы и многие другие. [15] [16] [17] [18] [19]

Примеры

Большие базы данных, такие как PubChem [11] [20] и ChemSpider [21] , имеют графические интерфейсы для поиска. Chemical Abstracts Service предоставляет инструменты для поиска химической литературы, а Reaxys , поставляемый Elsevier, охватывает как информацию о химикатах, так и о реакциях, включая ту, что изначально хранилась в базе данных Beilstein [22 ]. PATENTSCOPE делает химические патенты доступными по подструктуре [23] , и статьи Википедии, описывающие отдельные химикаты, также можно искать таким образом. [24]

Поставщики химикатов в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга обычно предоставляют поисковые интерфейсы. В настоящее время крупнейшей базой данных, в которой общественность может свободно осуществлять поиск, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [25] [26]

Дескрипторы

Все свойства молекул за пределами их структуры можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Вдобавок к этому существуют различные искусственные и более или менее стандартизированные системы именования для молекул, которые предоставляют более или менее неоднозначные имена и синонимы . Имя ИЮПАК обычно является хорошим выбором для представления структуры молекулы в виде как удобочитаемой, так и уникальной строки , хотя оно становится громоздким для более крупных молекул. С другой стороны, тривиальные имена изобилуют омонимами и синонимами и, следовательно, являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в основном могут быть вычислены напрямую на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно с использованием вовлеченной многомерной статистики или экспериментальных ( скрининг , биопробы ) результатов. Все эти дескрипторы могут по причинам вычислительных усилий храниться вместе с представлением молекулы и обычно так и есть.

Сходство

Не существует единого определения молекулярного сходства, однако эта концепция может быть определена в соответствии с применением и часто описывается как обратная величина меры расстояния в пространстве дескрипторов. Две молекулы могут считаться более похожими, например, если их разница в молекулярном весе меньше, чем по сравнению с другими. Различные другие меры могут быть объединены для получения многомерной меры расстояния. Меры расстояния часто классифицируются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . Поиск подструктуры на основе максимального общего подграфа ( MCS ) [27] (мера сходства или расстояния) также очень распространен. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем поиска молекул, которые имеют общий подграф (подструктуру). [28]

Химикаты в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. Как иерархические, так и неиерархические подходы к кластеризации могут быть применены к химическим сущностям с несколькими атрибутами. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо вычислительно полученными дескрипторами . Одним из самых популярных подходов к кластеризации является алгоритм Джарвиса-Патрика. [29]

В фармакологически ориентированных химических репозиториях сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из схожих комбинаций физико-химических дескрипторов с использованием методов QSAR .

Системы регистрации

Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.

Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, посредством использования уникальных представлений. Применяя правила приоритета для генерации строковых обозначений, можно получить уникальные/' канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хэш-кодов для достижения той же цели.

Ключевое различие между системой регистрации и простой химической базой данных заключается в возможности точно представлять то, что известно, неизвестно и частично известно. Например, химическая база данных может хранить молекулу с неопределенной стереохимией , тогда как система химического реестра требует от регистратора указать, является ли стереоконфигурация неизвестной, определенной (известной) смесью или рацемической . Каждая из этих записей будет считаться отдельной записью в системе химического реестра.

Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета незначительных различий, таких как различия в содержании ионов галогенов в химических веществах.

Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также номер реестра CAS .

Список химических патронов

  • Согласие
  • Прямой [30]
  • J Chem [31]
  • КембриджСофт [32]
  • Бинго [33]
  • Точечный [34]

Список систем регистрации химических веществ

  • ХимРег [35]
  • Регистрация [36]
  • РегМол [37]
  • Соединение-Регистрация [38]
  • Ансамбль [39]

Веб-ориентированный

ИмяРазработчик(и)Первоначальный выпуск
Хранилище CDDСовместное открытие лекарств 2018 [40] [41] [42]
Adroit Репозиторий [43]Ловкий DI [44]2023 [45] [46]
РеаксисыЭльзевир1989

Инструменты

Вычислительные представления обычно делаются прозрачными для химиков с помощью графического отображения данных. Ввод данных также упрощается с помощью редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.

Также существует множество алгоритмов для взаимопреобразования различных форматов представления. OpenBabel — утилита с открытым исходным кодом для преобразования . Эти алгоритмы поиска и преобразования реализуются либо в самой системе базы данных, либо, как сейчас принято, реализуются в виде внешних компонентов, которые вписываются в стандартные реляционные системы баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет определять типы данных пользователем. Они позволяют пользователю делать запросы SQL с условиями химического поиска (например, запрос на поиск записей, имеющих фенильное кольцо в своей структуре, представленный в виде строки SMILES в столбце SMILESCOL, может быть

 ВЫБЕРИТЕ * ИЗ CHEMTABLE , ГДЕ SMILESCOL . СОДЕРЖИТ ( 'c1ccccc1' )     

Алгоритмы преобразования названий ИЮПАК в структурные представления и наоборот также используются для извлечения структурной информации из текста . Однако существуют трудности из-за существования множественных диалектов ИЮПАК. Ведется работа по созданию единого стандарта ИЮПАК (см. InChI ).

Смотрите также

Ссылки

  1. ^ "Home Page - ScrubChem". scrubchem.org . Архивировано из оригинала 26 мая 2017 года.
  2. ^ Харрис, Дж. Б. (2019). «Постобработка больших данных о биологической активности». Биоинформатика и открытие лекарств . Методы Mol Biol. Т. 1939. стр.  37–47 . doi :10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. PMID  30848455. S2CID  73493315.
  3. ^ «База данных ChEMBL».
  4. ^ "ПабХим". pubchem.ncbi.nlm.nih.gov .
  5. ^ Ван, Y; Брайант, SH; Ченг, T; Ван, J; Гиндулите, A; Шумейкер, BA; Тиссен, PA; Хе, S; Чжан, J (2017). "PubChem BioAssay: обновление 2017 года". Nucleic Acids Res . 45 (D1): D955 – D963 . doi :10.1093/nar/gkw1118. PMC 5210581. PMID  27899599.  
  6. ^ Хоффманн, Торстен; Гастрейх, Маркус (2019). «Следующий уровень в химической космической навигации: выход за рамки перечислимых библиотек соединений». Drug Discovery Today . 24 (5): 1148– 1156. doi : 10.1016/j.drudis.2019.02.013 . PMID  30851414.
  7. ^ Садыбеков, Анастасия В.; Катрич, Всеволод (2023). «Вычислительные подходы, упрощающие открытие лекарств». Nature . 616 (7958): 673– 685. Bibcode :2023Natur.616..673S. doi : 10.1038/s41586-023-05905-z . PMID  37100941.
  8. ^ ab Currano, Judith N. (2014). "Глава 5. Поиск по структуре и подструктуре". Химическая информация для химиков . стр.  109–145 . doi :10.1039/9781782620655-00109. ISBN 978-1-84973-551-3.
  9. ^ Ульман, Дж. Р. (1976). «Алгоритм изоморфизма подграфов». Журнал ACM . 23 : 31–42 . doi : 10.1145/321921.321925 .
  10. ^ Уорр, Венди А. (2011). «Представление химических структур». WIREs Computational Molecular Science . 1 (4): 557– 579. doi :10.1002/wcms.36.
  11. ^ ab "Поиск структуры PubChem". pubchem.ncbi.nlm.nih.gov . Получено 01.08.2024 .
  12. ^ Перлман, RS; Смит, KM (1999). «Метрическая валидация и концепция подпространства, соответствующего рецептору». J. Chem. Inf. Comput. Sci . 39 : 28– 35. doi :10.1021/ci980137x.
  13. ^ "BCUTDescriptor (cdk 2.5 API)". CDK - Chemistry Development Kit . 2021-05-05 . Получено 2024-06-04 .
  14. ^ Burden, Frank R. (1 августа 1989 г.). «Молекулярный идентификационный номер для поиска подструктур». Journal of Chemical Information and Computer Sciences . 29 (3): 225– 227. doi :10.1021/ci00063a011.
  15. ^ Перлман, RS; Смит, KM (1999). «Метрическая валидация и концепция подпространства, соответствующего рецептору». J. Chem. Inf. Comput. Sci . 39 : 28– 35. doi :10.1021/ci980137x.
  16. ^ Лин, младший, Хунг; Кларк, Тимоти (2005). «Аналитическое, переменное разрешение, полное описание статических молекул и их межмолекулярных связующих свойств». Журнал химической информации и моделирования . 45 (4): 1010– 1016. doi :10.1021/ci050059v. PMID  16045295.
  17. ^ Meek, PJ; Liu, Z.; Tian, ​​L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). «Shape Signatures: ускорение компьютерного поиска лекарств». DDT 2006. 19– 20 ( 19– 20): 895– 904. doi : 10.1016/j.drudis.2006.08.014. PMID  16997139.
  18. ^ Грант, Дж. А.; Галлардо, МА; Пикап, BT (1996). «Быстрый метод сравнения молекулярной формы: простое применение гауссовского описания молекулярной формы». Журнал вычислительной химии . 17 (14): 1653– 1666. doi :10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k. S2CID  96794688.
  19. ^ Ballester, PJ; Richards, WG (2007). «Сверхбыстрое распознавание форм для поиска сходства в молекулярных базах данных». Труды Королевского общества A. 463 ( 2081): 1307– 1321. Bibcode : 2007RSPSA.463.1307B. doi : 10.1098/rspa.2007.1823. S2CID  12540483.
  20. ^ Ким, Сонгхван (2021). «Изучение химической информации в PubChem». Текущие протоколы . 1 (8): e217. doi :10.1002/cpz1.217. PMC 8363119. PMID  34370395 . 
  21. ^ Уильямс, Энтони Дж. (2010). «ChemSpider: Интеграция структурно-ориентированных ресурсов, распределенных по Интернету». Улучшение обучения с помощью онлайн-ресурсов, социальных сетей и цифровых библиотек . Серия симпозиумов ACS. Том 1060. С.  23–39 . doi :10.1021/bk-2010-1060.ch002. ISBN 978-0-8412-2600-5.
  22. ^ Jarabak, Charlotte; Mutton, Troy; Ridley, Damon D. (2020). «Информация о свойствах в записях о веществах в основных веб-инструментах поиска химической информации и данных: понимание контента, возможности поиска и применение в обучении». Журнал химического образования . 97 (5): 1345–1359 . Bibcode : 2020JChEd..97.1345J. doi : 10.1021/acs.jchemed.9b00966.
  23. ^ "Поиск подструктур теперь доступен в PATENTSCOPE". www.wipo.int . 2019-02-11 . Получено 2024-08-04 .
  24. ^ Эртл, Питер; Патини, Люк; Сандер, Томас; и др. (2015). «Wikipedia Chemical Structure Explorer: Substructure and similarity search of Molecules from Wikipedia». Journal of Cheminformatics . 7 : 10. doi : 10.1186/s13321-015-0061-y . PMC 4374119. PMID  25815062 . 
  25. ^ Tingle, Benjamin I.; Tang, Khanh G.; Castanon, Mar; Gutierrez, John J.; Khurelbaatar, Munkhzul; Dandarchuluun, Chinzorig; Moroz, Yurii S.; Irwin, John J. (2023). "ZINC-22─A Free Multi-Billion-Scale Database of Tangible Compounds for Ligand Discovery". Journal of Chemical Information and Modeling . 63 (4): 1166– 1176. doi : 10.1021/acs.jcim.2c01253 . PMC 9976280. PMID  36790087 . 
  26. ^ Warr, Wendy A.; Nicklaus, Marc C.; Nicolaou, Christos A.; Rarey, Matthias (2022). «Исследование сверхбольших коллекций соединений для открытия лекарств». Journal of Chemical Information and Modeling . 62 (9): 2021–2034 . doi :10.1021/acs.jcim.2c00224. PMID  35421301.
  27. ^ Рахман, СА; Баштон, М.; Холлидей, GL; Шрадер, Р.; Торнтон, Дж. М. (2000). "Набор инструментов для обнаружения подграфов малых молекул (SMSD)". Журнал химинформатики . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491. PMID  20298518 . 
  28. ^ Рахман, С. Асад; Баштон, М.; Холлидей, GL; Шрадер, Р.; Торнтон, Дж. М. (2009). «Набор инструментов для обнаружения подграфов малых молекул (SMSD)». Журнал химинформатики . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491. PMID  20298518 . 
  29. ^ Бутина, Дарко (1999). «Неконтролируемая кластеризация баз данных на основе отпечатков пальцев Дэйлайта и сходства Танимото: быстрый и автоматизированный способ кластеризации малых и больших наборов данных». Chem. Inf. Comput. Sci . 39 (4): 747– 750. doi :10.1021/ci9803381.
  30. ^ «BIOVIA Direct — BIOVIA — Dassault Systèmes®» . 8 сентября 2023 г.
  31. ^ "JChem Engines | ChemAxon".
  32. ^ «Химия – Oracle Cartridge | Внутри информатики».
  33. ^ Павлов, Д.; Рыбалкин, М.; Карулин, Б. (2010). "Бинго от SciTouch LLC: картридж Chemistry для базы данных Oracle". Журнал химинформатики . 2 (Приложение 1): F1. doi : 10.1186/1758-2946-2-S1-F1 . PMC 2867114 . 
  34. ^ "Программное обеспечение для обнаружения малых молекул лекарств". Программное обеспечение для обнаружения малых молекул лекарств .
  35. ^ «Химическая регистрация BIOVIA - BIOVIA - Dassault Systèmes®» . www.3ds.com . 7 сентября 2023 г.
  36. ^ "Регистрация". Архивировано из оригинала 2021-12-10 . Получено 2021-03-13 .
  37. ^ "Scilligence RegMol | Scilligence". 6 июня 2016 г. Архивировано из оригинала 29 сентября 2018 г.
  38. ^ "Регистрация соединения". chemaxon.com .
  39. ^ «Блокнот сигналов — PerkinElmer Informatics». perkinelmerinformatics.com .
  40. ^ «Обновление хранилища CDD: хранилище CDD теперь является ELN». 16 февраля 2018 г.
  41. ^ "Электронная лабораторная тетрадь CDD (ELN)". 14 августа 2019 г.
  42. ^ «Электронные лабораторные тетради: что это такое (и зачем они вам нужны)». 4 августа 2019 г.
  43. ^ «Обзор SDF Pro от Adroit DI. Июнь 2023 г. – Mac в химии». 2023-11-05 . Получено 2024-03-11 .
  44. ^ "Главная страница Adroit DI". adroitdi.com . Получено 2024-03-10 .
  45. ^ «SDF Pro от Adroit DI: быстрое и доступное решение для хранения, сортировки и обработки 10 миллионов молекул за секунды». www.businesswire.com . 2023-05-16 . Получено 2024-03-10 .
  46. ^ "Регистрация лучших из лучших организаций". 20Visioneers15 . Получено 2024-03-10 .

47. https://www.elsevier.com/en-in/products/reaxys

  • Wikipedia Chemical Structure Explorer для поиска статей Wikipedia по химии по подструктуре
Получено с "https://en.wikipedia.org/w/index.php?title=Химическая_база_данных&oldid=1271894069"