Химическая база данных — это база данных , специально разработанная для хранения химической информации . Эта информация касается химических и кристаллических структур , спектров, реакций и синтезов, а также термофизических данных.
Базы данных по биоактивности сопоставляют структуры или другую химическую информацию с результатами биоактивности, взятыми из биологических анализов в литературе, патентах и программах скрининга.
Имя | Разработчик(и) | Первоначальный выпуск |
---|---|---|
СкрабХем | Джейсон Брет Харрис | 2016 [1] [2] |
ChEMBL | EMBL-EBI | 2009 [3] |
Reaxys биоактивность DB | Эльзевир | 2017 |
PubChem-BioAssay | Национальные институты здравоохранения США | 2004 [4] [5] |
Химические структуры традиционно представляются с помощью линий, указывающих химические связи между атомами и нарисованных на бумаге (двумерные структурные формулы ). Хотя это идеальные визуальные представления для химика , они не подходят для вычислительного использования и особенно для поиска и хранения . Малые молекулы (также называемые лигандами в приложениях по разработке лекарств) обычно представляются с помощью списков атомов и их связей. Большие молекулы, такие как белки, однако, более компактно представляются с помощью последовательностей их аминокислотных строительных блоков. Радиоактивные изотопы также представлены, что является важным атрибутом для некоторых приложений. Ожидается, что большие химические базы данных для структур будут обрабатывать хранение и поиск информации о миллионах молекул, занимая терабайты физической памяти. [6] [7]
Базы данных химической литературы сопоставляют структуры или другую химическую информацию с соответствующими ссылками, такими как научные статьи или патенты. К этому типу баз данных относятся STN , Scifinder и Reaxys . Ссылки на литературу также включены во многие базы данных, которые фокусируются на химической характеристике.
Кристаллографические базы данных хранят данные о структуре рентгеновских кристаллов. Распространенными примерами являются Protein Data Bank и Cambridge Structural Database .
Базы данных спектров ЯМР коррелируют химическую структуру с данными ЯМР. Эти базы данных часто включают другие данные о характеристиках, такие как FTIR и масс-спектрометрия .
Большинство химических баз данных хранят информацию о стабильных молекулах , но в базах данных для реакций также хранятся промежуточные продукты и временно созданные нестабильные молекулы. Базы данных реакций содержат информацию о продуктах, исходных веществах и механизмах реакций .
Популярным примером, содержащим данные о химических реакциях , является база данных Beilstein , Reaxys.
Теплофизические данные представляют собой информацию о
Существует два основных метода представления химических структур в цифровых базах данных.
Эти подходы были усовершенствованы, чтобы позволить представление стереохимических различий и зарядов, а также особых видов связей, таких как те, которые наблюдаются в органо-металлических соединениях. Главным преимуществом компьютерного представления является возможность увеличения памяти и быстрого, гибкого поиска.
Химики могут выполнять поиск в базах данных, используя части структур, части их названий IUPAC , а также на основе ограничений свойств. Химические базы данных отличаются от других баз данных общего назначения поддержкой поиска подструктур, метода извлечения химикатов, соответствующих шаблону атомов и связей, который указывает пользователь. Этот вид поиска достигается путем поиска изоморфизма подграфа (иногда также называемого мономорфизмом ) и является широко изученным применением теории графов . [8] [9] [10]
Структуры запросов могут содержать шаблоны связей, такие как «одиночный/ароматический» или «любой», чтобы обеспечить гибкость. Аналогично, вершины, которые в реальном соединении были бы определенным атомом, могут быть заменены списком атомов в запросе. Цис - транс -изомерия в двойных связях обеспечивается путем предоставления выбора извлечения только формы E , формы Z или обеих. [8] [11]
Поиск путем сопоставления 3D-конформации молекул или путем указания пространственных ограничений — еще одна функция, которая особенно полезна при разработке лекарств . Поиск такого рода может быть очень затратным в вычислительном отношении. Было предложено много приближенных методов, например, BCUTS, [12] [13] [14] специальные функциональные представления, моменты инерции , гистограммы трассировки лучей , гистограммы максимального расстояния, мультиполи формы и многие другие. [15] [16] [17] [18] [19]
Большие базы данных, такие как PubChem [11] [20] и ChemSpider [21] , имеют графические интерфейсы для поиска. Chemical Abstracts Service предоставляет инструменты для поиска химической литературы, а Reaxys , поставляемый Elsevier, охватывает как информацию о химикатах, так и о реакциях, включая ту, что изначально хранилась в базе данных Beilstein [22 ]. PATENTSCOPE делает химические патенты доступными по подструктуре [23] , и статьи Википедии, описывающие отдельные химикаты, также можно искать таким образом. [24]
Поставщики химикатов в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга обычно предоставляют поисковые интерфейсы. В настоящее время крупнейшей базой данных, в которой общественность может свободно осуществлять поиск, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [25] [26]
Все свойства молекул за пределами их структуры можно разделить на физико-химические или фармакологические атрибуты, также называемые дескрипторами. Вдобавок к этому существуют различные искусственные и более или менее стандартизированные системы именования для молекул, которые предоставляют более или менее неоднозначные имена и синонимы . Имя ИЮПАК обычно является хорошим выбором для представления структуры молекулы в виде как удобочитаемой, так и уникальной строки , хотя оно становится громоздким для более крупных молекул. С другой стороны, тривиальные имена изобилуют омонимами и синонимами и, следовательно, являются плохим выбором в качестве определяющего ключа базы данных . В то время как физико-химические дескрипторы, такие как молекулярная масса , ( частичный ) заряд, растворимость и т. д., в основном могут быть вычислены напрямую на основе структуры молекулы, фармакологические дескрипторы могут быть получены только косвенно с использованием вовлеченной многомерной статистики или экспериментальных ( скрининг , биопробы ) результатов. Все эти дескрипторы могут по причинам вычислительных усилий храниться вместе с представлением молекулы и обычно так и есть.
Не существует единого определения молекулярного сходства, однако эта концепция может быть определена в соответствии с применением и часто описывается как обратная величина меры расстояния в пространстве дескрипторов. Две молекулы могут считаться более похожими, например, если их разница в молекулярном весе меньше, чем по сравнению с другими. Различные другие меры могут быть объединены для получения многомерной меры расстояния. Меры расстояния часто классифицируются на евклидовы меры и неевклидовы меры в зависимости от того, выполняется ли неравенство треугольника . Поиск подструктуры на основе максимального общего подграфа ( MCS ) [27] (мера сходства или расстояния) также очень распространен. MCS также используется для скрининга соединений, подобных лекарственным препаратам, путем поиска молекул, которые имеют общий подграф (подструктуру). [28]
Химикаты в базах данных могут быть сгруппированы в группы «похожих» молекул на основе сходства. Как иерархические, так и неиерархические подходы к кластеризации могут быть применены к химическим сущностям с несколькими атрибутами. Эти атрибуты или молекулярные свойства могут быть определены либо эмпирически, либо вычислительно полученными дескрипторами . Одним из самых популярных подходов к кластеризации является алгоритм Джарвиса-Патрика. [29]
В фармакологически ориентированных химических репозиториях сходство обычно определяется с точки зрения биологических эффектов соединений ( ADME /tox), которые, в свою очередь, могут быть полуавтоматически выведены из схожих комбинаций физико-химических дескрипторов с использованием методов QSAR .
Системы баз данных для ведения уникальных записей о химических соединениях называются системами регистрации. Они часто используются для химической индексации, патентных систем и промышленных баз данных.
Системы регистрации обычно обеспечивают уникальность химического вещества, представленного в базе данных, посредством использования уникальных представлений. Применяя правила приоритета для генерации строковых обозначений, можно получить уникальные/' канонические ' строковые представления, такие как 'канонические SMILES '. Некоторые системы регистрации, такие как система CAS, используют алгоритмы для генерации уникальных хэш-кодов для достижения той же цели.
Ключевое различие между системой регистрации и простой химической базой данных заключается в возможности точно представлять то, что известно, неизвестно и частично известно. Например, химическая база данных может хранить молекулу с неопределенной стереохимией , тогда как система химического реестра требует от регистратора указать, является ли стереоконфигурация неизвестной, определенной (известной) смесью или рацемической . Каждая из этих записей будет считаться отдельной записью в системе химического реестра.
Системы регистрации также предварительно обрабатывают молекулы, чтобы избежать учета незначительных различий, таких как различия в содержании ионов галогенов в химических веществах.
Примером может служить система регистрации Chemical Abstracts Service (CAS). См. также номер реестра CAS .
Имя | Разработчик(и) | Первоначальный выпуск |
---|---|---|
Хранилище CDD | Совместное открытие лекарств | 2018 [40] [41] [42] |
Adroit Репозиторий [43] | Ловкий DI [44] | 2023 [45] [46] |
Реаксисы | Эльзевир | 1989 |
Вычислительные представления обычно делаются прозрачными для химиков с помощью графического отображения данных. Ввод данных также упрощается с помощью редакторов химической структуры. Эти редакторы внутренне преобразуют графические данные в вычислительные представления.
Также существует множество алгоритмов для взаимопреобразования различных форматов представления. OpenBabel — утилита с открытым исходным кодом для преобразования . Эти алгоритмы поиска и преобразования реализуются либо в самой системе базы данных, либо, как сейчас принято, реализуются в виде внешних компонентов, которые вписываются в стандартные реляционные системы баз данных. Системы на базе Oracle и PostgreSQL используют технологию картриджей , которая позволяет определять типы данных пользователем. Они позволяют пользователю делать запросы SQL с условиями химического поиска (например, запрос на поиск записей, имеющих фенильное кольцо в своей структуре, представленный в виде строки SMILES в столбце SMILESCOL, может быть
ВЫБЕРИТЕ * ИЗ CHEMTABLE , ГДЕ SMILESCOL . СОДЕРЖИТ ( 'c1ccccc1' )
Алгоритмы преобразования названий ИЮПАК в структурные представления и наоборот также используются для извлечения структурной информации из текста . Однако существуют трудности из-за существования множественных диалектов ИЮПАК. Ведется работа по созданию единого стандарта ИЮПАК (см. InChI ).
47. https://www.elsevier.com/en-in/products/reaxys