Поиск подструктуры ( SSS ) — это метод извлечения из базы данных только тех химических веществ , которые соответствуют шаблону атомов и связей, указанному пользователем. Это приложение теории графов , в частности сопоставление подграфов , в котором запрос представляет собой обедненный водородом молекулярный граф . Математические основы метода были заложены в 1870-х годах, когда было высказано предположение, что чертежи химической структуры эквивалентны графам с атомами в качестве вершин и связями в качестве ребер. SSS в настоящее время является стандартной частью хемоинформатики и широко используется химиками-фармацевтами при разработке лекарств .
Существует множество коммерческих систем, которые предоставляют SSS, обычно имеющих графический интерфейс пользователя и программное обеспечение для рисования химических веществ. Таким образом можно осуществлять поиск в больших общедоступных базах данных, таких как PubChem и ChemSpider , а также в статьях Википедии, описывающих отдельные химикаты.
Поиск подструктуры используется для извлечения из базы данных химических веществ тех, которые содержат указанный пользователем шаблон атомов и связей. Он реализуется с использованием специального типа языка запросов , и в реальных приложениях поиск может быть дополнительно ограничен с использованием логических операторов на дополнительных данных, хранящихся в базе данных. Таким образом, «возвращаются все карбоновые кислоты , где доступен образец >1 г». [1] [2] Одно определение «подструктуры» было дано в 2008 году: «при наличии двух химических структур A и B, если структура A полностью содержится в структуре B, то A является подструктурой B, в то время как B является надструктурой A». [3]
молекулярный граф : граф с по-разному помеченными (окрашенными) вершинами (хроматический граф), которые представляют различные виды атомов и по-разному помеченные (окрашенные) ребра, относящиеся к различным типам связей. В топологической теории распределения электронов, полная сеть путей связей для данной ядерной конфигурации. [4]
В этом определении слово «структура» не является синонимом « соединения ». Если бы это было так, структура этанола , CH 3 CH 2 OH, не была бы подструктурой пропанола , CH 3 CH 2 CH 2 OH , поскольку конечный CH 3 этанола не полностью содержится в пропанольной цепи на расстоянии двух атомов от группы OH. Вместо этого структура запроса формально является обедненным водородом молекулярным графом . Таким образом, поиск ведется для веществ, которые содержат три атома и две одинарные связи, соединенные как C–C–O. Пропанол является «попаданием», как и диэтиловый эфир , с C–C–O–C–C. Если пользователь хочет ограничить попадания спиртами , то структура запроса должна быть нарисована с «явным водородом», поскольку C–C–O–H и эфир больше не будут соответствовать. [1] В математических терминах поиск подструктур является применением теории графов , в частности сопоставлением подграфов . [5]
Стандартные соглашения, используемые химиками при построении химических структур [6], необходимо учитывать при реализации поиска подструктур. Исторически сложилось так, что представление форм таутомера [7] и стереохимии [8] вызывало трудности. Это можно проиллюстрировать с помощью гистидина . [9]
Верхний ряд показывает стандартный двумерный химический рисунок для (S)-гистидина (природного изомера этой аминокислоты ), его энантиомера (R)-гистидина и рисунок, который условно указывает на рацемическую смесь равных количеств форм R и S. [10] Нижний ряд показывает те же три соединения с имидазольным кольцом, нарисованным в его альтернативной таутомерной форме. Для гистидина было экспериментально определено с помощью спектроскопии ЯМР 15 N, что таутомер 1-H предпочтительнее формы 3-H в образцах. [11] Выбор представления для хранения в базе данных может влиять на поиск субструктур. Все шесть рисунков являются совпадениями для пропанольной субструктуры C–C–C–O, как показано красным цветом. Однако, только верхняя строка, по-видимому, будет совпадением для синей субструктуры 1-H имидазол-4-метил, поскольку она не полностью содержится в трех других соединениях. Фактически, каждая вертикальная пара представляет собой одно и то же химическое вещество: таутомеры в целом не могут быть изолированы как отдельные образцы. [7] В современных базах данных вещества хранятся в единой канонической форме с проверками на уникальность. InChIKey предоставляет один из способов сделать это. [9] Стандартный ключ (S)-гистидина - HNDVDQJCIGZPNO-YFKPBYRVSA-N, [12] ключ (R)-гистидина - HNDVDQJCIGZPNO-RXMQYKEDSA-N [13] и ключ (RS)-гистидина - HNDVDQJCIGZPNO-UHFFFAOYSA-N. [14] Первый блок из 14 букв идентичен для всех этих веществ, так как он кодирует молекулярный граф. [9]
Большинство систем поиска подструктур предоставляют пользователю графический интерфейс с компонентом чертежа химической структуры . Структуры запросов могут содержать шаблоны связей, такие как «одиночный/ароматический» или «любой», чтобы обеспечить гибкость. Аналогично, вершины, которые в реальном соединении были бы определенным атомом, могут быть заменены списком атомов в запросе. Цис - транс -изомерия в двойных связях удовлетворяется путем предоставления выбора извлечения только формы E , формы Z или обеих. [1] [15]
Алгоритмы поиска требуют больших вычислительных затрат, часто с временной сложностью O ( n 3 ) или O ( n 4 ) (где n — число задействованных атомов), но известно, что проблема является NP-полной . [16] Ускорение достигается с использованием скрининга фрагментов в качестве первого шага. Это предварительное вычисление обычно включает создание битовых строк, представляющих наличие или отсутствие молекулярных фрагментов. Целевые соединения, которые не обладают фрагментами, присутствующими в запросе, не могут быть найдены и исключаются. [17] [18] Поиск по атомам, при котором ищется отображение атомов и связей запроса с целевой молекулой, обычно выполняется с помощью варианта алгоритма Ульмана. [5] [19]
С 2024 года [обновлять]поиск по субструктуре является стандартной функцией в химических базах данных, доступных через Интернет . Крупные базы данных, такие как PubChem , [20] [15], поддерживаемая Национальным центром биотехнологической информации , и ChemSpider , [21], поддерживаемая Королевским химическим обществом, имеют графические интерфейсы для поиска. Chemical Abstracts Service , подразделение Американского химического общества , предоставляет инструменты для поиска в химической литературе, а Reaxys , поставляемый Elsevier, охватывает как химические вещества, так и информацию о реакциях, включая ту, которая изначально хранилась в базе данных Beilstein . [22] PATENTSCOPE, поддерживаемый Всемирной организацией интеллектуальной собственности, делает химические патенты доступными по субструктуре [23] , и статьи Википедии, описывающие отдельные химические вещества, также могут быть найдены таким образом. [24]
Поставщики химикатов в качестве промежуточных продуктов синтеза или для высокопроизводительного скрининга обычно предоставляют поисковые интерфейсы. В настоящее время крупнейшей базой данных, в которой общественность может свободно осуществлять поиск, является база данных ZINC , которая, как утверждается, содержит более 37 миллиардов коммерчески доступных молекул. [25] [26]
Идея о том, что химические структуры, изображенные с помощью рисунков типа введенного Кекуле, связаны с тем, что сейчас называется теорией графов, была предложена математиком Дж. Дж. Сильвестром в 1878 году. Он был первым, кто использовал слово «граф» в смысле сети . [27] [28] Артур Кэли уже в 1874 году рассматривал, как перечислить химические изомеры , в том, что было ранним подходом к молекулярным графам , где атомы находятся в вершинах , а связи соответствуют ребрам . [29] [30]
Структурная формула : формула, которая дает информацию о том, как атомы в молекуле соединены и расположены в пространстве. [31]
В 20 веке химики разработали стандартные способы отображения структурной формулы , особенно для отдельных органических соединений , которые все чаще синтезировались и тестировались в качестве потенциальных лекарств или агрохимикатов, [32] [6] К 1950-м годам, по мере роста числа производимых и тестируемых соединений, были предприняты первые попытки создания химических баз данных и была создана субдисциплина хеминформатики . [33] Как было заявлено в 2012 году, «поиск подструктур в молекулах относится к наиболее элементарным задачам в хеминформатике и в настоящее время является частью практически любого программного обеспечения хеминформатики». [34]
Первое предложенное использование поиска подструктуры было в 1957 году, чтобы уменьшить нагрузку на патентных экспертов . Им приходится искать опубликованную литературу, чтобы решить, является ли изобретение новым, что для химических патентов часто означает поиск известных примеров в общих формулах формулы Маркуша. [35] [33] Прежде чем это могло стать реальностью, потребовалось несколько разработок. Важно, что существующая литература должна была быть доступна для поиска, и нужно было разработать способ ввода запроса химической структуры и возврата соответствующих результатов. Эти требования были частично выполнены еще в 1881 году, когда Фридрих Конрад Бейльштейн представил Handbuch der organischen Chemie ( Справочник по органической химии ), который тщательно классифицировал известные химикаты очень систематическим образом, так что все примеры, содержащие заданный гетероцикл, были бы расположены вместе. [36] [37]
В 1907 году Американское химическое общество создало Chemical Abstracts Service (CAS). Эта еженедельная подписная служба включала печатное издание с резюме статей в тысячах научных журналов и заявок на патенты по всему миру. Она имела индекс химических веществ, который, в принципе, позволял осуществлять поиск по химическому названию или формуле. [38] Однако только когда записи CAS были полностью преобразованы в машиночитаемую форму и Интернет стал доступен для подключения ее базы данных к конечным пользователям, всесторонний поиск стал возможен. CAS предоставляла различные специализированные поисковые услуги с 1980-х годов, но только в 2008 году ее система «SciFinder» стала доступна через Интернет . [39]
К 1960-м годам компании, синтезирующие и тестирующие новые химикаты, достигли значительного прогресса в создании внутренних баз данных. Imperial Chemical Industries хранила химические структуры, закодированные в виде текстовых строк , используя линейную нотацию Висвессера . Ее связанное программное обеспечение CROSSBOW позволяло выполнять поиск подструктур с использованием поиска на основе ключей, за которым следовал более ресурсоемкий поиск по атомам. [40] [41] Было признано, что химики-исследователи хотели не только искать в коллекциях компаний существующий инвентарь, но и искать в сторонних базах данных, поставляемых поставщиками промежуточных продуктов малых молекул. Последнее приложение развивалось как сотрудничество с участием шести компаний с фармацевтическими интересами и их коммерческих поставщиков. [42] [9]
К 1980-м годам другие линейные нотации использовались для коммерчески доступных систем поиска подструктур. Кодировка SMILES вместе с ее языком запросов SMARTS [43] и линейная нотация SYBYL [9] [44] являются примерами. [45] Всеобъемлющий обзор тогдашних химических информационных систем был подготовлен для NASA в 1985 году. [46]
Необходимость объединения химического поиска с биологическими данными, полученными путем скрининга соединений в более крупных масштабах, привела к внедрению таких систем, как MACCS. [46] : 73–77 [47] Эта коммерческая система от MDL Information Systems использовала алгоритм, специально разработанный для хранения и поиска в группах химических веществ, которые отличались только своей стереохимией. [48] Обзор многих систем, доступных к середине 1980-х годов, показал, что «большинство систем собственной разработки были заменены коммерчески доступным стандартизированным программным обеспечением для управления базами данных химической структуры». [49] MDL Molfile теперь является открытым форматом файла для хранения данных об отдельных молекулах в форме таблицы соединений. [50] [9]
К 2000-м годам персональные компьютеры стали достаточно мощными, чтобы стало возможным хранение и поиск химических данных в офисном программном обеспечении, таком как Microsoft Excel . [51]
Последующие разработки включали использование новых методов, позволяющих осуществлять эффективный поиск по очень большим базам данных и, что важно, использование стандартизированного Международного химического идентификатора , типа линейной нотации, для уникального определения химического вещества. [9] [25] [52] [53]
Таким образом, каждый инвариант и ковариант становится выразимым графиком,
точно
идентичным диаграмме Кекуле или хемикографу.