Произвольная спецификация цели SMILES

Спецификация произвольной цели SMILES (SMARTS) — это язык для задания субструктурных шаблонов в молекулах . Линейная нотация SMARTS выразительна и обеспечивает чрезвычайно точную и прозрачную субструктурную спецификацию и типизацию атомов.

SMARTS связан с нотацией линий SMILES , которая используется для кодирования молекулярных структур, и, как и SMILES, был первоначально разработан Дэвидом Вейнингером и коллегами из проекта по медицинской химии колледжа Помона (MedChem). Поисковая система программного обеспечения SMARTS под названием GENIE использовалась в качестве дополнительного пользовательского поискового фильтра в поисковой системе базы данных MedChem MERLIN. GENIE также использовался в интерпретируемом языке MedChem GCL (GENIE Control Language), где вводом был список структур. В GCL спецификация SMARTS использовалась в качестве выражения, которое можно было использовать в операторах потока управления. Например, «for (SMARTS) {...}» будет проходить по каждой подструктуре (текущей исследуемой структуры), которая соответствовала спецификации SMARTS. Дополнительная разработка SMARTS была сделана в Daylight Chemical Information Systems, Inc, частной компании, которая отделилась от программной части MedChem.

Наиболее полное описание языка SMARTS можно найти в руководстве по теории SMARTS от Daylight, [1] учебном пособии [2] и примерах. [3] Компания OpenEye Scientific Software разработала собственную версию SMARTS, которая отличается от оригинальной версии Daylight тем, как Rопределяется дескриптор (см. цикличность ниже).

Синтаксис SMARTS

Атомные свойства

Атомы могут быть указаны символом или атомным номером. Алифатический углерод соответствует [C], ароматический углерод — [c]и любой углерод — [#6]или [C,c]. Универсальные символы *, Aи aсоответствуют любому атому, любому алифатическому атому и любому ароматическому атому соответственно. Неявные водороды считаются характеристикой атомов, а SMARTS для аминогруппы можно записать как [NH2]. Заряд указывается дескрипторами +и -иллюстрируется SMARTS [nH+](протонированный ароматический атом азота) и [O-]C(=O)c(депротонированная ароматическая карбоновая кислота ).

Облигации

Можно указать несколько типов связей: -(одинарная), =(двойная), #(тройная), :(ароматическая) и ~(любая).

Связность

Дескрипторы Xи Dиспользуются для указания общего числа соединений (включая неявные атомы водорода) и соединений с явными атомами соответственно. Таким образом, [CX4]сопоставляет атомы углерода со связями с любыми четырьмя другими атомами, в то время как [CD4]сопоставляет четвертичный углерод.

Цикличность

Как изначально определено Daylight, Rдескриптор используется для указания членства в кольце. В модели Daylight для циклических систем наименьший набор наименьших колец (SSSR) [4] используется в качестве основы для членства в кольце. Например, индол воспринимается как 5-членное кольцо, слитое с 6-членным кольцом, а не как 9-членное кольцо. Два атома углерода, составляющие слияние колец, будут соответствовать, [cR2]а другие атомы углерода будут соответствовать [cR1].

Модель SSSR подверглась критике со стороны OpenEye [5] , которые в своей реализации SMARTS используют Rдля обозначения числа кольцевых связей для атома. Два атома углерода в кольцевом слиянии совпадают [cR3], а другие атомы углерода совпадают [cR2]в реализации SMARTS OpenEye. При использовании без числа Rуказывает на атом в кольце в обеих реализациях, например [CR](алифатический атом углерода в кольце).

Нижний регистр rуказывает размер наименьшего кольца, членом которого является атом. Атомы углерода в слиянии колец будут соответствовать [cr5]. Связи могут быть указаны как циклические, например, C@Cсоответствуют напрямую связанным атомам в кольце.

Логические операторы

Четыре логических оператора позволяют объединять дескрипторы атомов и связей. Оператор «и» ;может использоваться для определения протонированного первичного амина как [N;H3;+][C;X4]. Оператор «или» ,имеет более высокий приоритет, поэтому [c,n;H]определяет (ароматический углерод или ароматический азот) с неявным водородом. Оператор «и» &имеет более высокий приоритет, чем , ,поэтому [c,n&H]определяет ароматический углерод или (ароматический азот с неявным водородом).

Оператор «не» !можно использовать для определения ненасыщенного алифатического углерода как [C;!X4]и ациклических связей как *-!@*.

Рекурсивные SMARTS

Рекурсивные SMARTS позволяют детально описывать окружение атома. Например, более реактивные (по отношению к электрофильному ароматическому замещению ) орто- и пара -атомы углерода фенола можно определить как [$(c1c([OH])cccc1),$(c1ccc([OH])cc1)].

Примеры SMART

Компания Daylight собрала ряд наглядных примеров SMARTS.

Определения доноров и акцепторов водородных связей, используемые для применения правила пяти Липински [6], легко кодируются в SMARTS. Доноры определяются как атомы азота или кислорода, которые имеют по крайней мере один непосредственно связанный атом водорода:

[N,n,O;!H0]или [#7,#8;!H0](ароматический кислород не может иметь связанный водород)

Акцепторами считаются азот или кислород:

[N,n,O,o]или[#7,#8]

Простое определение алифатических аминов , которые, вероятно, протонируются при физиологическом pH, можно записать в виде следующей рекурсивной формулы SMARTS:

[$([NH2][CX4]),$([NH]([CX4])[CX4]),$([NX3]([CX4])([CX4])[CX4])]

В реальных приложениях CX4атомы необходимо определить более точно, чтобы предотвратить сопоставление с группами, оттягивающими электроны, такими как CF3 , которые могут сделать амин недостаточно основным для протонирования при физиологическом pH .

SMARTS можно использовать для кодирования фармакофорных элементов, таких как анионные центры. В следующем примере рекурсивная нотация SMARTS используется для объединения кислотного кислорода и тетразольного азота в определении атомов кислорода, которые, вероятно, будут анионными в нормальных физиологических условиях.

[$([OH][C,S,P]=O),$([nH]1nnnc1)]

SMARTS выше будет соответствовать только кислотному гидроксилу и тетразолу N−H. Когда карбоновая кислота депротонируется, отрицательный заряд делокализован по обоим атомам кислорода, и может быть желательно обозначить оба как анионные. Этого можно достичь с помощью следующих SMARTS.

[$([OH])C=O),$(O=C[OH])]

Приложения SMARTS

Точная и прозрачная спецификация подструктур, которую обеспечивает SMARTS, используется в ряде приложений.

Субструктурные фильтры, определенные в SMARTS, использовались [7] для идентификации нежелательных соединений при выполнении стратегического объединения соединений для высокопроизводительного скрининга. Процедура REOS (быстрое устранение swill) [8] использует SMARTS для фильтрации реактивных, токсичных и иных нежелательных фрагментов из баз данных химических структур.

RECAP [9] (Retrosynthetic Combinatory Analysis Procedure) использует SMARTS для определения типов связей. RECAP — это редактор молекул , который генерирует фрагменты структур путем разрыва связей определенных типов, а исходные точки связи в них указываются с помощью изотопных меток. Поиск в базах данных биологически активных соединений на предмет наличия фрагментов позволяет идентифицировать привилегированные структурные мотивы. Molecular Slicer [10] похож на RECAP и использовался для идентификации фрагментов, которые обычно встречаются в продаваемых пероральных препаратах.

Программа Leatherface [11] — это редактор молекул общего назначения , который позволяет автоматически изменять ряд субструктурных характеристик молекул в базах данных, включая состояние протонирования, количество водорода, формальный заряд, изотопный вес и порядок связи. Правила молекулярного редактирования, используемые Leatherface, определены в SMARTS. Leatherface можно использовать для стандартизации таутомерных и ионизационных состояний, а также для их установки и перечисления при подготовке баз данных [12] для виртуального скрининга . Leatherface использовался в анализе парных молекул , который позволяет количественно оценивать эффекты структурных изменений (например, замену водорода хлором) [13] по ряду структурных типов.

ALADDIN [14] — это программа сопоставления фармакофоров , которая использует SMARTS для определения точек распознавания (например, нейтрального акцептора водородной связи ) фармакофоров. Ключевой проблемой сопоставления фармакофоров является то, что функциональные группы, которые, вероятно, будут ионизированы при физиологическом pH, обычно регистрируются в своих нейтральных формах в структурных базах данных. Программа сопоставления форм ROCS позволяет определять типы атомов с помощью SMARTS. [15]

Примечания и ссылки

  1. ^ Теоретическое руководство SMARTS, Daylight Chemical Information Systems, Санта-Фе, Нью-Мексико
  2. ^ Учебное пособие по SMARTS, Информационные системы по химическим веществам дневного света, Санта-Фе, Нью-Мексико
  3. ^ Примеры SMARTS, Информационные системы дневного химического света, Санта-Фе, Нью-Мексико.
  4. ^ Даунс, GM; Джиллет, VJ; Холлидей, JD; Линч, MF (1989). «Обзор алгоритмов восприятия колец для химических графов». J. Chem. Inf. Comput. Sci. 29 (3): 172– 187. doi :10.1021/ci00063a007.
  5. ^ "Наименьший набор наименьших колец (SSSR) считается вредным". Архивировано из оригинала 14 октября 2007 г. Получено 2017-02-08 .{{cite web}}: CS1 maint: бот: исходный статус URL неизвестен ( ссылка ), OEChem - Руководство по C++, версия 1.5.1, OpenEye Scientific Software, Санта-Фе, Нью-Мексико
  6. ^ Липински, Кристофер А.; Ломбардо, Франко; Домини, Берил В.; Фини, Пол Дж. (2001). «Экспериментальные и вычислительные подходы к оценке растворимости и проницаемости в условиях открытия и разработки лекарств». Advanced Drug Delivery Reviews . 46 ( 1– 3): 3– 26. doi :10.1016/S0169-409X(00)00129-0. PMID  11259830.
  7. ^ Ханн, Майк; Хадсон, Брайан; Льюэлл, Сяо; Лайфли, Роб; Миллер, Люк; Рамсден, Найджел (1999). «Стратегическое объединение соединений для высокопроизводительного скрининга». Журнал химической информации и компьютерных наук . 39 (5): 897– 902. doi :10.1021/ci990423o. PMID  10529988.
  8. ^ Уолтерс, В. Патрик; Мурко, Марк А. (2002). «Прогнозирование «подобия лекарству»". Advanced Drug Delivery Reviews . 54 (3): 255– 271. doi :10.1016/S0169-409X(02)00003-0. PMID  11922947.
  9. ^ Льюэлл, Сяо Цин; Джадд, Дункан Б.; Уотсон, Стивен П.; Ханн, Майкл М. (1998). «RECAPRetrosynthetic Combinatory Analysis Procedure: A Powerful New Technique for Identifying Privileged Molecular Fragments with Useful Applications in Combinatory Chemistry». Журнал химической информации и компьютерных наук . 38 (3): 511– 522. doi :10.1021/ci970429i. PMID  9611787.
  10. ^ Vieth, Michal; Siegel, Miles G.; Higgs, Richard E.; Watson, Ian A.; Robertson, Daniel H.; Savin, Kenneth A.; Durst, Gregory L.; Hipskind, Philip A. (2004). «Характерные физические свойства и структурные фрагменты продаваемых пероральных препаратов». Журнал медицинской химии . 47 (1): 224– 232. doi :10.1021/jm030267j. PMID  14695836.
  11. ^ Кенни, Питер В.; Садовски, Йенс (2005). «Модификация структуры в химических базах данных». Хемоинформатика в разработке лекарств. Методы и принципы в медицинской химии. стр. 271–285. doi :10.1002/3527603743.ch11. ISBN 9783527307531.
  12. ^ Лайн, Пол Д.; Кенни, Питер В.; Косгроув, Дэвид А.; Дэн, Чун; Заблудофф, Соня; Вендолоски, Джон Дж.; Эшвелл, Сьюзан (2004). «Идентификация соединений с наномолярной связывающей аффинностью для контрольной точки киназы-1 с использованием виртуального скрининга на основе знаний». Журнал медицинской химии . 47 (8): 1962– 1968. doi :10.1021/jm030504i. PMID  15055996.
  13. ^ Лич, Эндрю Г.; Джонс, Хью Д.; Косгроув, Дэвид А.; Кенни, Питер В.; Растон, Линетт; Макфол, Филипп; Вуд, Дж. Мэтью; Колклоу, Никола; Лоу, Брайан (2006). «Сопоставленные молекулярные пары как руководство по оптимизации фармацевтических свойств; исследование растворимости в воде, связывания белков плазмы и перорального воздействия». Журнал медицинской химии . 49 (23): 6672– 6682. doi :10.1021/jm0605233. PMID  17154498.
  14. ^ Ван Дри, Джон Х.; Вайнингер, Дэвид; Мартин, Ивонн К. (1989). «АЛАДДИН: Интегрированный инструмент для компьютерного молекулярного дизайна и распознавания фармакофоров на основе геометрического, стерического и субструктурного поиска трехмерных молекулярных структур». Журнал компьютерного молекулярного дизайна . 3 (3): 225– 251. doi :10.1007/BF01533070. PMID  2573695. S2CID  206795998.
  15. ^ Научное программное обеспечение OpenEye | ROCS
Получено с "https://en.wikipedia.org/w/index.php?title=SMILES_произвольная_целевая_конкретизация&oldid=1249449020"