Спецификация произвольной цели SMILES (SMARTS) — это язык для задания субструктурных шаблонов в молекулах . Линейная нотация SMARTS выразительна и обеспечивает чрезвычайно точную и прозрачную субструктурную спецификацию и типизацию атомов.
SMARTS связан с нотацией линий SMILES , которая используется для кодирования молекулярных структур, и, как и SMILES, был первоначально разработан Дэвидом Вейнингером и коллегами из проекта по медицинской химии колледжа Помона (MedChem). Поисковая система программного обеспечения SMARTS под названием GENIE использовалась в качестве дополнительного пользовательского поискового фильтра в поисковой системе базы данных MedChem MERLIN. GENIE также использовался в интерпретируемом языке MedChem GCL (GENIE Control Language), где вводом был список структур. В GCL спецификация SMARTS использовалась в качестве выражения, которое можно было использовать в операторах потока управления. Например, «for (SMARTS) {...}» будет проходить по каждой подструктуре (текущей исследуемой структуры), которая соответствовала спецификации SMARTS. Дополнительная разработка SMARTS была сделана в Daylight Chemical Information Systems, Inc, частной компании, которая отделилась от программной части MedChem.
Наиболее полное описание языка SMARTS можно найти в руководстве по теории SMARTS от Daylight, [1] учебном пособии [2] и примерах. [3] Компания OpenEye Scientific Software разработала собственную версию SMARTS, которая отличается от оригинальной версии Daylight тем, как R
определяется дескриптор (см. цикличность ниже).
Атомы могут быть указаны символом или атомным номером. Алифатический углерод соответствует [C]
, ароматический углерод — [c]
и любой углерод — [#6]
или [C,c]
. Универсальные символы *
, A
и a
соответствуют любому атому, любому алифатическому атому и любому ароматическому атому соответственно. Неявные водороды считаются характеристикой атомов, а SMARTS для аминогруппы можно записать как [NH2]
. Заряд указывается дескрипторами +
и -
иллюстрируется SMARTS [nH+]
(протонированный ароматический атом азота) и [O-]C(=O)c
(депротонированная ароматическая карбоновая кислота ).
Можно указать несколько типов связей: -
(одинарная), =
(двойная), #
(тройная), :
(ароматическая) и ~
(любая).
Дескрипторы X
и D
используются для указания общего числа соединений (включая неявные атомы водорода) и соединений с явными атомами соответственно. Таким образом, [CX4]
сопоставляет атомы углерода со связями с любыми четырьмя другими атомами, в то время как [CD4]
сопоставляет четвертичный углерод.
Как изначально определено Daylight, R
дескриптор используется для указания членства в кольце. В модели Daylight для циклических систем наименьший набор наименьших колец (SSSR) [4] используется в качестве основы для членства в кольце. Например, индол воспринимается как 5-членное кольцо, слитое с 6-членным кольцом, а не как 9-членное кольцо. Два атома углерода, составляющие слияние колец, будут соответствовать, [cR2]
а другие атомы углерода будут соответствовать [cR1]
.
Модель SSSR подверглась критике со стороны OpenEye [5] , которые в своей реализации SMARTS используют R
для обозначения числа кольцевых связей для атома. Два атома углерода в кольцевом слиянии совпадают [cR3]
, а другие атомы углерода совпадают [cR2]
в реализации SMARTS OpenEye. При использовании без числа R
указывает на атом в кольце в обеих реализациях, например [CR]
(алифатический атом углерода в кольце).
Нижний регистр r
указывает размер наименьшего кольца, членом которого является атом. Атомы углерода в слиянии колец будут соответствовать [cr5]
. Связи могут быть указаны как циклические, например, C@C
соответствуют напрямую связанным атомам в кольце.
Четыре логических оператора позволяют объединять дескрипторы атомов и связей. Оператор «и» ;
может использоваться для определения протонированного первичного амина как [N;H3;+][C;X4]
. Оператор «или» ,
имеет более высокий приоритет, поэтому [c,n;H]
определяет (ароматический углерод или ароматический азот) с неявным водородом. Оператор «и» &
имеет более высокий приоритет, чем , ,
поэтому [c,n&H]
определяет ароматический углерод или (ароматический азот с неявным водородом).
Оператор «не» !
можно использовать для определения ненасыщенного алифатического углерода как [C;!X4]
и ациклических связей как *-!@*
.
Рекурсивные SMARTS позволяют детально описывать окружение атома. Например, более реактивные (по отношению к электрофильному ароматическому замещению ) орто- и пара -атомы углерода фенола можно определить как [$(c1c([OH])cccc1),$(c1ccc([OH])cc1)]
.
Компания Daylight собрала ряд наглядных примеров SMARTS.
Определения доноров и акцепторов водородных связей, используемые для применения правила пяти Липински [6], легко кодируются в SMARTS. Доноры определяются как атомы азота или кислорода, которые имеют по крайней мере один непосредственно связанный атом водорода:
[N,n,O;!H0]
или [#7,#8;!H0]
(ароматический кислород не может иметь связанный водород)Акцепторами считаются азот или кислород:
[N,n,O,o]
или[#7,#8]
Простое определение алифатических аминов , которые, вероятно, протонируются при физиологическом pH, можно записать в виде следующей рекурсивной формулы SMARTS:
[$([NH2][CX4]),$([NH]([CX4])[CX4]),$([NX3]([CX4])([CX4])[CX4])]
В реальных приложениях CX4
атомы необходимо определить более точно, чтобы предотвратить сопоставление с группами, оттягивающими электроны, такими как CF3 , которые могут сделать амин недостаточно основным для протонирования при физиологическом pH .
SMARTS можно использовать для кодирования фармакофорных элементов, таких как анионные центры. В следующем примере рекурсивная нотация SMARTS используется для объединения кислотного кислорода и тетразольного азота в определении атомов кислорода, которые, вероятно, будут анионными в нормальных физиологических условиях.
[$([OH][C,S,P]=O),$([nH]1nnnc1)]
SMARTS выше будет соответствовать только кислотному гидроксилу и тетразолу N−H. Когда карбоновая кислота депротонируется, отрицательный заряд делокализован по обоим атомам кислорода, и может быть желательно обозначить оба как анионные. Этого можно достичь с помощью следующих SMARTS.
[$([OH])C=O),$(O=C[OH])]
Точная и прозрачная спецификация подструктур, которую обеспечивает SMARTS, используется в ряде приложений.
Субструктурные фильтры, определенные в SMARTS, использовались [7] для идентификации нежелательных соединений при выполнении стратегического объединения соединений для высокопроизводительного скрининга. Процедура REOS (быстрое устранение swill) [8] использует SMARTS для фильтрации реактивных, токсичных и иных нежелательных фрагментов из баз данных химических структур.
RECAP [9] (Retrosynthetic Combinatory Analysis Procedure) использует SMARTS для определения типов связей. RECAP — это редактор молекул , который генерирует фрагменты структур путем разрыва связей определенных типов, а исходные точки связи в них указываются с помощью изотопных меток. Поиск в базах данных биологически активных соединений на предмет наличия фрагментов позволяет идентифицировать привилегированные структурные мотивы. Molecular Slicer [10] похож на RECAP и использовался для идентификации фрагментов, которые обычно встречаются в продаваемых пероральных препаратах.
Программа Leatherface [11] — это редактор молекул общего назначения , который позволяет автоматически изменять ряд субструктурных характеристик молекул в базах данных, включая состояние протонирования, количество водорода, формальный заряд, изотопный вес и порядок связи. Правила молекулярного редактирования, используемые Leatherface, определены в SMARTS. Leatherface можно использовать для стандартизации таутомерных и ионизационных состояний, а также для их установки и перечисления при подготовке баз данных [12] для виртуального скрининга . Leatherface использовался в анализе парных молекул , который позволяет количественно оценивать эффекты структурных изменений (например, замену водорода хлором) [13] по ряду структурных типов.
ALADDIN [14] — это программа сопоставления фармакофоров , которая использует SMARTS для определения точек распознавания (например, нейтрального акцептора водородной связи ) фармакофоров. Ключевой проблемой сопоставления фармакофоров является то, что функциональные группы, которые, вероятно, будут ионизированы при физиологическом pH, обычно регистрируются в своих нейтральных формах в структурных базах данных. Программа сопоставления форм ROCS позволяет определять типы атомов с помощью SMARTS. [15]
{{cite web}}
: CS1 maint: бот: исходный статус URL неизвестен ( ссылка ), OEChem - Руководство по C++, версия 1.5.1, OpenEye Scientific Software, Санта-Фе, Нью-Мексико