Количественные модели связи структура–активность ( модели QSAR ) являются регрессионными или классификационными моделями, используемыми в химических и биологических науках и инженерии. Как и другие регрессионные модели, регрессионные модели QSAR связывают набор «предикторных» переменных (X) с эффективностью ответной переменной (Y), в то время как классификационные модели QSAR связывают предикторные переменные с категориальным значением ответной переменной.
В моделировании QSAR предикторы состоят из физико-химических свойств или теоретических молекулярных дескрипторов [1] [2] химических веществ; переменная ответа QSAR может быть биологической активностью химических веществ. Модели QSAR сначала суммируют предполагаемую связь между химическими структурами и биологической активностью в наборе данных химических веществ. Во-вторых, модели QSAR предсказывают активность новых химических веществ. [3] [4]
Связанные термины включают количественные соотношения структура-свойство ( QSPR ), когда химическое свойство моделируется как переменная отклика. [5] [6] "Различные свойства или поведение химических молекул были исследованы в области QSPR. Некоторые примеры - количественные соотношения структура-реакционная способность (QSRR), количественные соотношения структура-хроматография (QSCR) и количественные соотношения структура-токсичность (QSTR), количественные соотношения структура-электрохимия (QSER) и количественные соотношения структура- биоразлагаемость (QSBR)". [7]
Например, биологическая активность может быть выражена количественно как концентрация вещества, необходимая для получения определенного биологического ответа. Кроме того, когда физико-химические свойства или структуры выражаются числами, можно найти математическую связь или количественную связь структура-активность между ними. Математическое выражение, если оно тщательно проверено, [8] [9] [10] [11] затем может быть использовано для прогнозирования смоделированного ответа других химических структур. [12]
QSAR имеет форму математической модели :
Ошибка включает в себя ошибку модели ( смещение ) и изменчивость наблюдений, то есть изменчивость наблюдений даже при правильной модели.
Основные этапы QSAR/QSPR включают в себя: [7]
Основное предположение для всех гипотез, основанных на молекулах , заключается в том, что подобные молекулы имеют подобные действия. Этот принцип также называется соотношением структуры и активности ( SAR ). Таким образом, основная проблема заключается в том, как определить небольшое различие на молекулярном уровне, поскольку каждый вид активности, например, способность к реакции , способность к биотрансформации , растворимость , целевая активность и т. д., может зависеть от другого различия. Примеры были приведены в обзорах биоизостеризма Патани/ЛаВуа [13] и Брауна. [14]
В целом, больше интересуют сильные тенденции . Созданные гипотезы обычно опираются на конечное число химических веществ, поэтому следует проявлять осторожность, чтобы избежать переобучения : создания гипотез, которые очень точно соответствуют тренировочным данным, но плохо работают при применении к новым данным.
Парадокс SAR заключается в том, что не все схожие молекулы обладают схожей активностью [ необходима ссылка ] .
Аналогично, « коэффициент распределения » — измерение дифференциальной растворимости и сам по себе компонент предсказаний QSAR — может быть предсказан либо атомными методами (известными как «XLogP» или «ALogP»), либо методами химических фрагментов (известными как «CLogP» и другими вариациями). Было показано, что logP соединения может быть определен суммой его фрагментов; методы, основанные на фрагментах, обычно принимаются как лучшие предикторы, чем методы, основанные на атомах. [15] Фрагментарные значения были определены статистически, на основе эмпирических данных для известных значений logP. Этот метод дает неоднозначные результаты и, как правило, не считается имеющим точность более ±0,1 единицы. [16]
Групповой или фрагментный QSAR также известен как GQSAR. [17] GQSAR обеспечивает гибкость в изучении различных молекулярных фрагментов, представляющих интерес, в отношении вариации биологического ответа. Молекулярные фрагменты могут быть заместителями в различных местах замещения в однородных наборах молекул или могут быть на основе предопределенных химических правил в случае неоднородных наборов. GQSAR также учитывает дескрипторы фрагментов перекрестных терминов, которые могут быть полезны для идентификации ключевых взаимодействий фрагментов при определении вариации активности. [17] Обнаружение лидов с использованием фрагментомики является новой парадигмой. В этом контексте FB-QSAR оказывается многообещающей стратегией для проектирования библиотеки фрагментов и в попытках идентификации фрагментов в лидирующие. [18]
Разработан продвинутый подход к QSAR на основе фрагментов или групп, основанный на концепции фармакофорного сходства. [19] Этот метод, QSAR на основе фармакофорного сходства (PS-QSAR), использует топологические фармакофорные дескрипторы для разработки моделей QSAR. Это предсказание активности может помочь вкладу определенных фармакофорных характеристик, закодированных соответствующими фрагментами, в улучшение активности и/или пагубные эффекты. [19]
Аббревиатура 3D-QSAR или 3-D QSAR относится к применению расчетов силового поля , требующих трехмерных структур заданного набора малых молекул с известными видами деятельности (тренировочный набор). Учебный набор должен быть наложен (выровнен) либо экспериментальными данными (например, на основе кристаллографии лиганд-белок ), либо программным обеспечением для суперпозиции молекул . Он использует вычисленные потенциалы, например, потенциал Леннарда-Джонса , а не экспериментальные константы и касается всей молекулы, а не отдельного заместителя. Первый 3-D QSAR был назван Крамером и др. Сравнительным анализом молекулярного поля (CoMFA). Он исследовал стерические поля (форму молекулы) и электростатические поля [20] , которые были коррелированы с помощью регрессии с использованием частичных наименьших квадратов (PLS).
Созданное пространство данных затем обычно сокращается путем последующего извлечения признаков (см. также уменьшение размерности ). Следующий метод обучения может быть любым из уже упомянутых методов машинного обучения , например, машины опорных векторов . [21] Альтернативный подход использует обучение с несколькими экземплярами путем кодирования молекул как наборов экземпляров данных, каждый из которых представляет собой возможную молекулярную конформацию. Каждому набору присваивается метка или ответ, соответствующий активности молекулы, которая, как предполагается, определяется по крайней мере одним экземпляром в наборе (т. е. некоторой конформацией молекулы). [22]
18 июня 2011 года патент на Сравнительный анализ молекулярного поля (CoMFA) снял все ограничения на использование технологий GRID и частично наименьших квадратов (PLS). [ необходима ссылка ]
В этом подходе дескрипторы, количественно определяющие различные электронные, геометрические или стерические свойства молекулы, вычисляются и используются для разработки QSAR. [23] Этот подход отличается от подхода фрагментов (или группового вклада) тем, что дескрипторы вычисляются для системы в целом, а не из свойств отдельных фрагментов. Этот подход отличается от подхода 3D-QSAR тем, что дескрипторы вычисляются из скалярных величин (например, энергий, геометрических параметров), а не из 3D-полей.
Примером такого подхода являются QSAR, разработанные для полимеризации олефинов с помощью полусэндвич-соединений . [24] [25]
Было показано, что прогнозирование активности возможно даже на основе исключительно строки SMILES . [26] [27] [28]
Подобно методам на основе строк, молекулярный граф может быть напрямую использован в качестве входных данных для моделей QSAR, [29] [30], но обычно дает худшую производительность по сравнению с моделями QSAR на основе дескрипторов. [31] [32]
В литературе часто можно встретить утверждения, что химики отдают предпочтение методам частичных наименьших квадратов (PLS), [ требуется ссылка ], поскольку они позволяют извлечь признаки и индуцирование за один шаг.
Компьютерные модели SAR обычно вычисляют относительно большое количество признаков. Поскольку им не хватает структурной интерпретационной способности, этапы предварительной обработки сталкиваются с проблемой выбора признаков (т. е. какие структурные признаки следует интерпретировать для определения связи структура-активность). Выбор признаков может быть выполнен путем визуального осмотра (качественный выбор человеком); путем добычи данных; или путем добычи молекул.
Типичное прогнозирование на основе интеллектуального анализа данных использует, например, машины опорных векторов , деревья решений , искусственные нейронные сети для создания модели предиктивного обучения.
Подходы к добыче молекул , частный случай подходов к добыче структурированных данных , применяют прогнозирование на основе матрицы сходства или схему автоматической фрагментации в молекулярные подструктуры. Кроме того, существуют также подходы, использующие поиск максимального общего подграфа или ядра графа . [33] [34]
Обычно модели QSAR, полученные из нелинейного машинного обучения , рассматриваются как «черный ящик», который не может служить руководством для химиков-медиков. Недавно появилась относительно новая концепция анализа пар молекул [35] или MMPA, основанного на прогнозировании, которая связана с моделью QSAR для определения обрывов активности. [36]
Моделирование QSAR создает прогностические модели, полученные с помощью применения статистических инструментов, коррелирующих биологическую активность (включая желаемый терапевтический эффект и нежелательные побочные эффекты) или физико-химические свойства в моделях QSPR химических веществ (лекарств/токсикантов/загрязнителей окружающей среды) с дескрипторами, представляющими молекулярную структуру или свойства . QSAR применяются во многих дисциплинах, например: оценка риска , прогнозирование токсичности и нормативные решения [37] в дополнение к открытию лекарств и оптимизации свинца . [38] Получение модели QSAR хорошего качества зависит от многих факторов, таких как качество входных данных, выбор дескрипторов и статистических методов для моделирования и проверки. Любое моделирование QSAR должно в конечном итоге привести к статистически надежным и прогностическим моделям, способным делать точные и надежные прогнозы смоделированной реакции новых соединений.
Для проверки моделей QSAR обычно применяются различные стратегии: [39]
Успех любой модели QSAR зависит от точности входных данных, выбора соответствующих дескрипторов и статистических инструментов и, что наиболее важно, валидации разработанной модели. Валидация — это процесс, посредством которого надежность и релевантность процедуры устанавливаются для определенной цели; для моделей QSAR валидация должна быть в основном направлена на надежность, производительность прогнозирования и область применимости (AD) моделей. [8] [9] [11] [40] [41]
Некоторые методологии валидации могут быть проблематичными. Например, перекрестная проверка с исключением одного элемента обычно приводит к переоценке предсказательной способности. Даже при внешней валидации сложно определить, был ли выбор обучающих и тестовых наборов изменен для максимизации предсказательной способности публикуемой модели.
Различные аспекты проверки моделей QSAR, которые требуют внимания, включают методы выбора соединений обучающего набора, [42] установку размера обучающего набора [43] и влияние выбора переменных [44] для моделей обучающего набора для определения качества прогнозирования. Разработка новых параметров проверки для оценки качества моделей QSAR также важна. [11] [45] [46]
Одним из первых исторических применений QSAR было предсказание точек кипения . [47]
Например, хорошо известно, что в пределах определенного семейства химических соединений , особенно органической химии , существуют сильные корреляции между структурой и наблюдаемыми свойствами. Простым примером является связь между числом атомов углерода в алканах и их точками кипения . Существует четкая тенденция к увеличению точки кипения с увеличением числа атомов углерода, и это служит средством для прогнозирования точек кипения высших алканов .
Еще очень интересным приложением являются уравнения Гаммета , уравнения Тафта и методы прогнозирования pKa . [48]
Биологическая активность молекул обычно измеряется в анализах для установления уровня ингибирования определенной сигнальной трансдукции или метаболических путей . Открытие лекарств часто включает использование QSAR для идентификации химических структур, которые могут иметь хорошие ингибирующие эффекты на определенные цели и иметь низкую токсичность (неспецифическую активность). Особый интерес представляет прогнозирование коэффициента распределения log P , который является важной мерой, используемой для определения « подобия лекарству » в соответствии с правилом пяти Липински . [ требуется цитата ]
В то время как многие количественные анализы взаимосвязи структуры и активности включают взаимодействия семейства молекул с сайтом связывания фермента или рецептора , QSAR также может быть использован для изучения взаимодействий между структурными доменами белков. Взаимодействия белок-белок могут быть количественно проанализированы для структурных изменений, полученных в результате направленного мутагенеза . [49]
Это часть метода машинного обучения , чтобы уменьшить риск парадокса SAR, особенно принимая во внимание, что доступно только конечное количество данных (см. также MVUE ). В целом, все проблемы QSAR можно разделить на кодирование [50] и обучение . [51]
Модели (Q)SAR использовались для управления рисками . QSARS предлагаются регулирующими органами; в Европейском Союзе QSAR предлагаются регламентом REACH , где «REACH» означает «Регистрация, оценка, разрешение и ограничение химических веществ». Нормативное применение методов QSAR включает в себя токсикологическую оценку in silico генотоксичных примесей. [52] Обычно используемое программное обеспечение для оценки QSAR, такое как DEREK или CASE Ultra (MultiCASE), используется для генотоксичности примесей в соответствии с ICH M7. [53]
Пространство химических дескрипторов, выпуклая оболочка которого генерируется определенным обучающим набором химических веществ, называется областью применимости обучающего набора . Прогнозирование свойств новых химических веществ, которые находятся за пределами области применимости, использует экстраполяцию , и поэтому менее надежно (в среднем), чем прогнозирование в пределах области применимости. Оценка надежности предсказаний QSAR остается темой исследования. [ необходима цитата ]
Уравнения QSAR можно использовать для прогнозирования биологической активности новых молекул до их синтеза.
Примеры инструментов машинного обучения для моделирования QSAR включают: [54]
S.No. | Имя | Алгоритмы | Внешняя ссылка |
---|---|---|---|
1. | Р | RF, SVM, наивный байесовский и ANN | «R: Проект R для статистических вычислений». |
2. | libSVM | СВМ | «LIBSVM — библиотека для опорных векторных машин». |
3. | Апельсин | RF, SVM и наивный байесовский | «Orange Data Mining». |
4. | RapidMiner | SVM, RF, наивный байесовский алгоритм, DT, ANN и k-NN | «RapidMiner | Платформа прогнозной аналитики с открытым исходным кодом №1». |
5. | Века | RF, SVM и наивный байесовский алгоритм | "Weka 3 - Data Mining with Open Source Machine Learning Software in Java". Архивировано из оригинала 2011-10-28 . Получено 2016-03-24 . |
6. | Нож | DT, наивный байесовский алгоритм и SVM | «KNIME | Открыт для инноваций». |
7. | AZOrange [55] | RT, SVM, ANN и RF | "AZCompTox/AZOrange: дополнения AstraZeneca к Orange". GitHub . 2018-09-19. |
8. | Танагра | SVM, RF, наивный байесовский алгоритм и DT | "TANAGRA - Бесплатное программное обеспечение для анализа данных для обучения и исследований". Архивировано из оригинала 2017-12-19 . Получено 2016-03-24 . |
9. | Элки | к-НН | "ELKI Data Mining Framework". Архивировано из оригинала 2016-11-19. |
10. | МОЛОТОК | "Домашняя страница MALLET". | |
11. | МОА | "MOA Massive Online Analysis | Аналитика в реальном времени для потоков данных". Архивировано из оригинала 2017-06-19. | |
12. | Глубокая химия | Логистическая регрессия, наивный байесовский алгоритм, RF, ANN и другие | "DeepChem". deepchem.io . Получено 20 октября 2017 г. . |
13. | alvaModel [56] | Регрессия ( OLS , PLS , k-NN , SVM и консенсус) и классификация ( LDA/QDA , PLS-DA , k-NN , SVM и консенсус) | "alvaModel: программный инструмент для создания моделей QSAR/QSPR". alvascience.com . |
14. | scikit-learn ( Python ) [57] | Логистическая регрессия, наивный байесовский алгоритм, kNN, RF, SVM, GP, ANN и другие | "SciKit-Learn". scikit-learn.org . Получено 13 августа 2023 г. . |
Программа регрессии, которая имеет двойные базы данных из более чем 21 000 QSAR-моделей
Всеобъемлющий веб-ресурс для разработчиков моделей QSAR