Файл химической таблицы (файл CT) — это семейство текстовых форматов химических файлов , описывающих молекулы и химические реакции. Например, один формат перечисляет каждый атом в молекуле, координаты xyz этого атома и связи между атомами.
В этом семействе имеется несколько форматов файлов.
Форматы были созданы компанией MDL Information Systems (MDL), которая была приобретена компанией Symyx Technologies , затем объединена с Accelrys Corp. и теперь называется BIOVIA, дочерней компанией Dassault Systemes группы Dassault . [1]
Файл CT является открытым форматом . BIOVIA публикует его спецификацию. [2] BIOVIA требует от пользователей регистрации для загрузки спецификаций формата файла CT. [3]
Расширение имени файла | .мол |
---|---|
Тип интернет-СМИ | химический/x-mdl-molfile |
Тип формата | формат файла химии |
MDL Molfile — это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.
Файл molfile состоит из некоторой заголовочной информации, таблицы соединений (CT), содержащей информацию об атомах, затем связей и типов, за которыми следуют разделы с более сложной информацией.
Формат molfile достаточно распространен, так что большинство, если не все, программных систем/приложений хемоинформатики способны читать этот формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica .
Текущей версией стандарта де-факто является molfile V2000, хотя в последнее время формат V3000 получил достаточно широкое распространение, что может представлять потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.
L-аланин | Строка заголовка (может быть пустой, но строка должна существовать) | Блок заголовка (3 строки) |
---|---|---|
ABCDEFGH09071717443D | Строка временной метки программы/файла (Название исходной программы и временная метка файла) | |
Экспортировано | Строка комментария (может быть пустой, но строка должна существовать) | |
6 5 0 0 1 0 3 В2000 | Счетная линия | Таблица подключений |
-0,6622 0,5342 0,0000 С 0 0 2 0 0 0 0,6622 -0,3000 0,0000 С 0 0 0 0 0 0-0,7207 2,0817 0,0000 С 1 0 0 0 0 0-1,8622 -0,3695 0,0000 Н 0 3 0 0 0 0 0,6220 -1,8037 0,0000 О 0 0 0 0 0 0 1,9464 0,4244 0,0000 О 0 5 0 | Атомный блок (1 строка для каждого атома): x, y, z (в ангстремах ), элемент и т.д. | |
1 2 1 0 0 0 01 3 1 0 1 0 01 4 1 0 0 0 02 5 2 0 0 0 02 6 1 0 0 0 0 | Блок облигаций (1 строка для каждой связи): 1-й атом, 2-й атом, тип и т.д. | |
М ЧГ 2 4 1 6 -1М ИСО 1 3 13 | Блок свойств | |
М КОНЕЦ | КОНЕЦ строки (ПРИМЕЧАНИЕ: некоторые программы не любят пустую строку перед M END) | КОНЕЦ |
Ценить | 6 | 5 | 0 | 0 | 0 | 1 | V2000 |
---|---|---|---|---|---|---|---|
Описание | число атомов | количество облигаций | номер списка атомов | Флаг хиральности, 1 = хиральный; 0 = не хиральный | количество текстовых записей | количество строк дополнительные свойства | версия мол |
Тип | [Общий] | [Общий] | [Запрос] | [Общий] | [ИГИС/Рабочий стол] | [Общий] |
Блок облигаций состоит из строк облигаций, по одной строке на облигацию, в следующем формате:
111 222 ттт ссс xxx ррр ссс
где значения описаны в следующей таблице:
Поле | Значение | Ценности |
---|---|---|
111 | первый номер атома | |
222 | второй атомный номер | |
ттт | тип облигаций | 1 = Одинарный, 2 = Двойной, 3 = Тройной, 4 = Ароматный, 5 = Одинарный или двойной, 6 = Одинарный или ароматный, 7 = Двойной или ароматный, 8 = Любой |
ссс | связь стерео | Для одинарных связей: 0 = не стерео; 1 = вверх; 4 = любой, 6 = вниз Для двойных связей: 0= Используйте x-, y-, z-координаты из блока атомов для определения цис- или транс-связи; 3=Цис- или транс-(любая) двойная связь |
ххх | не используется | |
ррр | топология связи | 0 = Любой, 1 = Кольцо, 2 = Цепь |
ссс | статус реагирующего центра | 0 = не отмечено, 1 = центр, -1 = не центр, Дополнительно: 2 = без изменений, 4 = связь создана/разорвана, 8 = изменение порядка связи 12 = 4+8 (как сделанные/сломанные, так и измененные); 5 = (4 + 1), 9 = (8 + 1) и 13 = (12 + 1) также возможны. |
Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует одно приложение molfile, содержащее тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный molfile.
Обратите внимание, что «без структуры» отмечено меткой версии «V3000» вместо «V2000». В дополнение к версии есть еще два изменения в заголовке:
В отличие от molfile V2000, расширенный molfile Rgroup V3000 имеет тот же формат заголовка, что и molfile без Rgroup.
Строка counts обязательна и должна быть первой. Она определяет количество атомов, связей, 3D-объектов и S-групп. Она также определяет, установлен ли флаг CHIRAL. При желании строка counts может указывать molregno. Это используется только в том случае, если regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки counts следующий:
M V30 СЧИТАЕТ | нет | нб | нсг | н3д | хиральный | [REGNO=регно] |
M V30 СЧИТАЕТ | 6 | 5 | 0 | 0 | 1 | |
число атомов | количество облигаций | количество Sgroups | количество 3D-ограничений | если 1 = молекула хиральна | молекула или модель regno |
Расширение имени файла | .sd , .sdf |
---|---|
Тип интернет-СМИ | химический/x-mdl-sdfile |
Тип формата | формат файла химии |
SDF — один из форматов файлов химических данных, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает формат структурных данных, и файлы SDF фактически являются оболочкой формата molfile (MDL Molfile). Несколько записей разделяются строками , состоящими из четырех знаков доллара ($$$$). Ключевой особенностью этого формата является его способность включать связанные данные.
Сопутствующие элементы данных обозначаются следующим образом:
> < Уникальный_ID > XCA3464366 > < ClogP > 5.825 > < Поставщик> Сигма> < Молекулярный вес > 499,611
Также поддерживаются многострочные элементы данных. Спецификация формата MDL SDF требует, чтобы символ жесткого возврата каретки был вставлен, если одна строка любого текстового поля превышает 200 символов. Это требование часто нарушается на практике, поскольку многие строки SMILES и InChI превышают эту длину.
Существуют и другие, менее распространённые форматы семейства: