Файл таблицы химических веществ

Семейство форматов химических файлов

Файл химической таблицы (файл CT) — это семейство текстовых форматов химических файлов , описывающих молекулы и химические реакции. Например, один формат перечисляет каждый атом в молекуле, координаты xyz этого атома и связи между атомами.

Форматы файлов

В этом семействе имеется несколько форматов файлов.

Форматы были созданы компанией MDL Information Systems (MDL), которая была приобретена компанией Symyx Technologies , затем объединена с Accelrys Corp. и теперь называется BIOVIA, дочерней компанией Dassault Systemes группы Dassault . [1]

Файл CT является открытым форматом . BIOVIA публикует его спецификацию. [2] BIOVIA требует от пользователей регистрации для загрузки спецификаций формата файла CT. [3]

Молфайл

ctab
Расширение имени файла
.мол
Тип интернет-СМИ
химический/x-mdl-molfile
Тип форматаформат файла химии

MDL Molfile — это формат файла для хранения информации об атомах, связях, связях и координатах молекулы.

Файл molfile состоит из некоторой заголовочной информации, таблицы соединений (CT), содержащей информацию об атомах, затем связей и типов, за которыми следуют разделы с более сложной информацией.

Формат molfile достаточно распространен, так что большинство, если не все, программных систем/приложений хемоинформатики способны читать этот формат, хотя и не всегда в одинаковой степени. Он также поддерживается некоторым вычислительным программным обеспечением, таким как Mathematica .

Текущей версией стандарта де-факто является molfile V2000, хотя в последнее время формат V3000 получил достаточно широкое распространение, что может представлять потенциальную проблему совместимости для тех приложений, которые еще не поддерживают V3000.

Содержание Молфайла L-аланина
L-аланин
Строка заголовка (может быть пустой, но строка должна существовать)Блок заголовка

(3 строки)

 ABCDEFGH09071717443D
Строка временной метки программы/файла

(Название исходной программы и временная метка файла)

Экспортировано
Строка комментария (может быть пустой, но строка должна существовать)
6 5 0 0 1 0 3 В2000
Счетная линияТаблица подключений
-0,6622 0,5342 0,0000 С 0 0 2 0 0 0 0,6622 -0,3000 0,0000 С 0 0 0 0 0 0-0,7207 2,0817 0,0000 С 1 0 0 0 0 0-1,8622 -0,3695 0,0000 Н 0 3 0 0 0 0 0,6220 -1,8037 0,0000 О 0 0 0 0 0 0 1,9464 0,4244 0,0000 О 0 5 0
Атомный блок

(1 строка для каждого атома): x, y, z (в ангстремах ), элемент и т.д.

1 2 1 0 0 0 01 3 1 0 1 0 01 4 1 0 0 0 02 5 2 0 0 0 02 6 1 0 0 0 0
Блок облигаций

(1 строка для каждой связи): 1-й атом, 2-й атом, тип и т.д.

М ЧГ 2 4 1 6 -1М ИСО 1 3 13
Блок свойств
М КОНЕЦ
КОНЕЦ строки

(ПРИМЕЧАНИЕ: некоторые программы не любят пустую строку перед M END)

КОНЕЦ

Подсчитывает спецификацию блока линии

Ценить650001V2000
Описаниечисло атомовколичество облигацийномер списка атомовФлаг хиральности, 1 = хиральный;

0 = не хиральный

количество текстовых записейколичество строк

дополнительные свойства

версия мол
Тип[Общий][Общий][Запрос][Общий][ИГИС/Рабочий стол][Общий]

Спецификация блока облигаций

Блок облигаций состоит из строк облигаций, по одной строке на облигацию, в следующем формате:

111 222 ттт ссс xxx ррр ссс

где значения описаны в следующей таблице:

ПолеЗначениеЦенности
111первый номер атома
222второй атомный номер
ттттип облигаций1 = Одинарный, 2 = Двойной, 3 = Тройной, 4 = Ароматный, 5 = Одинарный или двойной, 6 = Одинарный или ароматный, 7 = Двойной или ароматный, 8 = Любой
ссссвязь стереоДля одинарных связей:

0 = не стерео; 1 = вверх; 4 = любой, 6 = вниз

Для двойных связей:

0= Используйте x-, y-, z-координаты из блока атомов для определения цис- или транс-связи; 3=Цис- или транс-(любая) двойная связь

хххне используется
ррртопология связи0 = Любой, 1 = Кольцо, 2 = Цепь
сссстатус реагирующего центра0 = не отмечено, 1 = центр, -1 = не центр, Дополнительно: 2 = без изменений, 4 = связь создана/разорвана, 8 = изменение порядка связи

12 = 4+8 (как сделанные/сломанные, так и измененные);

5 = (4 + 1), 9 = (8 + 1) и 13 = (12 + 1) также возможны.

Расширенная таблица подключений (V3000)

Расширенный (V3000) molfile состоит из обычного molfile «без структуры», за которым следует одно приложение molfile, содержащее тело таблицы соединений (Ctab). На следующем рисунке показаны как структура аланина, так и соответствующий ей расширенный molfile.

Обратите внимание, что «без структуры» отмечено меткой версии «V3000» вместо «V2000». В дополнение к версии есть еще два изменения в заголовке:

  • Число строк приложения всегда записывается как 999, независимо от того, сколько их на самом деле. (Все нынешние читатели проигнорируют подсчет и остановятся на M END.)
  • «Пространственный код» поддерживается более явно. Таким образом, «3D» на самом деле означает 3D, хотя «2D» будет интерпретироваться как 3D, если будут найдены какие-либо ненулевые Z-координаты.

В отличие от molfile V2000, расширенный molfile Rgroup V3000 имеет тот же формат заголовка, что и molfile без Rgroup.

L-аланин
ОписаниеБлок заголовка
GSMACCS-II07189510252D 1 0,00366 0,00000 0
Заголовок с меткой времени
Рисунок 1, Журнал химической информатики, том 32, № 3, 1992 г.
Комментарий строки
0 0 0 0 0 999 V3000
V2000-совместимая строка
M V30 НАЧАЛО CTAB
Таблица подключений
M V30 КОЛИЧЕСТВО 6 5 0 0 1
Счетная линия
M V30 НАЧАТЬ АТОММ V30 1 С -0,6622 0,5342 0 0 CFG=2М V30 2 С 0,6622 -0,3 0 0М V30 3 С -0,7207 2,0817 0 0 МАССА=13М V30 4 Н -1,8622 -0,3695 0 0 CHG=1М V30 5 О 0,622 -1,8037 0 0М V30 6 О 1,9464 0,4244 0 0 CHG=-1M V30 КОНЕЦ АТОМ
Атомный блок
M V30 НАЧАЛО ОБЛИГАЦИИМ В30 1 1 1 2М V30 2 1 1 3 CFG=1М В30 3 1 1 4М В30 4 2 2 5М В30 5 1 2 6M V30 КОНЦЕВАЯ СВЯЗЬ
Блок облигаций
М V30 КОНЕЦ CTABМ КОНЕЦ

Счетная линия

Строка counts обязательна и должна быть первой. Она определяет количество атомов, связей, 3D-объектов и S-групп. Она также определяет, установлен ли флаг CHIRAL. При желании строка counts может указывать molregno. Это используется только в том случае, если regno превышает 999999 (предел формата в строке заголовка molfile). Формат строки counts следующий:

M V30 COUNTS na nb nsg n3d хиральный
M V30 СЧИТАЕТнетнбнсгн3дхиральный[REGNO=регно]
M V30 СЧИТАЕТ65001
число атомов
количество облигаций
количество Sgroups
количество 3D-ограничений
если 1 = молекула хиральна
молекула или модель regno

СДФ

ctab
Расширение имени файла
.sd , .sdf
Тип интернет-СМИ
химический/x-mdl-sdfile
Тип форматаформат файла химии

SDF — один из форматов файлов химических данных, разработанных MDL; он предназначен специально для структурной информации. «SDF» означает формат структурных данных, и файлы SDF фактически являются оболочкой формата molfile (MDL Molfile). Несколько записей разделяются строками , состоящими из четырех знаков доллара ($$$$). Ключевой особенностью этого формата является его способность включать связанные данные.

Сопутствующие элементы данных обозначаются следующим образом:

>  < Уникальный_ID > XCA3464366 > < ClogP > 5.825  >  < Поставщик> Сигма>  < Молекулярный вес > 499,611

Также поддерживаются многострочные элементы данных. Спецификация формата MDL SDF требует, чтобы символ жесткого возврата каретки был вставлен, если одна строка любого текстового поля превышает 200 символов. Это требование часто нарушается на практике, поскольку многие строки SMILES и InChI превышают эту длину.

Другие форматы семьи

Существуют и другие, менее распространённые форматы семейства:

  • RXNFile — для представления одной химической реакции;
  • RDFile - для представления списка записей с соответствующими данными. Каждая запись может содержать химические структуры, реакции, текстовые и табличные данные;
  • RGFile — для представления структур Маркуша (устарело, Molfile V3000 может представлять структуры Маркуша);
  • XDFile — для представления химической информации в формате XML .

Смотрите также

Ссылки

  1. ^ Dalby, A.; Nourse, JG; Hounshell, WD; Gushurst, AKI; Grier, DL; Leland, BA; Laufer, J. (1992). «Описание нескольких форматов файлов химической структуры, используемых компьютерными программами, разработанными в Molecular Design Limited». Journal of Chemical Information and Modeling . 32 (3): 244. doi :10.1021/ci00007a012.
  2. ^ "Форматы файлов CT" (PDF) . Biovia. Август 2020 г. Архивировано (PDF) из оригинала 2021-02-19 . Получено 2021-02-19 .
  3. ^ "Регистрационная форма". Biovia. 13 августа 2020 г. Архивировано из оригинала 2020-10-01 . Получено 2021-02-19 .
  • Платное программное обеспечение Adroit Repository для обработки SD-файлов (SDF) из Adroit DI.
  • SDF Toolkit — бесплатное программное обеспечение для обработки SD-файлов (SDF).
  • Средство распознавания химических идентификаторов NCI/CADD создает файлы SD (SDF) из названий химических веществ, регистрационных номеров CAS, SMILES, InChI, InChIKey, ....
  • Бесплатное программное обеспечение KNIME для обработки данных и их анализа, также может читать и записывать файлы SD (SDF).
  • Сервис сравнительной токсикологической панели, предоставляемый Агентством по охране окружающей среды (EPA), который генерирует файлы SD (SDF) из названий химических веществ, регистрационных номеров CAS, SMILES, InChI, InChIKey, ...
Взято с "https://en.wikipedia.org/w/index.php?title=Chemical_table_file&oldid=1213029756#Molfile"