Масс-спектрометрия — это научный метод измерения отношения массы к заряду ионов. Он часто сочетается с хроматографическими методами, такими как газовая или жидкостная хроматография , и нашел широкое применение в областях аналитической химии и биохимии , где его можно использовать для идентификации и характеристики малых молекул и белков ( протеомика ). Большой объем данных, получаемых в типичном эксперименте по масс-спектрометрии, требует использования компьютеров для хранения и обработки данных. За прошедшие годы различные производители масс-спектрометров разработали различные фирменные форматы данных для обработки таких данных, что затрудняет для академических ученых прямую обработку своих данных. Для устранения этого ограничения Trans-Proteomic Pipeline в Институте системной биологии недавно разработал несколько открытых форматов данных на основе XML для упрощения обработки данных и инноваций в государственном секторе. [1] Эти форматы данных описаны здесь.
Открытые форматы
JCAMP-DX
Этот формат был одной из самых ранних попыток предоставить стандартизированный формат файла для обмена данными в масс-спектрометрии. JCAMP-DX изначально был разработан для инфракрасной спектрометрии. JCAMP-DX — это формат на основе ASCII , поэтому он не очень компактен, хотя и включает стандарты для сжатия файлов. JCAMP был официально выпущен в 1988 году. [2] Совместно с Американским обществом масс-спектрометрии был разработан формат JCAMP-DX для масс-спектрометрии с целью сохранения устаревших данных. [3]
ANDI-MS или netCDF
Формат обмена аналитическими данными для масс-спектрометрии — это формат для обмена данными. Многие пакеты программного обеспечения для масс-спектрометрии могут читать или записывать файлы ANDI. ANDI указан в стандарте ASTM E1947. [4] ANDI основан на netCDF , который является библиотекой программных инструментов для записи и чтения файлов данных. ANDI изначально был разработан для данных хроматографии-МС и поэтому не использовался в золотой лихорадке протеомики , когда были разработаны новые форматы на основе XML . [5]
AnIML
AnIML — это совместный проект IUPAC и ASTM International по созданию стандарта на основе XML, охватывающего широкий спектр аналитических методов, включая масс-спектрометрию. [6]
mzData
mzData был первой попыткой Инициативы по стандартам протеомики (PSI) из Организации протеома человека (HUPO) создать стандартизированный формат для данных масс-спектрометрии. [7] Этот формат в настоящее время устарел и заменен на mzML. [8]
mzXML
mzXML — это общий формат файлов на основе XML (расширяемый язык разметки) для масс-спектрометрических данных протеомики . [9] [10] Этот формат был разработан в Сиэтлском центре протеома/Институте системной биологии, когда HUPO-PSI пытался определить стандартизированный формат mzData, и до сих пор используется в сообществе протеомики.
ЯФМС
Y et A nother Format for Mass S ectrometry (YAFMS) — это предложение сохранять данные в четырехтабличной реляционной схеме базы данных без сервера , при этом извлечение и добавление данных осуществляется с помощью SQL- запросов. [11]
mzML
Поскольку два формата (mzData и mzXML) для представления одной и той же информации являются нежелательным состоянием, HUPO-PSI, SPC/ISB и поставщики инструментов предприняли совместные усилия по созданию единого стандарта, заимствующего лучшие аспекты mzData и mzXML и призванного заменить их. Первоначально названный dataXML, он был официально анонсирован как mzML. [12] Первая спецификация была опубликована в июне 2008 года. [13] Этот формат был официально выпущен на встрече Американского общества масс-спектрометрии 2008 года и с тех пор является относительно стабильным с очень небольшим количеством обновлений. 1 июня 2009 года был выпущен mzML 1.1.0. По состоянию на 2013 год никаких дальнейших изменений не запланировано.
mzAPI
Вместо определения новых форматов файлов и написания конвертеров для форматов фирменных поставщиков группа ученых предложила определить общий интерфейс прикладной программы , чтобы переложить бремя соответствия стандартам на существующие библиотеки доступа к данным производителей приборов. [14]
mz5
Формат mz5 решает проблемы производительности предыдущих форматов на основе XML. Он использует онтологию mzML, но сохраняет данные с помощью бэкэнда HDF5 для снижения требований к пространству хранения и повышения скорости чтения/записи. [15]
imzML
Стандарт imzML был предложен для обмена данными масс-спектрометрической визуализации в стандартизированном XML-файле на основе онтологии mzML. Он разделяет экспериментальные данные на XML и спектральные данные в двоичном файле. Оба файла связаны универсальным уникальным идентификатором . [16]
mzDB
mzDB сохраняет данные в базе данных SQLite , что позволяет экономить дисковое пространство и сокращать время доступа, поскольку точки данных можно запрашивать из реляционной базы данных . [17]
Ириска
Toffee — это открытый формат файла без потерь для масс-спектрометрии с независимым от данных сбором данных . Он использует HDF5 и нацелен на достижение размеров файлов, аналогичных размерам файлов в закрытых и фирменных форматах поставщиков. [18]
mzMLb
mzMLb — это еще один подход к использованию бэкэнда HDF5 для эффективного сохранения необработанных данных. Однако он сохраняет структуру данных mzML XML и остается совместимым с существующим стандартом. [19]
Аллотроп
Allotrope Foundation курирует формат файлов на основе HDF5 и Triplestore, называемый Allotrope Data Format (ADF), и плоское представление JSON ASM, сокращенно Allotrope Simple Model. Оба основаны на Allotrope Foundation Ontologies (AFO) и содержат схемы для масс-спектрометрии и хроматографии в сочетании с детекторами MS. [20]
Собственные форматы
Ниже приведена таблица различных расширений форматов файлов.
Компания
Расширение
Тип файла
ACD/Лаборатории
*.спектр
Импортирует данные ЖХ/МС и ГХ/МС от большинства основных поставщиков приборов, перечисленных здесь.
Аджилент Брукер
.D (папка)
Формат данных Agilent MassHunter, Agilent ChemStation или Bruker BAF/YEP/TDF
Agilent/Bruker
.АГА
формат данных прибора
Аджилент
.АЕВ, .АСР
Формат отчета ASCII (для Analytical Studio Reviewer)
Брукер
.БАФ
формат данных прибора
Брукер
.FID
формат данных прибора
Брукер
.TDF
Формат данных прибора timsTOF
ABI/Sciex
.WIFF, .WIFF2
формат данных прибора
ABI/Sciex
.t2d
Формат файла 4700 и 4800
ABI/Sciex
.дат
Формат файла серии Voyager-DE
Воды
.ПКЛ
Формат списка пиков MassLynx
Термо ПеркинЭлмер
.СЫРОЙ*
Термо Xcalibur PerkinElmer TurboMass
Микромасса**/Воды
.RAW* (папка)
Waters MassLynx
Chromtech Finnigan*** VG
.ДАТ
Формат файла Finnigan ITDS; Формат данных прибора MAT95 Формат данных MassLab
Финниган***
.РС
Формат данных прибора ITS40
Симадзу
.QGD
GCMSФормат решения
Симадзу
.qgd
формат данных прибора
Симадзу
.ЖК-дисплей
Формат данных прибора QQQ/QTOF
Симадзу
.spc
формат данных библиотеки
Брукер/Вариан
.SMS
формат данных прибора
Брукер/Вариан
.XMS
формат данных прибора
ION-TOF
.itm
необработанные данные измерений
ION-TOF
.ita
данные анализа
Физическая электроника/ULVAC-PHI
.сырой*
необработанные данные измерений
Физическая электроника/ULVAC-PHI
.tdc
спектральные данные
(*) Обратите внимание, что форматы RAW каждого поставщика не являются взаимозаменяемыми; программное обеспечение одного поставщика не может обрабатывать файлы RAW другого поставщика. (**) Micromass была приобретена Waters в 1997 году (***) Finnigan является подразделением Thermo
Программное обеспечение
Зрители
Существует несколько просмотрщиков для mzXML, mzML и mzData. Эти просмотрщики бывают двух типов: Free Open Source Software (FOSS) или Proprietary.
В категории FOSS-просмотрщиков можно найти MZmine, [21] mineXpert2 (mzXML, mzML, собственный timsTOF, xy, MGF, BafAscii) [22] MS-Spectre, [23] TOPPView (mzXML, mzML и mzData), [24] Spectra Viewer, [25] SeeMS, [26] msInspect, [27] jmzML. [28]
В категории фирменных товаров можно найти PEAKS, [29] Insilicos , [30] Mascot Distiller, [31] Elsci Peaksel. [32]
Существует просмотрщик для изображений ITA. [33] Изображения ITA и ITM можно анализировать с помощью библиотеки Python pySPM. [34]
Конвертеры
Известные конвертеры mzData в mzXML:
Hermes: Java-конвертер «mzData, mzXML, mzML» во всех направлениях: общедоступный, работает с графическим пользовательским интерфейсом, разработан Институтом молекулярной системной биологии, Швейцарская высшая техническая школа Цюриха [35] [36]
FileConverter: инструмент командной строки, который преобразует в/из различных форматов масс-спектрометрии, [37] часть TOPP [38]
Известные конвертеры для mzXML:
Институт системной биологии ведет список преобразователей [39]
Известные конвертеры для mzML:
msConvert: [40] [41] Инструмент командной строки для конвертации в/из различных форматов масс-спектрометрии. Для пользователей Windows также доступен графический интерфейс.
ReAdW: [42] Конвертер командной строки Института системной биологии для файлов Thermo RAW, часть TransProteomicPipeline. [43] Последнее обновление этого инструмента было сделано в сентябре 2009 года. Теперь пользователи перенаправляются командой разработчиков TPP на использование программного обеспечения msConvert (см. выше).
FileConverter: инструмент командной строки, который преобразует в/из различных форматов масс-спектрометрии, [37] часть TOPP [38]
Конвертеры для фирменных форматов:
msConvert: [40] [41] Инструмент командной строки для конвертации в/из различных форматов масс-спектрометрии, включая несколько фирменных форматов. Для пользователей Windows также доступен графический интерфейс.
MASSTransit, программное обеспечение для обмена данными между собственными форматами, разработанное Palisade Corporation и распространяемое Scientific Instrument Services, Inc [44] и PerkinElmer . [45] Приобретено у Palisade компанией John Wiley and Sons в 2020 году и включено в программное обеспечение KnowItAll Spectroscopy (список поддерживаемых форматов файлов).
Aston, [46] встроенная поддержка нескольких форматов файлов Agilent Chemstation, Agilent Masshunter и Thermo Isodat
unfinnigan, [47] встроенная поддержка форматов файлов Finnigan (*.RAW)
OpenChrom , программное обеспечение с открытым исходным кодом, поддерживающее преобразование различных собственных форматов файлов, включая собственный открытый формат .ocb для хранения хроматограмм, пиков и результатов идентификации [48]
^ Deutsch EW (декабрь 2012 г.). «Форматы файлов, обычно используемые в масс-спектрометрической протеомике». Молекулярная и клеточная протеомика . 11 (12): 1612– 21. doi : 10.1074/mcp.R112.019695 . PMC 3518119. PMID 22956731 .
^ Макдональд, Роберт С.; Уилкс, Пол А. (1988). "JCAMP-DX: Стандартная форма для обмена инфракрасными спектрами в компьютерно-читаемой форме" (PDF) . Прикладная спектроскопия . 42 (1): 151– 162. Bibcode : 1988ApSpe..42..151M. doi : 10.1366/0003702884428734.
^ Лампен П., Хиллиг Х., Дэвис А.Н., Линшайд М. (декабрь 1994 г.). «JCAMP-DX для масс-спектрометрии». Прикладная спектроскопия . 48 (12): 1545– 52. Бибкод : 1994ApSpe..48.1545L. дои : 10.1366/0003702944027840. S2CID 96773027.
^ ASTM E1947 – 98(2009) Стандартная спецификация для протокола обмена аналитическими данными для хроматографических данных
^ Mayer G, Jones AR, Binz PA, Deutsch EW, Orchard S, Montecchi-Palazzi L и др. (январь 2014 г.). «Контролируемые словари и онтологии в протеомике: обзор, принципы и практика». Biochimica et Biophysica Acta (BBA) - Белки и протеомика . 1844 (1 Pt A): 98–107 . doi : 10.1016/j.bbapap.2013.02.017 . PMC 3898906. PMID 23429179 .
^ Дэвис, Тони (2007). «Выпас AnIML (нет, это не орфографическая ошибка): Обновление о сотрудничестве IUPAC и ASTM по стандартам аналитических данных». Chemistry International . 29 (6).
^ Orchard S, Montechi-Palazzi L, Deutsch EW, Binz PA, Jones AR, Paton N и др. (октябрь 2007 г.). "Пять лет прогресса в стандартизации данных протеомики. 4-й ежегодный весенний семинар Инициативы по стандартам протеомики HUPO, 23–25 апреля 2007 г., Высшая национальная школа (ENS), Лион, Франция". Proteomics . 7 (19): 3436– 40. doi :10.1002/pmic.200700658. PMID 17907277. S2CID 22837325.
^ "mzData". HUPO-PSI. Архивировано из оригинала 7 июля 2018 г. Получено 26 апреля 2021 г.
^ Pedrioli PG, Eng JK, Hubley R, Vogelzang M, Deutsch EW, Raught B и др. (ноябрь 2004 г.). «Общее открытое представление данных масс-спектрометрии и его применение в исследованиях протеомики». Nature Biotechnology . 22 (11): 1459– 66. doi :10.1038/nbt1031. PMID 15529173. S2CID 25734712.
^ Lin SM, Zhu L, Winter AQ, Sasinowski M, Kibbe WA (декабрь 2005 г.). «Для чего нужен mzXML?». Expert Review of Proteomics . 2 (6): 839– 45. doi :10.1586/14789450.2.6.839. PMID 16307524. S2CID 24914725.
^ Shah AR, Davidson J, Monroe ME, Mayampurath AM, Danielson WF, Shi Y и др. (октябрь 2010 г.). «Эффективный формат данных для протеомики на основе масс-спектрометрии». Журнал Американского общества масс-спектрометрии . 21 (10): 1784– 8. doi : 10.1016/j.jasms.2010.06.014 . PMID 20674389.
^ "mzML". HUPO-Proteomics Standards Initiative . Получено 19 апреля 2013 г.
^ Deutsch E (июль 2008 г.). "mzML: единый унифицированный формат данных для вывода масс-спектрометра". Протеомика . 8 (14): 2776– 7. doi : 10.1002/pmic.200890049 . PMID 18655045. S2CID 28297899.
^ Аскенэзи М, Парих Дж. Р., Марто Дж. А. (апрель 2009 г.). "mzAPI: новая стратегия эффективного обмена данными масс-спектрометрии". Nature Methods . 6 (4): 240– 1. doi :10.1038/nmeth0409-240. PMC 2691659 . PMID 19333238.
^ Wilhelm M, Kirchner M, Steen JA, Steen H (январь 2012 г.). "mz5: эффективное с точки зрения пространства и времени хранение наборов данных масс-спектрометрии". Молекулярная и клеточная протеомика . 11 (1): O111.011379. doi : 10.1074/mcp.O111.011379 . PMC 3270111. PMID 21960719 .
^ Schramm T, Hester Z, Klinkert I, Both JP, Heeren RM, Brunelle A и др. (август 2012 г.). "imzML — общий формат данных для гибкого обмена и обработки данных масс-спектрометрических изображений" (PDF) . Journal of Proteomics . 75 (16): 5106– 5110. doi :10.1016/j.jprot.2012.07.026. PMID 22842151. S2CID 25970597.
^ Bouyssié D, Dubois M, Nasso S, Gonzalez de Peredo A, Burlet-Schiltz O, Aebersold R, Monsarrat B (март 2015 г.). "mzDB: формат файла, использующий несколько стратегий индексации для эффективного анализа больших наборов данных LC-MS/MS и SWATH-MS". Molecular & Cellular Proteomics . 14 (3): 771– 81. doi : 10.1074/mcp.O114.039115 . PMC 4349994 . PMID 25505153.
^ Tully B (июнь 2020 г.). «Toffee – высокоэффективный формат файла без потерь для DIA-MS». Scientific Reports . 10 (1): 8939. Bibcode :2020NatSR..10.8939T. doi : 10.1038/s41598-020-65015-y . PMC 7265431 . PMID 32488104.
^ Bhamber RS, Jankevics A, Deutsch EW, Jones AR, Dowsey AW (январь 2021 г.). «mzMLb: перспективный формат необработанных данных масс-спектрометрии на основе соответствующего стандартам mzML, оптимизированный для требований скорости и хранения». Journal of Proteome Research . 20 (1): 172– 183. doi : 10.1021/acs.jproteome.0c00192. PMC 7871438. PMID 32864978 .
^ Раух, Дэвид; Бланкенбург, Клаудия; Фишер, Тильманн Г.; Юнг, Николь; Кун, Стефан; Шацшнейдер, Ульрих; Шульце, Тобиас; Нойманн, Штеффен (27 июня 2022 г.). «Стандарты формата данных в аналитической химии». Чистая и прикладная химия . 94 (6): 725–736 . doi : 10.1515/pac-2021-3101. hdl : 2086/22122 .
^ "Сайт MZmine".
^ "сайт mineXpert2".
^ "Веб-сайт MS-Spectre". Ms-spectre.sourceforge.net . Получено 29 ноября 2011 г. .
^ "Сайт OpenMS и TOPP". Open-ms.sourceforge.net . Получено 29 ноября 2011 г. .
^ "Просмотрщик с открытым исходным кодом, разработанный в рамках академических проектов". Staff.icar.cnr.it . Получено 29 ноября 2011 г.
^ "Просмотрщик с открытым исходным кодом, разработанный Мэттом Чемберсом в Вандербильте". Proteowizard.sourceforge.net . Получено 29 ноября 2011 г. .
^ "Просмотрщик с открытым исходным кодом, разработанный в онкологическом центре Фреда Хатчинсона". Proteomics.fhcrc.org . Получено 29 ноября 2011 г.
^ "jmzML" . Получено 29 ноября 2011 г. .
^ "BSI: PEAKS website". Bioinfor.com . Получено 29 ноября 2011 г. .
^ "Insilicos website". Архивировано из оригинала 20 декабря 2014 года . Получено 28 марта 2020 года .
^ Matrix Science Limited. "Коммерческое программное обеспечение с бесплатным режимом просмотра для mzXML и многих фирменных форматов". Matrixscience.com . Получено 29 ноября 2011 г.
^ «Peaksel — программное обеспечение для чтения и обработки фирменных и открытых форматов ВЭЖХ».
^ "ITAviewer онлайн". "Источник ITAviewer". GitHub . 9 ноября 2017 г.
^ ab "msconvert". ProteoWizard . Получено 20 апреля 2013 г.
^ ab "ProteoWizard" . Получено 20 апреля 2013 г.
^ "ReAdW". Tools.proteomecenter.org . Получено 29 ноября 2011 г. .
^ "TransProteomicPipeline". Tools.proteomecenter.org. 25 мая 2011 г. Получено 29 ноября 2011 г.
^ MASSTransit от Palisade Архивировано 9 мая 2008 г. на Wayback Machine
^ "Газовая хроматография (ГХ)". PerkinElmer . Получено 29 ноября 2011 г. .
^ aston – Программное обеспечение с открытым исходным кодом для хроматографии и масс-спектрометрии – Хостинг проектов Google
^ unfinnigan – Безболезненное извлечение масс-спектров из «сырых» файлов Thermo – Хостинг проектов Google
^ Dąbrowski Ł (7 августа 2015 г.). «Обзор бесплатного программного обеспечения для обработки данных в хроматографии». Mediterranean Journal of Chemistry . 4 (4): 193–200 . doi : 10.13171/mjc.4.4.2015.15.09.16.35/dabrowski .