MPEG-G

Стандарт ISO/IEC для представления геномной информации

MPEG-G (ISO / IEC 23092) — это стандарт ISO / IEC, разработанный для представления геномной информации в результате сотрудничества ISO / IEC JTC 1 / SC 29 / WG 9 ( MPEG ) и ISO TC 276 «Биотехнология» Рабочей группы 5. Цель стандарта — предоставить совместимые решения для хранения данных, доступа и защиты в различных возможных реализациях для информации данных, генерируемой высокопроизводительными машинами для секвенирования, и их последующей обработки и анализа. [1] [2] Стандарт состоит из различных частей, каждая из которых посвящена определенному аспекту, такому как сжатие, ассоциация метаданных, интерфейсы прикладного программирования ( API ) и справочное программное обеспечение для декодирования данных. Вместе с справочным программным обеспечением декодера в 2019 году стали доступны коммерческие и открытые исходные [3] реализации, охватывающие все больше опубликованных частей стандарта.

Фон

Появление технологий высокопроизводительного секвенирования (HTS) произвело революцию в области количественной биологии. Доступность больших коллекций геномной информации теперь вошла в повседневную практику и стала краеугольным камнем ряда дисциплин, от биологических исследований до персонализированной медицины в клинике. В настоящее время геномная информация в основном передается через различные форматы данных, такие как FASTA / FASTQ для невыровненных прочтений секвенирования и SAM / BAM / CRAM для выровненных прочтений. Стандарт ISO/IEC 23092 (MPEG-G) направлен на предоставление унифицированного формата для эффективного представления и сжатия таких разнообразных данных, как для хранения файлов, так и для передачи данных. Для этого стандарт разделен на несколько частей.

Структура стандарта

Стандарт MPEG-G использует технологию и архитектуры представления данных, ранее проверенные в области цифровых медиа. Они позволяют сжимать и переносить данные геномного секвенирования даже в сложных сценариях, например, когда требуется доступ к большим объемам возможно распределенных данных или когда часть данных должна быть зашифрована по соображениям конфиденциальности. Концептуально такие требования приводят к определению ряда взаимосвязанных механизмов, которые суммированы в следующем списке:

  • Формат данных и сжатие [4]
  • Потоковая передача данных [4]
  • Объединение сжатых файлов [4]
  • Инкрементное обновление данных секвенирования и метаданных [4]
  • Избирательный доступ к сжатым данным, например, быстрые запросы по геномному диапазону [5]
  • Ассоциация метаданных [6]
  • Обеспечение соблюдения правил конфиденциальности [6]
  • Выборочное шифрование данных и метаданных [6]
  • Аннотация и связывание геномных сегментов. [7]

В свою очередь, некоторые из этих тем были собраны вместе, чтобы сделать стандарт более простым для понимания и внедрения. В результате стандарт ISO/IEC 23092 физически структурирован как серия отдельных документов, как показано ниже:

Части MPEG-G
ЧастьЧислоДата первого публичного выпуска (первое издание)Последняя дата публичного релиза (издание)Последняя поправкаЗаголовокОписание
Часть 1ИСО/МЭК 23092-120192019Транспортировка и хранение геномной информацииСпецификация формата файла, потоковой передачи и индексации [4]
Часть 2ИСО/МЭК 23092-220192019Кодирование геномной информацииСжатие некартографированных (сырых) и выровненных данных секвенирования генома [5]
Часть 3ИСО/МЭК 23092-320202020Метаданные и интерфейсы прикладного программирования (API)Спецификация стандартных интерфейсов, синтаксис метаданных и описание механизмов защиты контента [6]
Часть 4ИСО/МЭК 23092-4(2020)Справочное программное обеспечениеОн описывает реализацию нормативного декодера и информативного кодера с открытым исходным кодом. Он также предоставляет сжатые битовые потоки, которые можно использовать в справочных целях. Обратите внимание, что существуют и другие реализации с открытым исходным кодом, разработанные независимыми группами [8] [9]
Часть 5ИСО/МЭК 23092-5(2020)Тестирование соответствияВ нем подробно описывается процедура тестирования и соответствующие сжатые эталонные битовые потоки, которые следует использовать, когда требуется оценить соответствие реализации декодера стандарту MPEG-G [10].
Часть 6ИСО/МЭК 23092-6(2021)Кодирование геномных аннотацийСжатое представление геномных аннотаций — то есть ряда разнородных типов данных, связанных с интервалами эталонного генома, с которыми были сопоставлены данные секвенирования. [7]

ISO/IEC 23092-1 MPEG-G Часть 1

ISO/IEC 23092-1 определяет, как геномные данные организованы в структурах MPEG-G для транспортировки (т. е. потоковой передачи) и хранения. В этой части определяются форматы геномной записи, справочной записи, файла MPEG-G и транспортного потока. Он вводит Access Unit как контейнер сжатых геномных данных и обеспечивает процесс преобразования ссылок между различными форматами.

ISO/IEC 23092-2 MPEG-G Часть 2

ISO/IEC 23092-2 определяет синтаксис и методы сжатия без потерь MPEG-G данных последовательности и сжатия с потерями связанных показателей качества. MPEG-G, как это типично для стандартов MPEG, определяет только процесс декодирования, в то время как процесс кодирования остается открытым для алгоритмических и специфичных для реализации инноваций. Все декодеры, соответствующие MPEG-G, производят идентичные выходные данные из мультиплексированных битовых потоков, включенных в файлы MPEG-G, и потоков данных в сценариях потоковой передачи.

Входными данными кодировщика являются геномные записи или метаданные с дополнительными справочными данными, а выходными данными являются файлы MPEG-G или транспортные потоки.

ISO/IEC 23092-3 MPEG-G Часть 3

ISO/IEC 23092-3 определяет формат метаданных и предоставляет API представления геномных данных для поддержки взаимодействия между существующими инструментами и системами. Часть 3 определяет, как совместимый с MPEG-G поток битов может быть интегрирован с метаданными, а также механизмы для реализации контроля доступа, проверки целостности, аутентификации и механизмов авторизации. Эта часть также содержит информативный раздел, посвященный сопоставлению между структурами данных SAM и MPEG-G, включая обратную совместимость с существующим содержимым SAM . Она определяет:

Группы функций API
Группа функцийКраткое описание
Геномная информацияФункции, используемые для запроса структуры и извлечения геномной информации, закодированной в битовом потоке, соответствующем серии стандартов ISO/IEC 23092.
МетаданныеФункции, используемые для запроса структуры и извлечения метаданных, связанных с закодированными геномными данными.
ЗащитаФункции, используемые для извлечения метаданных защиты, связанных с закодированными геномными данными.
СсылкаФункции, используемые для извлечения ссылки, связанной с набором данных.
СтатистикаФункции, используемые для получения статистики, связанной с набором данных.

ISO/IEC 23092-4 MPEG-G Часть 4

ISO/IEC 23092-4 [9] определяет эталонное программное обеспечение для представления геномной информации, называемое геномной моделью (ГМ). Оно состоит из двух компонентов: эталонного программного обеспечения кодировщика и эталонного программного обеспечения декодера. В то время как эталонное программное обеспечение декодера предоставляется для оценки соответствия требованиям ISO/IEC 23092-1, [4] ISO/IEC 23092-2 [5] и ISO/IEC 23092-6, [7] эталонное программное обеспечение кодировщика служит руководством для внедрения вышеупомянутых стандартов. Эталонное программное обеспечение кодировщика под названием Genie [3] является программным обеспечением с открытым исходным кодом, разработанным группой лиц из нескольких университетов и компаний по всему миру. Оно включает в себя следующие компоненты:

Компоненты эталонного программного обеспечения
ЧастьЧислоКомпонентОписание
Часть 1 [4]ИСО/МЭК 23092-1Инкапсуляция
Индексация
Часть 2 [5]ИСО/МЭК 23092-2Классификация
Референтный двигатель
Квантование значения качества
Генерация подпоследовательности дескриптора
Трансформации
Энтропийное кодирование
Часть 6ИСО/МЭК 23092-6(Будет определено)

ISO/IEC 23092-5 MPEG-G Часть 5

ISO/IEC 23092-5 определяет соответствие кодирования геномной информации. Часть 5 предоставляет средства для тестирования и проверки правильности внедрения технологии MPEG-G в различных устройствах и приложениях для обеспечения взаимодействия между всеми системами. Она определяет нормативную процедуру для оценки соответствия стандарту на исчерпывающем наборе сжатых данных.

Тип MIME и расширения имени файла

В настоящее время для файла MPEG-G не определен тип MIME (тип носителя IANA на основе RFC 6838).

Обычные расширения файлов не определены.

Смотрите также

Ссылки

  1. ^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Рибека, Паоло; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (октябрь 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv : 426353. doi : 10.1101/426353. S2CID  53606895.
  2. ^ Hernaez, Mikel; Pavlichin, Дмитрий; Weissman, Tsachy; Ochoa, Idoia (2019-07-20). «Сжатие геномных данных». Annual Review of Biomedical Data Science . 2 (1): 19–37. doi : 10.1146/annurev-biodatasci-072018-021229 . ISSN  2574-3414. S2CID  88495878.
  3. ^ ab "Genie, кодек MPEG-G с открытым исходным кодом". GitHub . 22 июня 2021 г.
  4. ^ abcdefg «ISO/IEC 23092-1 Транспортировка и хранение геномной информации».
  5. ^ abcd "ISO/IEC 23092-2 Кодирование геномной информации".
  6. ^ abcd "ISO/IEC 23092-3 Метаданные и API".
  7. ^ abc "ISO/IEC 23092-6 Кодирование геномных аннотаций".
  8. ^ Блисс, Брайан; Аллен, Джошуа; Бахети, Саураб; Бокол, Мэтью; Дельгадо, Хайме; Фостиер, Ян; Гелпи, Хосеп; Харт, Стивен; Эрнаес, Микель; Хадсон, Мэтью; Кальмбах, Майкл; Клее, Эрик; Майнцер, Людмила; Мюнтеферинг, Фабиан; Наро, Дэниел; Очоа, Идоя; Остерманн, Йорн; Паридаенс, Том; Росс, Кристиан; Фогес, Ян; Вибен, Эрик; Ян, Мингю; Вайсман, Цахи; Виперт, Матье (ноябрь 2019 г.). Genie: совместимое с MPEG-G программное обеспечение для сжатия геномных данных (PDF) . sc19.supercomputing.org . дои : 10.1101/426353.
  9. ^ ab "Справочное программное обеспечение ISO/IEC 23092-4".
  10. ^ «Соответствие ISO/IEC 23092-5».
  • mpeg-g.org
  • веб-сайт MPEG
  • ИСО/МЭК 23092-1
  • ИСО/МЭК 23092-2
  • ИСО/МЭК 23092-3
  • ИСО/МЭК 23092-4
  • ИСО/МЭК 23092-5
  • ИСО/МЭК 23092-6
Получено с "https://en.wikipedia.org/w/index.php?title=MPEG-G&oldid=1191990177"