Использование внешних ссылок в этой статье может не соответствовать политике или рекомендациям Википедии . ( Декабрь 2021 г. ) |
В этой статье может быть слишком много заголовков разделов . ( Декабрь 2021 ) |
MPEG-G (ISO / IEC 23092) — это стандарт ISO / IEC, разработанный для представления геномной информации в результате сотрудничества ISO / IEC JTC 1 / SC 29 / WG 9 ( MPEG ) и ISO TC 276 «Биотехнология» Рабочей группы 5. Цель стандарта — предоставить совместимые решения для хранения данных, доступа и защиты в различных возможных реализациях для информации данных, генерируемой высокопроизводительными машинами для секвенирования, и их последующей обработки и анализа. [1] [2] Стандарт состоит из различных частей, каждая из которых посвящена определенному аспекту, такому как сжатие, ассоциация метаданных, интерфейсы прикладного программирования ( API ) и справочное программное обеспечение для декодирования данных. Вместе с справочным программным обеспечением декодера в 2019 году стали доступны коммерческие и открытые исходные [3] реализации, охватывающие все больше опубликованных частей стандарта.
Появление технологий высокопроизводительного секвенирования (HTS) произвело революцию в области количественной биологии. Доступность больших коллекций геномной информации теперь вошла в повседневную практику и стала краеугольным камнем ряда дисциплин, от биологических исследований до персонализированной медицины в клинике. В настоящее время геномная информация в основном передается через различные форматы данных, такие как FASTA / FASTQ для невыровненных прочтений секвенирования и SAM / BAM / CRAM для выровненных прочтений. Стандарт ISO/IEC 23092 (MPEG-G) направлен на предоставление унифицированного формата для эффективного представления и сжатия таких разнообразных данных, как для хранения файлов, так и для передачи данных. Для этого стандарт разделен на несколько частей.
Стандарт MPEG-G использует технологию и архитектуры представления данных, ранее проверенные в области цифровых медиа. Они позволяют сжимать и переносить данные геномного секвенирования даже в сложных сценариях, например, когда требуется доступ к большим объемам возможно распределенных данных или когда часть данных должна быть зашифрована по соображениям конфиденциальности. Концептуально такие требования приводят к определению ряда взаимосвязанных механизмов, которые суммированы в следующем списке:
В свою очередь, некоторые из этих тем были собраны вместе, чтобы сделать стандарт более простым для понимания и внедрения. В результате стандарт ISO/IEC 23092 физически структурирован как серия отдельных документов, как показано ниже:
Часть | Число | Дата первого публичного выпуска (первое издание) | Последняя дата публичного релиза (издание) | Последняя поправка | Заголовок | Описание |
---|---|---|---|---|---|---|
Часть 1 | ИСО/МЭК 23092-1 | 2019 | 2019 | Транспортировка и хранение геномной информации | Спецификация формата файла, потоковой передачи и индексации [4] | |
Часть 2 | ИСО/МЭК 23092-2 | 2019 | 2019 | Кодирование геномной информации | Сжатие некартографированных (сырых) и выровненных данных секвенирования генома [5] | |
Часть 3 | ИСО/МЭК 23092-3 | 2020 | 2020 | Метаданные и интерфейсы прикладного программирования (API) | Спецификация стандартных интерфейсов, синтаксис метаданных и описание механизмов защиты контента [6] | |
Часть 4 | ИСО/МЭК 23092-4 | (2020) | Справочное программное обеспечение | Он описывает реализацию нормативного декодера и информативного кодера с открытым исходным кодом. Он также предоставляет сжатые битовые потоки, которые можно использовать в справочных целях. Обратите внимание, что существуют и другие реализации с открытым исходным кодом, разработанные независимыми группами [8] [9] | ||
Часть 5 | ИСО/МЭК 23092-5 | (2020) | Тестирование соответствия | В нем подробно описывается процедура тестирования и соответствующие сжатые эталонные битовые потоки, которые следует использовать, когда требуется оценить соответствие реализации декодера стандарту MPEG-G [10]. | ||
Часть 6 | ИСО/МЭК 23092-6 | (2021) | Кодирование геномных аннотаций | Сжатое представление геномных аннотаций — то есть ряда разнородных типов данных, связанных с интервалами эталонного генома, с которыми были сопоставлены данные секвенирования. [7] |
ISO/IEC 23092-1 определяет, как геномные данные организованы в структурах MPEG-G для транспортировки (т. е. потоковой передачи) и хранения. В этой части определяются форматы геномной записи, справочной записи, файла MPEG-G и транспортного потока. Он вводит Access Unit как контейнер сжатых геномных данных и обеспечивает процесс преобразования ссылок между различными форматами.
ISO/IEC 23092-2 определяет синтаксис и методы сжатия без потерь MPEG-G данных последовательности и сжатия с потерями связанных показателей качества. MPEG-G, как это типично для стандартов MPEG, определяет только процесс декодирования, в то время как процесс кодирования остается открытым для алгоритмических и специфичных для реализации инноваций. Все декодеры, соответствующие MPEG-G, производят идентичные выходные данные из мультиплексированных битовых потоков, включенных в файлы MPEG-G, и потоков данных в сценариях потоковой передачи.
Входными данными кодировщика являются геномные записи или метаданные с дополнительными справочными данными, а выходными данными являются файлы MPEG-G или транспортные потоки.
ISO/IEC 23092-3 определяет формат метаданных и предоставляет API представления геномных данных для поддержки взаимодействия между существующими инструментами и системами. Часть 3 определяет, как совместимый с MPEG-G поток битов может быть интегрирован с метаданными, а также механизмы для реализации контроля доступа, проверки целостности, аутентификации и механизмов авторизации. Эта часть также содержит информативный раздел, посвященный сопоставлению между структурами данных SAM и MPEG-G, включая обратную совместимость с существующим содержимым SAM . Она определяет:
Группа функций | Краткое описание |
---|---|
Геномная информация | Функции, используемые для запроса структуры и извлечения геномной информации, закодированной в битовом потоке, соответствующем серии стандартов ISO/IEC 23092. |
Метаданные | Функции, используемые для запроса структуры и извлечения метаданных, связанных с закодированными геномными данными. |
Защита | Функции, используемые для извлечения метаданных защиты, связанных с закодированными геномными данными. |
Ссылка | Функции, используемые для извлечения ссылки, связанной с набором данных. |
Статистика | Функции, используемые для получения статистики, связанной с набором данных. |
ISO/IEC 23092-4 [9] определяет эталонное программное обеспечение для представления геномной информации, называемое геномной моделью (ГМ). Оно состоит из двух компонентов: эталонного программного обеспечения кодировщика и эталонного программного обеспечения декодера. В то время как эталонное программное обеспечение декодера предоставляется для оценки соответствия требованиям ISO/IEC 23092-1, [4] ISO/IEC 23092-2 [5] и ISO/IEC 23092-6, [7] эталонное программное обеспечение кодировщика служит руководством для внедрения вышеупомянутых стандартов. Эталонное программное обеспечение кодировщика под названием Genie [3] является программным обеспечением с открытым исходным кодом, разработанным группой лиц из нескольких университетов и компаний по всему миру. Оно включает в себя следующие компоненты:
Часть | Число | Компонент | Описание |
---|---|---|---|
Часть 1 [4] | ИСО/МЭК 23092-1 | Инкапсуляция | |
Индексация | |||
Часть 2 [5] | ИСО/МЭК 23092-2 | Классификация | |
Референтный двигатель | |||
Квантование значения качества | |||
Генерация подпоследовательности дескриптора | |||
Трансформации | |||
Энтропийное кодирование | |||
Часть 6 | ИСО/МЭК 23092-6 | (Будет определено) |
ISO/IEC 23092-5 определяет соответствие кодирования геномной информации. Часть 5 предоставляет средства для тестирования и проверки правильности внедрения технологии MPEG-G в различных устройствах и приложениях для обеспечения взаимодействия между всеми системами. Она определяет нормативную процедуру для оценки соответствия стандарту на исчерпывающем наборе сжатых данных.
В настоящее время для файла MPEG-G не определен тип MIME (тип носителя IANA на основе RFC 6838).
Обычные расширения файлов не определены.