Сжатие данных геномного секвенирования

Методы сжатия данных, специально разработанные для геномных данных

Высокопроизводительные технологии секвенирования привели к резкому снижению затрат на секвенирование генома и к удивительно быстрому накоплению геномных данных. Эти технологии позволяют проводить амбициозные проекты по секвенированию генома, такие как 1000 Genomes Project и 1001 ( Arabidopsis thaliana ) Genomes Project. Хранение и передача огромного количества геномных данных стали основной проблемой, мотивируя разработку высокопроизводительных инструментов сжатия, специально предназначенных для геномных данных. Недавний всплеск интереса к разработке новых алгоритмов и инструментов для хранения и управления данными геномного повторного секвенирования подчеркивает растущий спрос на эффективные методы сжатия геномных данных.

Общие понятия

В то время как стандартные инструменты сжатия данных (например, zip и rar) используются для сжатия данных последовательностей (например, база данных плоских файлов GenBank ), этот подход подвергается критике как экстравагантный, поскольку геномные последовательности часто содержат повторяющийся контент (например, микросателлитные последовательности) или многие последовательности демонстрируют высокий уровень сходства (например, несколько геномных последовательностей одного и того же вида). Кроме того, статистические и информационно-теоретические свойства геномных последовательностей могут потенциально использоваться для сжатия данных секвенирования. ^[1]^[2]^[3]

Базовые варианты

При наличии эталонного шаблона необходимо регистрировать только различия (например, замены и вставки/делеции отдельных нуклеотидов), что значительно сокращает объем хранимой информации. Понятие относительного сжатия очевидно, особенно в проектах по повторному секвенированию генома, где целью является обнаружение вариаций в отдельных геномах. Использование эталонной карты полиморфизма отдельных нуклеотидов ( SNP ), такой как dbSNP , может быть использовано для дальнейшего улучшения количества вариантов для хранения. ^[4]

Относительные геномные координаты

Другая полезная идея — хранить относительные геномные координаты вместо абсолютных координат. ^[4] Например, представляя варианты последовательностей оснований в формате « Position1Base1Position2Base2… », «123C125T130G» можно сократить до «0C2T5G», где целые числа представляют интервалы между вариантами. Стоимость — это скромные арифметические вычисления, необходимые для восстановления абсолютных координат, плюс хранение поправочного коэффициента («123» в этом примере).

Предварительная информация о геномах

Дальнейшее сокращение может быть достигнуто, если все возможные позиции замен в пуле последовательностей генома известны заранее. ^[4] Например, если известны все местоположения SNP в популяции человека, то нет необходимости регистрировать информацию о координатах вариантов (например, «123C125T130G» можно сократить до «CTG»). Однако этот подход редко бывает целесообразным, поскольку такая информация обычно неполна или недоступна.

Кодирование геномных координат

Схемы кодирования используются для преобразования целых чисел координат в двоичную форму для обеспечения дополнительного сжатия. Конструкции кодирования, такие как код Голомба и код Хаффмана , были включены в инструменты сжатия геномных данных. ^[5]^[6]^[7]^[8]^[9]^[10] Конечно, схемы кодирования влекут за собой сопутствующие алгоритмы декодирования. Выбор схемы декодирования потенциально влияет на эффективность извлечения информации о последовательности.

Выбор дизайна алгоритма

Универсальный подход к сжатию геномных данных не обязательно может быть оптимальным, поскольку конкретный метод может быть более подходящим для определенных целей и задач. Таким образом, несколько вариантов дизайна, которые потенциально влияют на производительность сжатия, могут быть важны для рассмотрения.

Последовательность ссылок

Выбор референсной последовательности для относительного сжатия может повлиять на производительность сжатия. Выбор консенсусной референсной последовательности вместо более конкретной референсной последовательности (например, пересмотренной Кембриджской референсной последовательности ) может привести к более высокому коэффициенту сжатия, поскольку консенсусная референсная последовательность может содержать меньше предвзятости в своих данных. ^[4] Однако знание об источнике сжимаемой последовательности может быть использовано для достижения большего выигрыша в сжатии. Была предложена идея использования нескольких референсных последовательностей. ^[4] Брэндон и др. (2009) ^[4] намекнули на потенциальное использование шаблонов референсных последовательностей, специфичных для этнических групп, используя сжатие данных вариантов митохондриальной ДНК в качестве примера (см. Рисунок 2). Авторы обнаружили смещенное распределение гаплотипов в последовательностях митохондриальной ДНК африканцев, азиатов и евразийцев относительно пересмотренной Кембриджской референсной последовательности . Их результат предполагает, что пересмотренная Кембриджская референсная последовательность не всегда может быть оптимальной, поскольку необходимо хранить большее количество вариантов при ее использовании против данных от этнически далеких людей. Кроме того, эталонная последовательность может быть разработана на основе статистических свойств ^[1]^[4] или спроектирована ^[11]^[12] для улучшения степени сжатия.

Схемы кодирования

Было изучено применение различных типов схем кодирования для кодирования вариантов баз и геномных координат. ^[4] Фиксированные коды, такие как код Голомба и код Райса , подходят, когда распределение вариантов или координат (представленных как целое число) хорошо определено. Переменные коды, такие как код Хаффмана , обеспечивают более общую схему кодирования энтропии, когда базовое распределение вариантов и/или координат не очень хорошо определено (это обычно имеет место в данных геномной последовательности).

Список инструментов сжатия данных геномного ресеквенирования

Коэффициент сжатия имеющихся в настоящее время инструментов сжатия геномных данных колеблется от 65 до 1200 раз для человеческих геномов. ^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] Очень близкие варианты или ревизии одного и того же генома могут быть сжаты очень эффективно (например, сообщалось о коэффициенте сжатия 18 133 ^[6] для двух ревизий одного и того же генома A. thaliana, которые идентичны на 99,999%). Однако такое сжатие не является показателем типичного коэффициента сжатия для разных геномов (особей) одного и того же организма. Наиболее распространенной схемой кодирования среди этих инструментов является кодирование Хаффмана , которое используется для сжатия данных без потерь .

Инструменты сжатия данных геномного секвенирования, совместимые со стандартными форматами файлов геномного секвенирования (BAM и FASTQ)
Программное обеспечение	Описание	Степень сжатия	Данные, используемые для оценки	Подход/Схема кодирования	Связь	Лицензия на использование	Ссылка
PetaSuite	Инструмент сжатия без потерь для файлов BAM и FASTQ.gz; прозрачное обратное считывание «на лету» через виртуальные файлы BAM и FASTQ.gz	60% - 90%	Последовательности генома человека из проекта «1000 геномов»		https://petagene.com	Коммерческий	^[14]
Генозип	Универсальный компрессор для геномных файлов – сжимает файлы FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP, BED и 23andMe	^[15] ^[16]	Последовательности генома человека из проекта «1000 геномов»	Расширяемая структура Genozip	http://genozip.com	Коммерческое, но бесплатное для некоммерческого использования	^[17]
Геномное сжатие (G-SQZ)	Инструмент сжатия без потерь, предназначенный для хранения и анализа данных чтения секвенирования	65% - 76%	Последовательности генома человека из проекта «1000 геномов»	Кодирование Хаффмана	http://public.tgen.org/sqz	-Необъявленный-	^[8]
CRAM (часть SAMtools )	Высокоэффективное и настраиваемое сжатие данных последовательностей на основе ссылок	^[18]	Европейский архив нуклеотидов	дефляция и rANS	http://www.ebi.ac.uk/ena/software/cram-toolkit	Апач-2.0	^[19]
Геномный компрессор (GeCo)	Инструмент, использующий смесь нескольких моделей Маркова для сжатия референтных и безреферентных последовательностей.		Последовательность ядерного генома человека	Арифметическое кодирование	http://bioinformatics.ua.pt/software/geco/ или https://pratas.github.io/geco/	GPLv3	^[13]
Кодеки GenomSys	Сжатие без потерь файлов BAM и FASTQ в стандартный формат ISO/IEC 23092 ^[20] (MPEG-G)	60% - 90%	Последовательности генома человека из проекта «1000 геномов»	Контекстно-адаптивное двоичное арифметическое кодирование (CABAC)	https://www.genomsys.com	Коммерческий	^[21]
фастафы	Сжатие файлов FASTA / UCSC2Bit в сжатые архивы с произвольным доступом. Набор инструментов для виртуального монтирования файлов FASTA, индексов и файлов словарей. Это позволяет аккуратно интегрировать файловую систему (подобную API) без необходимости полной распаковки архивов для произвольного / частичного доступа.		FASTA-файлы	Кодирование Хаффмана, реализованное Zstd	https://github.com/yhoogstrate/fastafs	GPL-v2.0	^[22]

Инструменты сжатия данных геномного секвенирования несовместимы со стандартными форматами файлов геномного секвенирования
Программное обеспечение	Описание	Степень сжатия	Данные, используемые для оценки	Подход/Схема кодирования	Связь	Лицензия на использование	Ссылка
Геномный дифференциальный компрессор (GDC)	Инструмент в стиле LZ77 для сжатия нескольких геномов одного вида	180–250-кратное / 70–100-кратное	Последовательность ядерного генома человека и Saccharomyces cerevisiae	Кодирование Хаффмана	http://sun.aei.polsl.pl/gdc	GPLv2	^[5]
Повторное секвенирование генома (GRS)	Инструмент на основе референтной последовательности, независимый от референтной карты SNP или информации об вариациях последовательностей	159-кратный / 18,133-кратный / 82-кратный	Последовательность ядерного генома человека, Arabidopsis thaliana (различные ревизии одного и того же генома) и Oryza sativa	Кодирование Хаффмана	https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/	бесплатно для некоммерческого использования	^[6]
Кодирование повторного секвенирования генома (GReEN)	Инструмент на основе вероятностной модели копирования для сжатия данных повторного секвенирования с использованием референтной последовательности	~100-кратный	Последовательность ядерного генома человека	Арифметическое кодирование	http://bioinformatics.ua.pt/software/green/	-Необъявленный-	^[7]
DNAzip	Пакет инструментов для сжатия	~750-кратный	Последовательность ядерного генома человека	Кодирование Хаффмана	http://www.ics.uci.edu/~dnazip/	-Необъявленный-	^[9]
GenomeZip	Сжатие относительно референтного генома. Опционально использует внешние базы данных геномных вариаций (например, dbSNP)	~1200-кратный	Последовательность ядерного генома человека (Уотсон) и последовательности из проекта «1000 геномов»	Энтропийное кодирование для аппроксимации эмпирических распределений	https://sourceforge.net/projects/genomezip/	-Необъявленный-	^[10]

Ссылки

^ ab Джанкарло, Р.; Скатурро, Д.; Утро, Ф. (2009). «Сжатие текстовых данных в вычислительной биологии: синопсис». Биоинформатика . 25 (13): 1575–1586. doi : 10.1093/bioinformatics/btp117 . PMID 19251772.
^ Nalbantog̃Lu, OU; Russell, DJ; Sayood, K. (2010). «Концепции и алгоритмы сжатия данных и их применение в биоинформатике». Entropy . 12 (1): 34. doi : 10.3390/e12010034 . PMC 2821113 . PMID 20157640.
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 .
^ abcdefghi Брэндон, MC; Уоллес, DC; Балди, P. (2009). «Структуры данных и алгоритмы сжатия для данных геномной последовательности». Биоинформатика . 25 (14): 1731–1738. doi :10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783 .
^ abc Deorowicz, S.; Grabowski, S. (2011). «Надежное относительное сжатие геномов со случайным доступом». Биоинформатика . 27 (21): 2979–2986. doi : 10.1093/bioinformatics/btr505 . PMID 21896510.
^ abcd Ван, C.; Чжан, D. (2011). «Новый инструмент сжатия для эффективного хранения данных повторного секвенирования генома». Nucleic Acids Research . 39 (7): e45. doi :10.1093/nar/gkr009. PMC 3074166. PMID 21266471 .
^ abc Pinho, AJ; Pratas, D.; Garcia, SP (2012). "GReEn: Инструмент для эффективного сжатия данных повторного секвенирования генома". Nucleic Acids Research . 40 (4): e27. doi :10.1093/nar/gkr1124. PMC 3287168. PMID 22139935 .
^ abc Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Компактное кодирование геномной последовательности и качественных данных". Биоинформатика . 26 (17): 2192–2194. doi :10.1093/bioinformatics/btq346. PMID 20605925.
^ abc Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). «Человеческие геномы как вложения электронной почты». Биоинформатика . 25 (2): 274–275. doi : 10.1093/bioinformatics/btn582 . PMID 18996942.
^ abc Павличин, Д.С.; Вайсман, Т.; Йона, Г. (2013). «Геном человека снова сокращается». Биоинформатика . 29 (17): 2199–2302. doi : 10.1093/bioinformatics/btt362 . PMID 23793748.
^ Куруппу, Шаника; Пуглиси, Саймон Дж.; Зобель, Джастин (2011). «Построение референтной последовательности для относительного сжатия геномов». Обработка строк и поиск информации . Конспект лекций по информатике. Том 7024. С. 420–425. doi :10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
^ Грабовский, Шимон; Деорович, Себастьян (2011). «Инженерное относительное сжатие геномов». arXiv : 1103.2351 [cs.CE].
^ ab Pratas, D., Pinho, AJ, and Ferreira, PJSG Эффективное сжатие геномных последовательностей. Конференция по сжатию данных , Сноуберд, Юта, 2016.
^ «Важность сжатия данных в области геномики». IEEE Pulse . 2019-04-26 . Получено 2024-02-22 .
^ Лан, Дивон; Лламас, Бастьен (14 сентября 2022 г.). «Genozip 14 — достижения в сжатии файлов BAM и CRAM». bioRxiv . doi :10.1101/2022.09.12.507582. S2CID 252357508.
^ Лан, Дивон; Хьюз, Дэниел СТ; Лламас, Бастьен (7 июля 2023 г.). «Глубокое совместное сжатие FASTQ и BAM в Genozip 15». bioRxiv . doi :10.1101/2023.07.07.548069. S2CID 259764998.
^ Лан, Дивон; Тоблер, Рэй; Соулми, Яссин; Льямас, Бастьен (25 августа 2021 г.). «Genozip: универсальный расширяемый геномный компрессор данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897 .
^ CRAM-бенчмаркинг
^ Спецификация формата CRAM (версия 3.0)
^ "ISO/IEC 23092-2:2019 Информационные технологии — Представление геномной информации — Часть 2: Кодирование геномной информации". iso.org .
^ Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид Дж.; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (27 сентября 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv 10.1101/426353 .
^ Хугстрат, Юрий; Дженстер, Гвидо В.; ван де Веркен, Хармен Дж.Г. (декабрь 2021 г.). «FASTAFS: виртуализация файловой системы сжатых файлов FASTA с произвольным доступом». БМК Биоинформатика . 22 (1): 535. doi : 10.1186/s12859-021-04455-3 . ПМЦ 8558547 . ПМИД 34724897.

[Gian-1] Джанкарло, Р.; Скатурро, Д.; Утро, Ф. (2009). «Сжатие текстовых данных в вычислительной биологии: синопсис». Биоинформатика . 25 (13): 1575–1586. doi : 10.1093/bioinformatics/btp117 . PMID 19251772.

[2] Nalbantog̃Lu, OU; Russell, DJ; Sayood, K. (2010). «Концепции и алгоритмы сжатия данных и их применение в биоинформатике». Entropy . 12 (1): 34. doi : 10.3390/e12010034 . PMC 2821113 . PMID 20157640.

[Morteza-3] Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 .

[Brandon-4] Брэндон, MC; Уоллес, DC; Балди, P. (2009). «Структуры данных и алгоритмы сжатия для данных геномной последовательности». Биоинформатика . 25 (14): 1731–1738. doi :10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783 .

[Deo-5] Deorowicz, S.; Grabowski, S. (2011). «Надежное относительное сжатие геномов со случайным доступом». Биоинформатика . 27 (21): 2979–2986. doi : 10.1093/bioinformatics/btr505 . PMID 21896510.

[Wang-6] Ван, C.; Чжан, D. (2011). «Новый инструмент сжатия для эффективного хранения данных повторного секвенирования генома». Nucleic Acids Research . 39 (7): e45. doi :10.1093/nar/gkr009. PMC 3074166. PMID 21266471 .

[Pinho-7] Pinho, AJ; Pratas, D.; Garcia, SP (2012). "GReEn: Инструмент для эффективного сжатия данных повторного секвенирования генома". Nucleic Acids Research . 40 (4): e27. doi :10.1093/nar/gkr1124. PMC 3287168. PMID 22139935 .

[Tembe-8] Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Компактное кодирование геномной последовательности и качественных данных". Биоинформатика . 26 (17): 2192–2194. doi :10.1093/bioinformatics/btq346. PMID 20605925.

[Chris-9] Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). «Человеческие геномы как вложения электронной почты». Биоинформатика . 25 (2): 274–275. doi : 10.1093/bioinformatics/btn582 . PMID 18996942.

[Pavlichin-10] Павличин, Д.С.; Вайсман, Т.; Йона, Г. (2013). «Геном человека снова сокращается». Биоинформатика . 29 (17): 2199–2302. doi : 10.1093/bioinformatics/btt362 . PMID 23793748.

[11] Куруппу, Шаника; Пуглиси, Саймон Дж.; Зобель, Джастин (2011). «Построение референтной последовательности для относительного сжатия геномов». Обработка строк и поиск информации . Конспект лекций по информатике. Том 7024. С. 420–425. doi :10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.

[12] Грабовский, Шимон; Деорович, Себастьян (2011). «Инженерное относительное сжатие геномов». arXiv : 1103.2351 [cs.CE].

[Pratas-13] Pratas, D., Pinho, AJ, and Ferreira, PJSG Эффективное сжатие геномных последовательностей. Конференция по сжатию данных , Сноуберд, Юта, 2016.

[14] «Важность сжатия данных в области геномики». IEEE Pulse . 2019-04-26 . Получено 2024-02-22 .

[15] Лан, Дивон; Лламас, Бастьен (14 сентября 2022 г.). «Genozip 14 — достижения в сжатии файлов BAM и CRAM». bioRxiv . doi :10.1101/2022.09.12.507582. S2CID 252357508.

[16] Лан, Дивон; Хьюз, Дэниел СТ; Лламас, Бастьен (7 июля 2023 г.). «Глубокое совместное сжатие FASTQ и BAM в Genozip 15». bioRxiv . doi :10.1101/2023.07.07.548069. S2CID 259764998.

[17] Лан, Дивон; Тоблер, Рэй; Соулми, Яссин; Льямас, Бастьен (25 августа 2021 г.). «Genozip: универсальный расширяемый геномный компрессор данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897 .

[CRAMbench-18] CRAM-бенчмаркинг

[CRAM-19] Спецификация формата CRAM (версия 3.0)

[20] "ISO/IEC 23092-2:2019 Информационные технологии — Представление геномной информации — Часть 2: Кодирование геномной информации". iso.org .

[Alberti-21] Альберти, Клаудио; Паридаенс, Том; Фогес, Ян; Наро, Дэниел; Ахмад, Джунаид Дж.; Равази, Массимо; Ренци, Даниэле; Зоя, Джорджио; Очоа, Идоя; Маттавелли, Марко; Дельгадо, Хайме; Эрнаес, Микель (27 сентября 2018 г.). «Введение в MPEG-G, новый стандарт ISO для представления геномной информации». bioRxiv 10.1101/426353 .

[22] Хугстрат, Юрий; Дженстер, Гвидо В.; ван де Веркен, Хармен Дж.Г. (декабрь 2021 г.). «FASTAFS: виртуализация файловой системы сжатых файлов FASTA с произвольным доступом». БМК Биоинформатика . 22 (1): 535. doi : 10.1186/s12859-021-04455-3 . ПМЦ 8558547 . ПМИД 34724897.