Формат FASTA

Формат FASTA
Расширения имени файла	.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
Тип интернет-СМИ	text/x-fasta
Единый идентификатор типа (UTI)	нет
Разработано	Дэвид Дж. Липман ; Уильям Р. Пирсон
Первоначальный выпуск	1985
Тип формата	Биоинформатика
Расширенный от	ASCII для FASTA
Расширено до	Формат FASTQ
Веб-сайт	www.ncbi.nlm.nih.gov/BLAST/fasta.shtml

Формат файла для последовательностей ДНК или белка

В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления последовательностей нуклеотидов или аминокислот (белков), в котором нуклеотиды или аминокислоты представлены с помощью однобуквенных кодов.

Формат позволяет предварять последовательности именами и комментариями. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . ^[4]

Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .

Обзор

Последовательность начинается с символа «больше» (">"), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.

Например:

>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*

Оригинальный формат

Оригинальный формат FASTA/ Pearson описан в документации к набору программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).

В оригинальном формате последовательность была представлена как ряд строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное распределение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. ^[5]^[6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованной модой использовать 80 символов или меньше (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Следовательно, 80 символов стали нормой. ^[7]

Первая строка в файле FASTA начиналась либо с символа ">" (больше), либо, реже, с ";" ^[8] (точка с запятой) и воспринималась как комментарий. Последующие строки, начинающиеся с точки с запятой, игнорировались программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения краткого описания последовательности, часто начинающегося с уникального библиотечного номера, и со временем стало обычным делом всегда использовать ">" для первой строки и не использовать комментарии ";" (которые в противном случае были бы проигнорированы).

После начальной строки (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, что не было допустимым символом, игнорировалось (включая пробелы, табуляторы, звездочки и т. д.). Также было принято заканчивать последовательность символом "*" (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:

;LCBO - предшественник пролактина - бычий; пример последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTЙLKLLNCRIIYNNNC*>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*>gi|5524211|ru|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNYYGSYLYSETWNTGIMLLLITMATFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGЛЛИЛИЛЛЛЛЛАЛЛСПДМЛГДПНХМПАДПЛНТПЛХИКПЕВИФЛФАЙАИЛРСВПНКЛГГВЛАЛФЛСИВИЛGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXИЭНИ

Формат FASTA с несколькими последовательностями или формат multi-FASTA будет получен путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не подразумевает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с ";" или ">", заставляя все последующие последовательности начинаться с ">", чтобы их можно было рассматривать как отдельные последовательности (и далее заставляя исключительное резервирование ">" для строки определения последовательности). Таким образом, приведенные выше примеры будут файлом multi-FASTA, если их взять вместе.

Современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательности будет предшествовать ">". Последовательность обычно представляется как "перемежающаяся" или на нескольких строках, как в приведенном выше примере, но также может быть "последовательной" или на одной строке. Запуск различных биоинформатических программ может потребовать преобразований между "последовательным" и "перемежающимся" форматами FASTA.

Строка описания

Строка описания (defline) или строка заголовка/идентификатора, которая начинается с ">", дает имя и/или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может располагаться один или несколько комментариев, обозначенных точкой с запятой в начале строки. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификации NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:

>ПОСЛЕДОВАТЕЛЬНОСТЬ_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFВЕНЕЙКАЛВАЕЛЕКЕНЕЕРРЛКДПНКПЭХКIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Идентификаторы NCBI

NCBI определил стандарт для уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет последовательности, полученной из базы данных, быть помеченной ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается инструментами NCBI, такими как иmakeblastdb . table2asnВ следующем списке описывается формат, определенный NCBI FASTA для идентификаторов последовательностей. ^[9]

Тип	Формат(ы)	Пример(ы)
локальный (т.е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo магистральная последовательность	`bbs\|integer`	`bbs\|123`
GenInfo магистральный тип молекулы	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
ЭМБЛ	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
ПИР	`pir\|accession\|name`	`pir\|\|G36364`
ШВЕЙЦАРИЯ-ПРОТ	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительная выдача патента	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
РефСек	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
ДДБЖ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
ПРФ	`prf\|accession\|name`	`prf\|\|0806162C`
ПДБ	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонний EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
ТрЭМБЛ	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`

Вертикальные черты ("|") в приведенном выше списке не являются разделителями в смысле формы Бэкуса–Наура , но являются частью формата. Несколько идентификаторов могут быть объединены, также разделены вертикальными чертами.

Представление последовательности

После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы принимаются и отображаются в верхнем регистре; для представления символа пробела может использоваться один дефис или тире; а в последовательностях аминокислот U и * являются приемлемыми буквами (см. ниже). Цифры не допускаются, но используются в некоторых базах данных для указания положения в последовательности. Поддерживаются следующие коды нуклеиновых кислот: ^[10]^[11]^[12]

Код нуклеиновой кислоты	Значение	Мнемонический
А	А	Денин
С	С	Цитозин
Г	Г	Гуанин
Т	Т	Т имин
У	У	U расил
(я)	я	i nosine (нестандартный)
Р	А или Г (И)	пу Р ин
И	С, Т или У	p Y римидины
К	Г, Т или У	основания , которые являются кетонами
М	А или С	основания с группами М
С	С или Г	Сильное взаимодействие
Вт	А, Т или У	Слабое взаимодействие
Б	не A (т.е. C, G, T или U)	B идет после A
Д	не C (т.е. A, G, T или U)	D идет после C
ЧАС	не G (т.е. A, C, T или U)	H идет после G
В	ни T, ни U (т.е. A, C или G)	V идет после U
Н	АКГТУ	Нуклеиновая кислота
-	разрыв неопределенной длины

Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):

Аминокислотный код	Значение
А	Аланин
Б	Аспарагиновая кислота (D) или аспарагин (N)
С	Цистеин
Д	Аспарагиновая кислота
Э	Глутаминовая кислота
Ф	Фенилаланин
Г	Глицин
ЧАС	Гистидин
я	Изолейцин
Дж.	Лейцин (L) или изолейцин (I)
К	Лизин
Л	Лейцин
М	Метионин / Стартовый кодон
Н	Аспарагин
О	Пирролизин (редко)
П	Пролин
В	Глютамин
Р	Аргинин
С	Серин
Т	Треонин
У	Селеноцистеин (редко)
В	Валин
Вт	триптофан
И	Тирозин
З	Глутаминовая кислота (E) или Глутамин (Q)
Х	любой
*	остановка перевода
-	разрыв неопределенной длины

FASTA-файл

Расширение имени файла

Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.

Расширение	Значение	Примечания
фаста, фас, фа ^[13]	общий FASTA	Любой общий файл FASTA
фна	нуклеиновая кислота FASTA	Используется в общем смысле для обозначения нуклеиновых кислот.
ффн	FASTA нуклеотиды генных участков	Содержит кодирующие области генома
фаа	FASTA аминокислота	Содержит аминокислотные последовательности
мпфа	Аминокислоты FASTA	Содержит несколько белковых последовательностей
фрн	FASTA некодирующая РНК	Содержит некодирующие области РНК для генома, например тРНК, рРНК

Сжатие

Сжатие файлов FASTA требует специального компрессора для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном делятся на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress ^[14] выполняет сжатие этих файлов без потерь, используя моделирование контекста и арифметическое кодирование. Genozip ^{[15] —} программный пакет для сжатия геномных файлов — использует расширяемую модель на основе контекста. Тесты алгоритмов сжатия файлов FASTA были опубликованы Хоссейни и др. в 2016 г. ^[16] и Крюковым и др. в 2020 г. ^[17].

Шифрование

Шифрование файлов FASTA может быть выполнено с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. ^[18]^[19] Аналогично, Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. ^[15]

Расширения

Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. ^[3]

A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M строчные буквы используются для обозначения вставок, которые затем указываются в других последовательностях как точка (" . "). Точки можно отбрасывать для компактности без потери информации. Как и в типичных файлах FASTA, используемых для выравнивания, пробел (" - ") используется для обозначения ровно одной позиции. ^[20] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены. ^[21]

Работа с файлами FASTA

Множество удобных для пользователя скриптов доступны в сообществе для выполнения манипуляций с файлами FASTA. Также доступны онлайн-инструментарии, такие как FaBox ^[22] или FASTX-Toolkit на серверах Galaxy. ^[23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке нескольких файлов FASTA (TREE2FASTA ^[24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings может использоваться для чтения и манипулирования файлами FASTA в R. ^[25]

Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например, конвертер, доступный на phylogeny.fr. ^[26]

Смотрите также

Формат FASTQ , используемый для представления результатов секвенирования ДНК вместе с показателями качества.
Форматы SAM и CRAM используются для представления результатов секвенирования генома, сопоставленных с последовательностями генома.
Формат GVF (Genome Variation Format) — расширение на основе формата GFF3 .

Ссылки

^ Lipman DJ, Pearson WR (март 1985). «Быстрый и чувствительный поиск сходства белков». Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID 2983426.
^ Pearson WR, Lipman DJ (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей». Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013. PMID 3162770.
^ ab Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с оценками качества и варианты Solexa/Illumina FASTQ». Nucleic Acids Research . 38 (6): 1767–71. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID 20015970.
^ "Что такое формат FASTA?". Zhang Lab . Архивировано из оригинала 2022-12-04 . Получено 2022-12-04 .
^ Ландштайнер, mass:werk, Норберт (2019-02-20). "(Now Go Bang!) Растровая типографика CRT (согласно DEC)". Now Go Bang! — mass:werk / Блог . Получено 15.03.2024 .{{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ "VT220 Built-in Glyphs". VT100 . Получено 2024-03-15 .
^ "Почему 80 символов — это "стандартный" предел ширины кода?". Software Engineering Stack Exchange . Получено 2024-03-15 .
^ «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.
^ NCBI C++ Toolkit Book. Национальный центр биотехнологической информации . Получено 19 декабря 2018 г.
^ Тао Тао (2011-08-24). "Однобуквенные коды для нуклеотидов". [NCBI Learning Center] . Национальный центр биотехнологической информации . Архивировано из оригинала 2012-09-14 . Получено 2012-03-15 .
^ "Таблица кодов ИЮПАК". Банк ДНК NIAS. Архивировано из оригинала 2011-08-11.
^ "anysymbol". MAFFT - программа выравнивания множественных последовательностей .
^ "Форматы файлов выравнивания". 22 мая 2019 г. Получено 22 мая 2019 г.
^ Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA». Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594. ПМЦ 3866555 . ПМИД 24132931.
^ ab Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (2021-02-15). «Genozip: универсальный расширяемый компрессор геномных данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. ISSN 1367-4803. PMC 8388020. PMID 33585897 .
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN 2078-2489.
^ Крюков К, Уэда МТ, Накагава С, Иманиши Т (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка компрессоров без ссылок для последовательностей в формате FASTA». GigaScience . 9 (7): giaa072. doi :10.1093/gigascience/giaa072. PMC 7336184 . PMID 32627830.
^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: инструмент для сжатия и шифрования файлов FASTA". 11-я Международная конференция по практическим применениям вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том 616. Springer. стр. 305–312. doi :10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.
^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (01.01.2019). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных». Биоинформатика . 35 (1): 146–148. doi :10.1093/bioinformatics/bty645. ISSN 1367-4803. PMC 6298042. PMID 30020420 .
^ "Описание формата выравнивания A2M". SAMtools . Архивировано из оригинала 2022-08-15.
^ "soedinglab/hh-suite: reformat.pl" . Гитхаб . 20 ноября 2022 г.
^ Villesen, P. (2007). «FaBox: онлайн-набор инструментов для последовательностей fasta». Molecular Ecology Notes . 7 (6): 965–968. doi :10.1111/j.1471-8286.2007.01821.x. ISSN 1471-8278.
^ Бланкенберг Д., Фон Кюстер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Геномная биология . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID 25001293.
^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). "TREE2FASTA: гибкий скрипт Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев". BMC Research Notes . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . PMC 5838971. PMID 29506565 .
^ Пажес, Х.; Абойун, П.; Джентльмен, Р.; ДебРой, С. (2018). «Биостроки: эффективное манипулирование биологическими строками». Bioconductor.org . Версия пакета R 2.48.0. doi : 10.18129/B9.bioc.Biostrings.
^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). "Phylogeny.fr: надежный филогенетический анализ для неспециалистов". Nucleic Acids Research . 36 (выпуск веб-сервера): W465–9. doi :10.1093/nar/gkn180. PMC 2447785. PMID 18424797 .

Внешние ссылки

Биопроводник
FASTX-Toolkit
Просмотрщик FigTree
Филогения.fr
ГТО

[rapid-1] Lipman DJ, Pearson WR (март 1985). «Быстрый и чувствительный поиск сходства белков». Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID 2983426.

[improved-2] Pearson WR, Lipman DJ (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей». Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013. PMID 3162770.

[fastq-3] Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с оценками качества и варианты Solexa/Illumina FASTQ». Nucleic Acids Research . 38 (6): 1767–71. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID 20015970.

[4] "Что такое формат FASTA?". Zhang Lab . Архивировано из оригинала 2022-12-04 . Получено 2022-12-04 .

[5] Ландштайнер, mass:werk, Норберт (2019-02-20). "(Now Go Bang!) Растровая типографика CRT (согласно DEC)". Now Go Bang! — mass:werk / Блог . Получено 15.03.2024 .{{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )

[6] "VT220 Built-in Glyphs". VT100 . Получено 2024-03-15 .

[7] "Почему 80 символов — это "стандартный" предел ширины кода?". Software Engineering Stack Exchange . Получено 2024-03-15 .

[8] «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.

[9] NCBI C++ Toolkit Book. Национальный центр биотехнологической информации . Получено 19 декабря 2018 г.

[10] Тао Тао (2011-08-24). "Однобуквенные коды для нуклеотидов". [NCBI Learning Center] . Национальный центр биотехнологической информации . Архивировано из оригинала 2012-09-14 . Получено 2012-03-15 .

[11] "Таблица кодов ИЮПАК". Банк ДНК NIAS. Архивировано из оригинала 2011-08-11.

[12] "anysymbol". MAFFT - программа выравнивания множественных последовательностей .

[13] "Форматы файлов выравнивания". 22 мая 2019 г. Получено 22 мая 2019 г.

[MFCompress-14] Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA». Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594. ПМЦ 3866555 . ПМИД 24132931.

[Genozip-15] Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (2021-02-15). «Genozip: универсальный расширяемый компрессор геномных данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. ISSN 1367-4803. PMC 8388020. PMID 33585897 .

[Morteza-16] Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN 2078-2489.

[SCB-17] Крюков К, Уэда МТ, Накагава С, Иманиши Т (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка компрессоров без ссылок для последовательностей в формате FASTA». GigaScience . 9 (7): giaa072. doi :10.1093/gigascience/giaa072. PMC 7336184 . PMID 32627830.

[CRYFA1-18] Pratas D, Hosseini M, Pinho A (2017). "Cryfa: инструмент для сжатия и шифрования файлов FASTA". 11-я Международная конференция по практическим применениям вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том 616. Springer. стр. 305–312. doi :10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.

[CRYFA2-19] Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (01.01.2019). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных». Биоинформатика . 35 (1): 146–148. doi :10.1093/bioinformatics/bty645. ISSN 1367-4803. PMC 6298042. PMID 30020420 .

[20] "Описание формата выравнивания A2M". SAMtools . Архивировано из оригинала 2022-08-15.

[21] "soedinglab/hh-suite: reformat.pl" . Гитхаб . 20 ноября 2022 г.

[FaBox-22] Villesen, P. (2007). «FaBox: онлайн-набор инструментов для последовательностей fasta». Molecular Ecology Notes . 7 (6): 965–968. doi :10.1111/j.1471-8286.2007.01821.x. ISSN 1471-8278.

[Galaxyserver-23] Бланкенберг Д., Фон Кюстер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Геномная биология . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID 25001293.

[tree2fasta-24] Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). "TREE2FASTA: гибкий скрипт Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев". BMC Research Notes . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . PMC 5838971. PMID 29506565 .

[25] Пажес, Х.; Абойун, П.; Джентльмен, Р.; ДебРой, С. (2018). «Биостроки: эффективное манипулирование биологическими строками». Bioconductor.org . Версия пакета R 2.48.0. doi : 10.18129/B9.bioc.Biostrings.

[phylodotfr-26] Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). "Phylogeny.fr: надежный филогенетический анализ для неспециалистов". Nucleic Acids Research . 36 (выпуск веб-сервера): W465–9. doi :10.1093/nar/gkn180. PMC 2447785. PMID 18424797 .

Тип	Формат(ы)	Пример(ы)
локальный (т.е. без ссылки на базу данных)	`lcl\|integer` `lcl\|string`	`lcl\|123` `lcl\|hmm271`
GenInfo магистральная последовательность	`bbs\|integer`	`bbs\|123`
GenInfo магистральный тип молекулы	`bbm\|integer`	`bbm\|123`
Идентификатор импорта GenInfo	`gim\|integer`	`gim\|123`
ГенБанк	`gb\|accession\|locus`	`gb\|M73307\|AGMA13GT`
ЭМБЛ	`emb\|accession\|locus`	`emb\|CAM43271.1\|`
ПИР	`pir\|accession\|name`	`pir\|\|G36364`
ШВЕЙЦАРИЯ-ПРОТ	`sp\|accession\|name`	`sp\|P01013\|OVAX_CHICK`
патент	`pat\|country\|patent\|sequence-number`	`pat\|US\|RE33188\|1`
предварительная выдача патента	`pgp\|country\|application-number\|sequence-number`	`pgp\|EP\|0238993\|7`
РефСек	`ref\|accession\|name`	`ref\|NM_010450.1\|`
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке)	`gnl\|database\|integer` `gnl\|database\|string`	`gnl\|taxon\|9606` `gnl\|PID\|e1632`
Интегрированная база данных GenInfo	`gi\|integer`	`gi\|21434723`
ДДБЖ	`dbj\|accession\|locus`	`dbj\|BAC85684.1\|`
ПРФ	`prf\|accession\|name`	`prf\|\|0806162C`
ПДБ	`pdb\|entry\|chain`	`pdb\|1I4L\|D`
сторонний GenBank	`tpg\|accession\|name`	`tpg\|BK003456\|`
сторонний EMBL	`tpe\|accession\|name`	`tpe\|BN000123\|`
сторонний DDBJ	`tpd\|accession\|name`	`tpd\|FAA00017\|`
ТрЭМБЛ	`tr\|accession\|name`	`tr\|Q90RT2\|Q90RT2_9HIV1`