Формат FASTA

Формат файла для последовательностей ДНК или белка
Формат FASTA
Расширения имени файла
.fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn
Тип интернет-СМИ
text/x-fasta
Единый идентификатор типа (UTI)нет
РазработаноДэвид Дж. Липман
Уильям Р. Пирсон [1] [2]
Первоначальный выпуск1985
Тип форматаБиоинформатика
Расширенный отASCII для FASTA
Расширено доФормат FASTQ [3]
Веб-сайтwww.ncbi.nlm.nih.gov/BLAST/fasta.shtml

В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления последовательностей нуклеотидов или аминокислот (белков), в котором нуклеотиды или аминокислоты представлены с помощью однобуквенных кодов.

Формат позволяет предварять последовательности именами и комментариями. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . [4]

Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .

Обзор

Последовательность начинается с символа «больше» (">"), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.

Например:

>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*

Оригинальный формат

Оригинальный формат FASTA/ Pearson описан в документации к набору программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).

В оригинальном формате последовательность была представлена ​​как ряд строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное распределение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [5] [6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованной модой использовать 80 символов или меньше (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Следовательно, 80 символов стали нормой. [7]

Первая строка в файле FASTA начиналась либо с символа ">" (больше), либо, реже, с ";" [8] (точка с запятой) и воспринималась как комментарий. Последующие строки, начинающиеся с точки с запятой, игнорировались программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения краткого описания последовательности, часто начинающегося с уникального библиотечного номера, и со временем стало обычным делом всегда использовать ">" для первой строки и не использовать комментарии ";" (которые в противном случае были бы проигнорированы).

После начальной строки (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, что не было допустимым символом, игнорировалось (включая пробелы, табуляторы, звездочки и т. д.). Также было принято заканчивать последовательность символом "*" (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:

;LCBO - предшественник пролактина - бычий; пример последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTЙLKLLNCRIIYNNNC*>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*>gi|5524211|ru|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNYYGSYLYSETWNTGIMLLLITMATFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGЛЛИЛИЛЛЛЛЛАЛЛСПДМЛГДПНХМПАДПЛНТПЛХИКПЕВИФЛФАЙАИЛРСВПНКЛГГВЛАЛФЛСИВИЛGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXИЭНИ

Формат FASTA с несколькими последовательностями или формат multi-FASTA будет получен путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не подразумевает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с ";" или ">", заставляя все последующие последовательности начинаться с ">", чтобы их можно было рассматривать как отдельные последовательности (и далее заставляя исключительное резервирование ">" для строки определения последовательности). Таким образом, приведенные выше примеры будут файлом multi-FASTA, если их взять вместе.

Современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательности будет предшествовать ">". Последовательность обычно представляется как "перемежающаяся" или на нескольких строках, как в приведенном выше примере, но также может быть "последовательной" или на одной строке. Запуск различных биоинформатических программ может потребовать преобразований между "последовательным" и "перемежающимся" форматами FASTA.

Строка описания

Строка описания (defline) или строка заголовка/идентификатора, которая начинается с ">", дает имя и/или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может располагаться один или несколько комментариев, обозначенных точкой с запятой в начале строки. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификации NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:

>ПОСЛЕДОВАТЕЛЬНОСТЬ_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFВЕНЕЙКАЛВАЕЛЕКЕНЕЕРРЛКДПНКПЭХКIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Идентификаторы NCBI

NCBI определил стандарт для уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет последовательности, полученной из базы данных, быть помеченной ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается инструментами NCBI, такими как иmakeblastdb . table2asnВ следующем списке описывается формат, определенный NCBI FASTA для идентификаторов последовательностей. [9]

ТипФормат(ы)Пример(ы)
локальный (т.е. без ссылки на базу данных)lcl|integer

lcl|string

lcl|123

lcl|hmm271

GenInfo магистральная последовательностьbbs|integerbbs|123
GenInfo магистральный тип молекулыbbm|integerbbm|123
Идентификатор импорта GenInfogim|integergim|123
ГенБанкgb|accession|locusgb|M73307|AGMA13GT
ЭМБЛemb|accession|locusemb|CAM43271.1|
ПИРpir|accession|namepir||G36364
ШВЕЙЦАРИЯ-ПРОТsp|accession|namesp|P01013|OVAX_CHICK
патентpat|country|patent|sequence-numberpat|US|RE33188|1
предварительная выдача патентаpgp|country|application-number|sequence-numberpgp|EP|0238993|7
РефСекref|accession|nameref|NM_010450.1|
общая ссылка на базу данных
(ссылка на базу данных, которой нет в этом списке)
gnl|database|integer

gnl|database|string

gnl|taxon|9606

gnl|PID|e1632

Интегрированная база данных GenInfogi|integergi|21434723
ДДБЖdbj|accession|locusdbj|BAC85684.1|
ПРФprf|accession|nameprf||0806162C
ПДБpdb|entry|chainpdb|1I4L|D
сторонний GenBanktpg|accession|nametpg|BK003456|
сторонний EMBLtpe|accession|nametpe|BN000123|
сторонний DDBJtpd|accession|nametpd|FAA00017|
ТрЭМБЛtr|accession|nametr|Q90RT2|Q90RT2_9HIV1

Вертикальные черты ("|") в приведенном выше списке не являются разделителями в смысле формы Бэкуса–Наура , но являются частью формата. Несколько идентификаторов могут быть объединены, также разделены вертикальными чертами.

Представление последовательности

После строки заголовка представлена ​​фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы принимаются и отображаются в верхнем регистре; для представления символа пробела может использоваться один дефис или тире; а в последовательностях аминокислот U и * являются приемлемыми буквами (см. ниже). Цифры не допускаются, но используются в некоторых базах данных для указания положения в последовательности. Поддерживаются следующие коды нуклеиновых кислот: [10] [11] [12]

Код нуклеиновой кислотыЗначениеМнемонический
ААДенин
ССЦитозин
ГГГуанин
ТТТ имин
УУU расил
(я)яi nosine (нестандартный)
РА или Г (И)пу Р ин
ИС, Т или Уp Y римидины
КГ, Т или Уоснования , которые являются кетонами
МА или Соснования с группами М
СС или ГСильное взаимодействие
ВтА, Т или УСлабое взаимодействие
Бне A (т.е. C, G, T или U)B идет после A
Дне C (т.е. A, G, T или U)D идет после C
ЧАСне G (т.е. A, C, T или U)H идет после G
Вни T, ни U (т.е. A, C или G)V идет после U
НАКГТУНуклеиновая кислота
-разрыв неопределенной длины

Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):

Аминокислотный кодЗначение
ААланин
БАспарагиновая кислота (D) или аспарагин (N)
СЦистеин
ДАспарагиновая кислота
ЭГлутаминовая кислота
ФФенилаланин
ГГлицин
ЧАСГистидин
яИзолейцин
Дж.Лейцин (L) или изолейцин (I)
КЛизин
ЛЛейцин
ММетионин / Стартовый кодон
НАспарагин
ОПирролизин (редко)
ППролин
ВГлютамин
РАргинин
ССерин
ТТреонин
УСеленоцистеин (редко)
ВВалин
Вттриптофан
ИТирозин
ЗГлутаминовая кислота (E) или Глутамин (Q)
Хлюбой
*остановка перевода
-разрыв неопределенной длины

FASTA-файл

Расширение имени файла

Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.

РасширениеЗначениеПримечания
фаста, фас, фа [13]общий FASTAЛюбой общий файл FASTA
фнануклеиновая кислота FASTAИспользуется в общем смысле для обозначения нуклеиновых кислот.
ффнFASTA нуклеотиды генных участковСодержит кодирующие области генома
фааFASTA аминокислотаСодержит аминокислотные последовательности
мпфаАминокислоты FASTAСодержит несколько белковых последовательностей
фрнFASTA некодирующая РНКСодержит некодирующие области РНК для генома, например тРНК, рРНК

Сжатие

Сжатие файлов FASTA требует специального компрессора для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном делятся на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [14] выполняет сжатие этих файлов без потерь, используя моделирование контекста и арифметическое кодирование. Genozip [15] — программный пакет для сжатия геномных файлов — использует расширяемую модель на основе контекста. Тесты алгоритмов сжатия файлов FASTA были опубликованы Хоссейни и др. в 2016 г. [16] и Крюковым и др. в 2020 г. [17].

Шифрование

Шифрование файлов FASTA может быть выполнено с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. [18] [19] Аналогично, Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. [15]

Расширения

Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. [3]

A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M строчные буквы используются для обозначения вставок, которые затем указываются в других последовательностях как точка (" . "). Точки можно отбрасывать для компактности без потери информации. Как и в типичных файлах FASTA, используемых для выравнивания, пробел (" - ") используется для обозначения ровно одной позиции. [20] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены. [21]

Работа с файлами FASTA

Множество удобных для пользователя скриптов доступны в сообществе для выполнения манипуляций с файлами FASTA. Также доступны онлайн-инструментарии, такие как FaBox [22] или FASTX-Toolkit на серверах Galaxy. [23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке нескольких файлов FASTA (TREE2FASTA [24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings может использоваться для чтения и манипулирования файлами FASTA в R. [25]

Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например, конвертер, доступный на phylogeny.fr. [26]

Смотрите также

  • Формат FASTQ , используемый для представления результатов секвенирования ДНК вместе с показателями качества.
  • Форматы SAM и CRAM используются для представления результатов секвенирования генома, сопоставленных с последовательностями генома.
  • Формат GVF (Genome Variation Format) — расширение на основе формата GFF3 .

Ссылки

  1. ^ Lipman DJ, Pearson WR (март 1985). «Быстрый и чувствительный поиск сходства белков». Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID  2983426. Значок закрытого доступа
  2. ^ Pearson WR, Lipman DJ (апрель 1988 г.). «Улучшенные инструменты для сравнения биологических последовательностей». Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–8. Bibcode : 1988PNAS ...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013. PMID  3162770. 
  3. ^ ab Cock PJ, Fields CJ, Goto N, Heuer ML, Rice PM (апрель 2010 г.). «Формат файла Sanger FASTQ для последовательностей с оценками качества и варианты Solexa/Illumina FASTQ». Nucleic Acids Research . 38 (6): 1767–71. doi :10.1093/nar/gkp1137. PMC 2847217 . PMID  20015970. 
  4. ^ "Что такое формат FASTA?". Zhang Lab . Архивировано из оригинала 2022-12-04 . Получено 2022-12-04 .
  5. ^ Ландштайнер, mass:werk, Норберт (2019-02-20). "(Now Go Bang!) Растровая типографика CRT (согласно DEC)". Now Go Bang! — mass:werk / Блог . Получено 15.03.2024 .{{cite web}}: CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ "VT220 Built-in Glyphs". VT100 . Получено 2024-03-15 .
  7. ^ "Почему 80 символов — это "стандартный" предел ширины кода?". Software Engineering Stack Exchange . Получено 2024-03-15 .
  8. ^ «Формат базы данных FASTA» . www.loc.gov . 01.08.2023 . Проверено 15 марта 2024 г.
  9. ^ NCBI C++ Toolkit Book. Национальный центр биотехнологической информации . Получено 19 декабря 2018 г.
  10. ^ Тао Тао (2011-08-24). "Однобуквенные коды для нуклеотидов". [NCBI Learning Center] . Национальный центр биотехнологической информации . Архивировано из оригинала 2012-09-14 . Получено 2012-03-15 .
  11. ^ "Таблица кодов ИЮПАК". Банк ДНК NIAS. Архивировано из оригинала 2011-08-11.
  12. ^ "anysymbol". MAFFT - программа выравнивания множественных последовательностей .
  13. ^ "Форматы файлов выравнивания". 22 мая 2019 г. Получено 22 мая 2019 г.
  14. ^ Пиньо А.Дж., Пратас Д. (январь 2014 г.). «MFCompress: инструмент сжатия данных FASTA и multi-FASTA». Биоинформатика . 30 (1): 117–8. doi : 10.1093/биоинформатика/btt594. ПМЦ 3866555 . ПМИД  24132931. 
  15. ^ ab Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (2021-02-15). «Genozip: универсальный расширяемый компрессор геномных данных». Биоинформатика . 37 (16): 2225–2230. doi :10.1093/bioinformatics/btab102. ISSN  1367-4803. PMC 8388020. PMID  33585897 . 
  16. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (2016). «Обзор методов сжатия данных биологических последовательностей». Информация . 7 (4): 56. дои : 10.3390/info7040056 . ISSN  2078-2489.
  17. ^ Крюков К, Уэда МТ, Накагава С, Иманиши Т (июль 2020 г.). «База данных Sequence Compression Benchmark (SCB) — комплексная оценка компрессоров без ссылок для последовательностей в формате FASTA». GigaScience . 9 (7): giaa072. doi :10.1093/gigascience/giaa072. PMC 7336184 . PMID  32627830. 
  18. ^ Pratas D, Hosseini M, Pinho A (2017). "Cryfa: инструмент для сжатия и шифрования файлов FASTA". 11-я Международная конференция по практическим применениям вычислительной биологии и биоинформатики (PACBB) . Достижения в области интеллектуальных систем и вычислений. Том 616. Springer. стр. 305–312. doi :10.1007/978-3-319-60816-7_37. ISBN 978-3-319-60815-0.
  19. ^ Хоссейни, Мортеза; Пратас, Диого; Пиньо, Армандо Дж. (01.01.2019). Бергер, Бонни (ред.). «Cryfa: безопасный инструмент шифрования геномных данных». Биоинформатика . 35 (1): 146–148. doi :10.1093/bioinformatics/bty645. ISSN  1367-4803. PMC 6298042. PMID 30020420  . 
  20. ^ "Описание формата выравнивания A2M". SAMtools . Архивировано из оригинала 2022-08-15.
  21. ^ "soedinglab/hh-suite: reformat.pl" . Гитхаб . 20 ноября 2022 г.
  22. ^ Villesen, P. (2007). «FaBox: онлайн-набор инструментов для последовательностей fasta». Molecular Ecology Notes . 7 (6): 965–968. doi :10.1111/j.1471-8286.2007.01821.x. ISSN  1471-8278.
  23. ^ Бланкенберг Д., Фон Кюстер Г., Бувье Э., Бейкер Д., Афган Э., Столер Н., Galaxy Team, Тейлор Дж., Некрутенко А. (2014). «Распространение научного программного обеспечения с помощью Galaxy ToolShed». Геномная биология . 15 (2): 403. doi : 10.1186/gb4161 . PMC 4038738. PMID  25001293. 
  24. ^ Sauvage T, Plouviez S, Schmidt WE, Fredericq S (март 2018 г.). "TREE2FASTA: гибкий скрипт Perl для пакетного извлечения последовательностей FASTA из исследовательских филогенетических деревьев". BMC Research Notes . 11 (1): 403. doi : 10.1186/s13104-018-3268-y . PMC 5838971. PMID  29506565 . 
  25. ^ Пажес, Х.; Абойун, П.; Джентльмен, Р.; ДебРой, С. (2018). «Биостроки: эффективное манипулирование биологическими строками». Bioconductor.org . Версия пакета R 2.48.0. doi : 10.18129/B9.bioc.Biostrings.
  26. ^ Dereeper A, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gascuel O (июль 2008 г.). "Phylogeny.fr: надежный филогенетический анализ для неспециалистов". Nucleic Acids Research . 36 (выпуск веб-сервера): W465–9. doi :10.1093/nar/gkn180. PMC 2447785. PMID 18424797  . 
  • Биопроводник
  • FASTX-Toolkit
  • Просмотрщик FigTree
  • Филогения.fr
  • ГТО
Взято с "https://en.wikipedia.org/w/index.php?title=FASTA_format&oldid=1253601953"