Расширения имени файла | .fasta, .fas, .fa, .fna, .ffn, .faa, .mpfa, .frn |
---|---|
Тип интернет-СМИ | text/x-fasta |
Единый идентификатор типа (UTI) | нет |
Разработано | Дэвид Дж. Липман Уильям Р. Пирсон [1] [2] |
Первоначальный выпуск | 1985 |
Тип формата | Биоинформатика |
Расширенный от | ASCII для FASTA |
Расширено до | Формат FASTQ [3] |
Веб-сайт | www.ncbi.nlm.nih.gov/BLAST/fasta.shtml |
В биоинформатике и биохимии формат FASTA представляет собой текстовый формат для представления последовательностей нуклеотидов или аминокислот (белков), в котором нуклеотиды или аминокислоты представлены с помощью однобуквенных кодов.
Формат позволяет предварять последовательности именами и комментариями. Он возник из пакета программного обеспечения FASTA и с тех пор стал почти универсальным стандартом в биоинформатике . [4]
Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев .
Последовательность начинается с символа «больше» (">"), за которым следует описание последовательности (все в одной строке). Строки, следующие сразу за строкой описания, представляют собой представление последовательности, по одной букве на аминокислоту или нуклеиновую кислоту, и обычно имеют длину не более 80 символов.
Например:
>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*
Оригинальный формат FASTA/ Pearson описан в документации к набору программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. fasta20.doc, fastaVN.doc или fastaVN.me, где VN — номер версии).
В оригинальном формате последовательность была представлена как ряд строк, каждая из которых была не длиннее 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы обеспечить предварительное распределение фиксированных размеров строк в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. [5] [6] Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованной модой использовать 80 символов или меньше (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Следовательно, 80 символов стали нормой. [7]
Первая строка в файле FASTA начиналась либо с символа ">" (больше), либо, реже, с ";" [8] (точка с запятой) и воспринималась как комментарий. Последующие строки, начинающиеся с точки с запятой, игнорировались программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения краткого описания последовательности, часто начинающегося с уникального библиотечного номера, и со временем стало обычным делом всегда использовать ">" для первой строки и не использовать комментарии ";" (которые в противном случае были бы проигнорированы).
После начальной строки (используемой для уникального описания последовательности) следовала сама последовательность в стандартной однобуквенной строке символов. Все, что не было допустимым символом, игнорировалось (включая пробелы, табуляторы, звездочки и т. д.). Также было принято заканчивать последовательность символом "*" (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
;LCBO - предшественник пролактина - бычий; пример последовательности в формате FASTAMDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSSEMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHLVTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDEDARYSAFYNLLHCLRRDSSKIDTЙLKLLNCRIIYNNNC*>MCHU - Кальмодулин - Человек, кролик, корова, крыса и курицаMADQLTEEQIAEFKEAFSLFFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTIDFPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREAДИДГДГКВНЬЕЕФВКММТАК*>gi|5524211|ru|AAD44166.1| цитохром b [Elephas maximus maximus]LCLYTHIGRNYYGSYLYSETWNTGIMLLLITMATFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLGЛЛИЛИЛЛЛЛЛАЛЛСПДМЛГДПНХМПАДПЛНТПЛХИКПЕВИФЛФАЙАИЛРСВПНКЛГГВЛАЛФЛСИВИЛGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGXИЭНИ
Формат FASTA с несколькими последовательностями или формат multi-FASTA будет получен путем объединения нескольких файлов FASTA с одной последовательностью в один файл. Это не подразумевает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с ";" или ">", заставляя все последующие последовательности начинаться с ">", чтобы их можно было рассматривать как отдельные последовательности (и далее заставляя исключительное резервирование ">" для строки определения последовательности). Таким образом, приведенные выше примеры будут файлом multi-FASTA, если их взять вместе.
Современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательности будет предшествовать ">". Последовательность обычно представляется как "перемежающаяся" или на нескольких строках, как в приведенном выше примере, но также может быть "последовательной" или на одной строке. Запуск различных биоинформатических программ может потребовать преобразований между "последовательным" и "перемежающимся" форматами FASTA.
Строка описания (defline) или строка заголовка/идентификатора, которая начинается с ">", дает имя и/или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенного символом ^A (Control-A). В исходном формате Pearson FASTA после заголовка может располагаться один или несколько комментариев, обозначенных точкой с запятой в начале строки. Некоторые базы данных и биоинформатические приложения не распознают эти комментарии и следуют спецификации NCBI FASTA. Ниже приведен пример файла FASTA с несколькими последовательностями:
>ПОСЛЕДОВАТЕЛЬНОСТЬ_1MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEGLVSVKVSDDFTIAAMRPSYLSYEDLDMTFВЕНЕЙКАЛВАЕЛЕКЕНЕЕРРЛКДПНКПЭХКIPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTLMGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL>ПОСЛЕДОВАТЕЛЬНОСТЬ_2SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQIATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH
NCBI определил стандарт для уникального идентификатора, используемого для последовательности (SeqID) в строке заголовка. Это позволяет последовательности, полученной из базы данных, быть помеченной ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается инструментами NCBI, такими как иmakeblastdb
. table2asn
В следующем списке описывается формат, определенный NCBI FASTA для идентификаторов последовательностей. [9]
Тип | Формат(ы) | Пример(ы) |
---|---|---|
локальный (т.е. без ссылки на базу данных) | lcl|integer
| lcl|123
|
GenInfo магистральная последовательность | bbs|integer | bbs|123 |
GenInfo магистральный тип молекулы | bbm|integer | bbm|123 |
Идентификатор импорта GenInfo | gim|integer | gim|123 |
ГенБанк | gb|accession|locus | gb|M73307|AGMA13GT |
ЭМБЛ | emb|accession|locus | emb|CAM43271.1| |
ПИР | pir|accession|name | pir||G36364 |
ШВЕЙЦАРИЯ-ПРОТ | sp|accession|name | sp|P01013|OVAX_CHICK |
патент | pat|country|patent|sequence-number | pat|US|RE33188|1 |
предварительная выдача патента | pgp|country|application-number|sequence-number | pgp|EP|0238993|7 |
РефСек | ref|accession|name | ref|NM_010450.1| |
общая ссылка на базу данных (ссылка на базу данных, которой нет в этом списке) | gnl|database|integer
| gnl|taxon|9606
|
Интегрированная база данных GenInfo | gi|integer | gi|21434723 |
ДДБЖ | dbj|accession|locus | dbj|BAC85684.1| |
ПРФ | prf|accession|name | prf||0806162C |
ПДБ | pdb|entry|chain | pdb|1I4L|D |
сторонний GenBank | tpg|accession|name | tpg|BK003456| |
сторонний EMBL | tpe|accession|name | tpe|BN000123| |
сторонний DDBJ | tpd|accession|name | tpd|FAA00017| |
ТрЭМБЛ | tr|accession|name | tr|Q90RT2|Q90RT2_9HIV1 |
Вертикальные черты ("|") в приведенном выше списке не являются разделителями в смысле формы Бэкуса–Наура , но являются частью формата. Несколько идентификаторов могут быть объединены, также разделены вертикальными чертами.
После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB/IUPAC , за следующими исключениями: строчные буквы принимаются и отображаются в верхнем регистре; для представления символа пробела может использоваться один дефис или тире; а в последовательностях аминокислот U и * являются приемлемыми буквами (см. ниже). Цифры не допускаются, но используются в некоторых базах данных для указания положения в последовательности. Поддерживаются следующие коды нуклеиновых кислот: [10] [11] [12]
Код нуклеиновой кислоты | Значение | Мнемонический |
---|---|---|
А | А | Денин |
С | С | Цитозин |
Г | Г | Гуанин |
Т | Т | Т имин |
У | У | U расил |
(я) | я | i nosine (нестандартный) |
Р | А или Г (И) | пу Р ин |
И | С, Т или У | p Y римидины |
К | Г, Т или У | основания , которые являются кетонами |
М | А или С | основания с группами М |
С | С или Г | Сильное взаимодействие |
Вт | А, Т или У | Слабое взаимодействие |
Б | не A (т.е. C, G, T или U) | B идет после A |
Д | не C (т.е. A, G, T или U) | D идет после C |
ЧАС | не G (т.е. A, C, T или U) | H идет после G |
В | ни T, ни U (т.е. A, C или G) | V идет после U |
Н | АКГТУ | Нуклеиновая кислота |
- | разрыв неопределенной длины |
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Аминокислотный код | Значение |
---|---|
А | Аланин |
Б | Аспарагиновая кислота (D) или аспарагин (N) |
С | Цистеин |
Д | Аспарагиновая кислота |
Э | Глутаминовая кислота |
Ф | Фенилаланин |
Г | Глицин |
ЧАС | Гистидин |
я | Изолейцин |
Дж. | Лейцин (L) или изолейцин (I) |
К | Лизин |
Л | Лейцин |
М | Метионин / Стартовый кодон |
Н | Аспарагин |
О | Пирролизин (редко) |
П | Пролин |
В | Глютамин |
Р | Аргинин |
С | Серин |
Т | Треонин |
У | Селеноцистеин (редко) |
В | Валин |
Вт | триптофан |
И | Тирозин |
З | Глутаминовая кислота (E) или Глутамин (Q) |
Х | любой |
* | остановка перевода |
- | разрыв неопределенной длины |
Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.
Расширение | Значение | Примечания |
---|---|---|
фаста, фас, фа [13] | общий FASTA | Любой общий файл FASTA |
фна | нуклеиновая кислота FASTA | Используется в общем смысле для обозначения нуклеиновых кислот. |
ффн | FASTA нуклеотиды генных участков | Содержит кодирующие области генома |
фаа | FASTA аминокислота | Содержит аминокислотные последовательности |
мпфа | Аминокислоты FASTA | Содержит несколько белковых последовательностей |
фрн | FASTA некодирующая РНК | Содержит некодирующие области РНК для генома, например тРНК, рРНК |
Сжатие файлов FASTA требует специального компрессора для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном делятся на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress [14] выполняет сжатие этих файлов без потерь, используя моделирование контекста и арифметическое кодирование. Genozip [15] — программный пакет для сжатия геномных файлов — использует расширяемую модель на основе контекста. Тесты алгоритмов сжатия файлов FASTA были опубликованы Хоссейни и др. в 2016 г. [16] и Крюковым и др. в 2020 г. [17].
Шифрование файлов FASTA может быть выполнено с помощью различных инструментов, включая Cryfa и Genozip. Cryfa использует шифрование AES, а также обеспечивает сжатие данных. [18] [19] Аналогично, Genozip может шифровать файлы FASTA с помощью AES-256 во время сжатия. [15]
Формат FASTQ — это форма формата FASTA, расширенная для указания информации, связанной с секвенированием. Он создан Центром Сэнгера в Кембридже. [3]
A2M/A3M — это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M/A3M строчные буквы используются для обозначения вставок, которые затем указываются в других последовательностях как точка (" . "). Точки можно отбрасывать для компактности без потери информации. Как и в типичных файлах FASTA, используемых для выравнивания, пробел (" - ") используется для обозначения ровно одной позиции. [20] A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, также могут быть отброшены. [21]
Множество удобных для пользователя скриптов доступны в сообществе для выполнения манипуляций с файлами FASTA. Также доступны онлайн-инструментарии, такие как FaBox [22] или FASTX-Toolkit на серверах Galaxy. [23] Их можно использовать для разделения заголовков/идентификаторов последовательностей, их переименования, сокращения или извлечения интересующих последовательностей из больших файлов FASTA на основе списка требуемых идентификаторов (среди других доступных функций). Древовидный подход к сортировке нескольких файлов FASTA (TREE2FASTA [24] ) также существует на основе раскрашивания и/или аннотации интересующих последовательностей в средстве просмотра FigTree. Кроме того, пакет Bioconductor Biostrings может использоваться для чтения и манипулирования файлами FASTA в R. [25]
Существует несколько онлайн-конвертеров форматов для быстрого переформатирования файлов multi-FASTA в другие форматы (например, NEXUS, PHYLIP) для использования с различными филогенетическими программами, например, конвертер, доступный на phylogeny.fr. [26]
{{cite web}}
: CS1 maint: несколько имен: список авторов ( ссылка )