Общий формат характеристик

Формат файла для геномных характеристик
Общий формат характеристик
Расширения имени файла
.gff,.gff3
Тип интернет-СМИ
text/gff3
РазработаноЦентр Сэнгера (v2), Проект онтологии последовательностей (v3)
Тип форматаБиоинформатика
Расширенный отЗначения, разделенные табуляцией
Открытый формат ?да
Веб-сайтgithub.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md

В биоинформатике общий формат признаков ( формат поиска генов , формат общих признаков , GFF ) — это формат файла, используемый для описания генов и других признаков последовательностей ДНК , РНК и белков .

Версии GFF

Существуют следующие версии GFF:

  • General Feature Format версии 2, в целом устарел
    • Gene Transfer Format 2.2, производная версия, используемая Ensembl
  • Формат общих функций версии 3
    • Формат вариации генома с дополнительными прагмами и атрибутами для функций sequence_alteration

GFF2/GTF имел ряд недостатков, в частности, то, что он может представлять только двухуровневые иерархии признаков и, таким образом, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.

GTF идентичен GFF версии 2. [ 1]

Общая структура GFF

Все форматы GFF (GFF2, GFF3 и GTF) разделены табуляцией с 9 полями на строку. Все они имеют одинаковую структуру для первых 7 полей, но различаются по содержанию и формату девятого поля . Некоторые названия полей были изменены в GFF3, чтобы избежать путаницы. Например, поле «seqid» ранее называлось «sequence», что можно спутать с нуклеотидной или аминокислотной цепью. Общая структура выглядит следующим образом:

Общая структура GFF3
Индекс позицииНазвание должностиОписание
1секидНазвание последовательности, в которой находится объект.
2источникАлгоритм или процедура, которая сгенерировала функцию. Обычно это название программного обеспечения или базы данных.
3типИмя типа признака, например "ген" или "экзон". В хорошо структурированном файле GFF все дочерние признаки всегда следуют за своими родителями в одном блоке (поэтому все экзоны транскрипта помещаются после родительской строки признака "транскрипт" и перед любой другой родительской строкой транскрипта). В GFF3 все признаки и их отношения должны быть совместимы со стандартами, выпущенными проектом Sequence Ontology.
4начинатьГеномное начало признака со смещением в 1 основание . Это контрастирует с другими форматами полуоткрытой последовательности со смещением в 0 оснований, такими как BED .
5конецГеномный конец признака, со смещением в 1 основание . Это та же конечная координата, что и в форматах полуоткрытой последовательности со смещением в 0, например, BED . [ необходима цитата ]
6счетЧисловое значение, которое обычно указывает на уверенность источника в аннотированном объекте. Значение "." (точка) используется для определения нулевого значения.
7прядьОдиночный символ, указывающий на нить признака. Это может быть "+" (положительный или 5'->3'), "-" (отрицательный или 3'->5'), "." (неопределенный) или "?" для признаков с соответствующими, но неизвестными нитями.
8фазафаза функций CDS; может быть 0, 1, 2 (для функций CDS) или "." (для всего остального). Подробное объяснение см. в разделе ниже.
9атрибутыСписок пар тег-значение, разделенных точкой с запятой, с дополнительной информацией о функции.

8-е поле: фаза характеристик CDS

Проще говоря, CDS означает "CoDing Sequence". Точное значение термина определяется Sequence Ontology (SO). Согласно спецификации GFF3 : [2] [3]

Для признаков типа "CDS" фаза указывает, где признак начинается относительно рамки считывания. Фаза представляет собой одно из целых чисел 0, 1 или 2, указывающее количество оснований, которые следует удалить от начала этого признака, чтобы достичь первого основания следующего кодона.

Мета-директивы

В файлах GFF может быть включена дополнительная метаинформация, которая следует после директивы ##. Эта метаинформация может содержать сведения о версии GFF, регионе последовательности или виде (полный список типов метаданных можно найти в спецификациях Sequence Ontology).

программное обеспечение GFF

Серверы

Серверы, генерирующие этот формат:

СерверПример файла
UniProt[1]

Клиенты

Клиенты, использующие этот формат:

ИмяОписаниеСсылки
GПросмотрПросмотрщик генома GMODGПросмотр
ИГБИнтегрированный браузер геномаИнтегрированный браузер генома
ДжалвьюРедактор и просмотрщик множественных выравниваний последовательностейДжалвью
РЕМЕНЬПодчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2][3]
JОбзорJBrowse — быстрый встраиваемый браузер генома, полностью созданный с использованием JavaScript и HTML5.JBrowse.org
ЗЕНБУСовместная, омическая система интеграции данных и интерактивной визуализации[4]

Проверка

Проект modENCODE содержит онлайн-инструмент проверки GFF3 с щедрыми ограничениями в 286,10 МБ и 15 миллионов строк.

Коллекция программного обеспечения Genome Tools содержит инструмент gff3validator , который можно использовать в автономном режиме для проверки и, возможно, приведения в порядок файлов GFF3. Также доступна услуга онлайн-проверки.

Смотрите также

Ссылки

  1. ^ "Формат файла GFF/GTF". Ensembl . Архивировано из оригинала 2022-06-15 . Получено 2023-11-04 .
  2. ^ "Спецификация GFF3". GitHub . 2018-11-24. Архивировано из оригинала 2023-07-04.
  3. ^ "GFF3". GMOD . 2016-07-12. Архивировано из оригинала 2023-08-25.
Взято с "https://en.wikipedia.org/w/index.php?title=General_feature_format&oldid=1227437975"