Расширения имени файла | .gff ,.gff3 |
---|---|
Тип интернет-СМИ | text/gff3 |
Разработано | Центр Сэнгера (v2), Проект онтологии последовательностей (v3) |
Тип формата | Биоинформатика |
Расширенный от | Значения, разделенные табуляцией |
Открытый формат ? | да |
Веб-сайт | github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md |
В биоинформатике общий формат признаков ( формат поиска генов , формат общих признаков , GFF ) — это формат файла, используемый для описания генов и других признаков последовательностей ДНК , РНК и белков .
Существуют следующие версии GFF:
GFF2/GTF имел ряд недостатков, в частности, то, что он может представлять только двухуровневые иерархии признаков и, таким образом, не может обрабатывать трехуровневую иерархию ген → транскрипт → экзон. GFF3 устраняет этот и другие недостатки. Например, он поддерживает произвольное количество иерархических уровней и придает определенные значения определенным тегам в поле атрибутов.
GTF идентичен GFF версии 2. [ 1]
Все форматы GFF (GFF2, GFF3 и GTF) разделены табуляцией с 9 полями на строку. Все они имеют одинаковую структуру для первых 7 полей, но различаются по содержанию и формату девятого поля . Некоторые названия полей были изменены в GFF3, чтобы избежать путаницы. Например, поле «seqid» ранее называлось «sequence», что можно спутать с нуклеотидной или аминокислотной цепью. Общая структура выглядит следующим образом:
Индекс позиции | Название должности | Описание |
---|---|---|
1 | секид | Название последовательности, в которой находится объект. |
2 | источник | Алгоритм или процедура, которая сгенерировала функцию. Обычно это название программного обеспечения или базы данных. |
3 | тип | Имя типа признака, например "ген" или "экзон". В хорошо структурированном файле GFF все дочерние признаки всегда следуют за своими родителями в одном блоке (поэтому все экзоны транскрипта помещаются после родительской строки признака "транскрипт" и перед любой другой родительской строкой транскрипта). В GFF3 все признаки и их отношения должны быть совместимы со стандартами, выпущенными проектом Sequence Ontology. |
4 | начинать | Геномное начало признака со смещением в 1 основание . Это контрастирует с другими форматами полуоткрытой последовательности со смещением в 0 оснований, такими как BED . |
5 | конец | Геномный конец признака, со смещением в 1 основание . Это та же конечная координата, что и в форматах полуоткрытой последовательности со смещением в 0, например, BED . [ необходима цитата ] |
6 | счет | Числовое значение, которое обычно указывает на уверенность источника в аннотированном объекте. Значение "." (точка) используется для определения нулевого значения. |
7 | прядь | Одиночный символ, указывающий на нить признака. Это может быть "+" (положительный или 5'->3'), "-" (отрицательный или 3'->5'), "." (неопределенный) или "?" для признаков с соответствующими, но неизвестными нитями. |
8 | фаза | фаза функций CDS; может быть 0, 1, 2 (для функций CDS) или "." (для всего остального). Подробное объяснение см. в разделе ниже. |
9 | атрибуты | Список пар тег-значение, разделенных точкой с запятой, с дополнительной информацией о функции. |
Проще говоря, CDS означает "CoDing Sequence". Точное значение термина определяется Sequence Ontology (SO). Согласно спецификации GFF3 : [2] [3]
Для признаков типа "CDS" фаза указывает, где признак начинается относительно рамки считывания. Фаза представляет собой одно из целых чисел 0, 1 или 2, указывающее количество оснований, которые следует удалить от начала этого признака, чтобы достичь первого основания следующего кодона.
В файлах GFF может быть включена дополнительная метаинформация, которая следует после директивы ##. Эта метаинформация может содержать сведения о версии GFF, регионе последовательности или виде (полный список типов метаданных можно найти в спецификациях Sequence Ontology).
Серверы, генерирующие этот формат:
Сервер | Пример файла |
---|---|
UniProt | [1] |
Клиенты, использующие этот формат:
Имя | Описание | Ссылки |
---|---|---|
GПросмотр | Просмотрщик генома GMOD | GПросмотр |
ИГБ | Интегрированный браузер генома | Интегрированный браузер генома |
Джалвью | Редактор и просмотрщик множественных выравниваний последовательностей | Джалвью |
РЕМЕНЬ | Подчеркивание особенностей последовательности в нескольких выравниваниях. Пример вывода: [2] | [3] |
JОбзор | JBrowse — быстрый встраиваемый браузер генома, полностью созданный с использованием JavaScript и HTML5. | JBrowse.org |
ЗЕНБУ | Совместная, омическая система интеграции данных и интерактивной визуализации | [4] |
Проект modENCODE содержит онлайн-инструмент проверки GFF3 с щедрыми ограничениями в 286,10 МБ и 15 миллионов строк.
Коллекция программного обеспечения Genome Tools содержит инструмент gff3validator , который можно использовать в автономном режиме для проверки и, возможно, приведения в порядок файлов GFF3. Также доступна услуга онлайн-проверки.