Формат Pileup — это текстовый формат для суммирования базовых вызовов выровненных прочтений в референтной последовательности. Этот формат облегчает визуальное отображение вызовов SNP / indel и выравнивания. Впервые он был использован Тони Коксом и Земином Нином в Wellcome Trust Sanger Institute и стал широко известен благодаря своей реализации в программном пакете SAMtools . [1]
Формат
Пример
Последовательность
Позиция
База данных
Количество прочитанных
Результаты чтения
Качество
последовательность1
272
Т
24
,.$.....,,.,.,...,,,.,..^+.
<<<+;<<<<<<<<<<<=<;<;7<&
последовательность1
273
Т
23
,.....,,.,.,...,,,.,..А
<<<;<<<<<<<<<3<=<<<;<<+
последовательность1
274
Т
23
,.$....,,.,.,...,,,.,...
7<7;<;<<<<<<<<<=<;<;<<6
последовательность1
275
А
23
,$....,,.,.,...,,,.,...^л.
<+;9*<<<<<<<<<=<<:;<<<<
последовательность1
276
Г
22
...Т,,.,.,...,,,.,....
33;+<<7=7<<7<&<<1;<<6<
последовательность1
277
Т
22
....,,.,.,.C.,,,.,..G.
+7<;<<<<<<<&<=<<:;<<&<
последовательность1
278
Г
23
....,,.,.,...,,,.,....^k.
%38*<<;<7<<7<=<<<;<<<<<
последовательность1
279
С
23
В,,.,.,...,,,.,.....
75&<<<<<<<<<=<<<9<<:<<<
Колонны
Каждая строка состоит из 5 (или опционально 6) столбцов, разделенных табуляцией:
Идентификатор последовательности
Позиция в последовательности (начиная с 1)
Справочный нуклеотид в этой позиции
Количество выровненных прочтений, охватывающих данную позицию (глубина покрытия)
Базы в этой позиции из выровненных прочтений
Phred Качество этих баз, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО)
Столбец 5: Базовая строка
. (точка) означает базу, которая соответствует эталону на прямой цепи
, (запятая) означает базу, которая соответствует эталону на обратной цепи
</> (знак «меньше/больше») обозначает пропуск ссылки. Это происходит, например, если основание в референтном геноме интронное, а прочтение отображается на два фланкирующих экзона. Если оценки качества приведены в шестом столбце, они относятся к качеству прочтения, а не к конкретной базе.
AGTCN (заглавные буквы) обозначает основание, которое не соответствует эталону на прямой цепи
agtcn (строчные буквы) обозначает основание, которое не соответствует эталону на обратной цепи
Последовательность, соответствующая регулярному выражению, обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, +2AG означает вставку AG в прямую цепь\+[0-9]+[ACGTNacgtn]+
Последовательность, соответствующая регулярному выражению, обозначает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи\-[0-9]+[ACGTNacgtn]+
^ (знак вставки) отмечает начало сегмента чтения, а ASCII символа, следующего за `^', минус 33 дает качество отображения
$ (доллар) обозначает конец прочитанного сегмента
* (звездочка) — это заполнитель для удаленной базы при удалении нескольких пар оснований, упомянутых в предыдущей строке с помощью обозначения-[0-9]+[ACGTNacgtn]+
Столбец 6: Базовая строка качества
Это необязательный столбец. Если присутствует, значение ASCII символа минус 33 дает качество отображения Phred каждой из баз в предыдущем столбце 5. Это похоже на кодирование качества в формате FASTQ .
Расширение файла
Для файла Pileup не существует стандартного расширения файла , но используются .msf (файл множественной последовательности), .pup [2] и .pileup [3] [4] .
^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; Подгруппа обработки данных проекта 1000 Genome (2009) (2009). "Формат выравнивания/карты последовательностей (SAM) и инструменты SAM". Биоинформатика . 25 (16): 2078– 2079. doi :10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943 .{{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
^ Accelrys (1998-10-02). "QUANTA: Protein Design. 3. Чтение и запись файлов данных последовательностей". Université de Montréal . Получено 27.03.2020 .
^ Глез-Пенья, Дэниел; Гомес-Лопес, Гонсало; Ребойро-Жато, Мигель; Фдез-Риверола, Флорентино; Пизано, Дэвид Дж. (24 января 2011 г.). «PileLine: набор инструментов для обработки информации о положении генома в исследованиях секвенирования следующего поколения». БМК Биоинформатика . 12:31 . дои : 10.1186/1471-2105-12-31 . ISSN 1471-2105. ПМК 3037855 . ПМИД 21261974.
^ Чисом, Халимат (2023-03-31). «Форматы файлов, которые должен знать каждый биоинформатик — опытный или начинающий (и даже больше)». Medium . Получено 2023-11-11 .