Формат Pileup

Формат файла для данных последовательности
Нагромождение
Расширения имени файла
.msf, .pup, .pileup
РазработаноТони Кокс и Земин Нин
Тип форматаБиоинформатика
Расширенный отЗначения, разделенные табуляцией
Веб-сайтwww.htslib.org/doc/samtools-mpileup.html

Формат Pileup — это текстовый формат для суммирования базовых вызовов выровненных прочтений в референтной последовательности. Этот формат облегчает визуальное отображение вызовов SNP / indel и выравнивания. Впервые он был использован Тони Коксом и Земином Нином в Wellcome Trust Sanger Institute и стал широко известен благодаря своей реализации в программном пакете SAMtools . [1]

Формат

Пример

ПоследовательностьПозицияБаза данныхКоличество прочитанныхРезультаты чтенияКачество
последовательность1272Т24,.$.....,,.,.,...,,,.,..^+.<<<+;<<<<<<<<<<<=<;<;7<&
последовательность1273Т23,.....,,.,.,...,,,.,..А<<<;<<<<<<<<<3<=<<<;<<+
последовательность1274Т23,.$....,,.,.,...,,,.,...7<7;<;<<<<<<<<<=<;<;<<6
последовательность1275А23,$....,,.,.,...,,,.,...^л.<+;9*<<<<<<<<<=<<:;<<<<
последовательность1276Г22...Т,,.,.,...,,,.,....33;+<<7=7<<7<&<<1;<<6<
последовательность1277Т22....,,.,.,.C.,,,.,..G.+7<;<<<<<<<&<=<<:;<<&<
последовательность1278Г23....,,.,.,...,,,.,....^k.%38*<<;<7<<7<=<<<;<<<<<
последовательность1279С23В,,.,.,...,,,.,.....75&<<<<<<<<<=<<<9<<:<<<

Колонны

Каждая строка состоит из 5 (или опционально 6) столбцов, разделенных табуляцией:

  1. Идентификатор последовательности
  2. Позиция в последовательности (начиная с 1)
  3. Справочный нуклеотид в этой позиции
  4. Количество выровненных прочтений, охватывающих данную позицию (глубина покрытия)
  5. Базы в этой позиции из выровненных прочтений
  6. Phred Качество этих баз, представленное в ASCII со смещением -33 (НЕОБЯЗАТЕЛЬНО)

Столбец 5: Базовая строка

  • . (точка) означает базу, которая соответствует эталону на прямой цепи
  • , (запятая) означает базу, которая соответствует эталону на обратной цепи
  • </> (знак «меньше/больше») обозначает пропуск ссылки. Это происходит, например, если основание в референтном геноме интронное, а прочтение отображается на два фланкирующих экзона. Если оценки качества приведены в шестом столбце, они относятся к качеству прочтения, а не к конкретной базе.
  • AGTCN (заглавные буквы) обозначает основание, которое не соответствует эталону на прямой цепи
  • agtcn (строчные буквы) обозначает основание, которое не соответствует эталону на обратной цепи
  • Последовательность, соответствующая регулярному выражению, обозначает вставку одного или нескольких оснований, начиная со следующей позиции. Например, +2AG означает вставку AG в прямую цепь\+[0-9]+[ACGTNacgtn]+
  • Последовательность, соответствующая регулярному выражению, обозначает удаление одного или нескольких оснований, начиная со следующей позиции. Например, -2ct означает удаление CT в обратной цепи\-[0-9]+[ACGTNacgtn]+
  • ^ (знак вставки) отмечает начало сегмента чтения, а ASCII символа, следующего за `^', минус 33 дает качество отображения
  • $ (доллар) обозначает конец прочитанного сегмента
  • * (звездочка) — это заполнитель для удаленной базы при удалении нескольких пар оснований, упомянутых в предыдущей строке с помощью обозначения-[0-9]+[ACGTNacgtn]+

Столбец 6: Базовая строка качества

Это необязательный столбец. Если присутствует, значение ASCII символа минус 33 дает качество отображения Phred каждой из баз в предыдущем столбце 5. Это похоже на кодирование качества в формате FASTQ .

Расширение файла

Для файла Pileup не существует стандартного расширения файла , но используются .msf (файл множественной последовательности), .pup [2] и .pileup [3] [4] .

Смотрите также

Ссылки

  1. ^ Li H.; Handsaker B.; Wysoker A.; Fennell T.; Ruan J.; Homer N.; Marth G.; Abecasis G.; Durbin R; Подгруппа обработки данных проекта 1000 Genome (2009) (2009). "Формат выравнивания/карты последовательностей (SAM) и инструменты SAM". Биоинформатика . 25 (16): 2078– 2079. doi :10.1093/bioinformatics/btp352. PMC  2723002. PMID  19505943 .{{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
  2. ^ Accelrys (1998-10-02). "QUANTA: Protein Design. 3. Чтение и запись файлов данных последовательностей". Université de Montréal . Получено 27.03.2020 .
  3. ^ Глез-Пенья, Дэниел; Гомес-Лопес, Гонсало; Ребойро-Жато, Мигель; Фдез-Риверола, Флорентино; Пизано, Дэвид Дж. (24 января 2011 г.). «PileLine: набор инструментов для обработки информации о положении генома в исследованиях секвенирования следующего поколения». БМК Биоинформатика . 12:31 . дои : 10.1186/1471-2105-12-31 . ISSN  1471-2105. ПМК 3037855 . ПМИД  21261974. 
  4. ^ Чисом, Халимат (2023-03-31). «Форматы файлов, которые должен знать каждый биоинформатик — опытный или начинающий (и даже больше)». Medium . Получено 2023-11-11 .
  • Описание набора SAMtools
  • bioruby-pileup_iterator (анализатор Ruby pileup)
  • pysam (Python-анализатор pileup)
Retrieved from "https://en.wikipedia.org/w/index.php?title=Pileup_format&oldid=1192004233"