Показатель качества Phred

Измерение в секвенировании ДНК
Показатели качества Phred, показанные на трассировке последовательности ДНК

Оценка качества Phred является мерой качества идентификации азотистых оснований, полученных с помощью автоматизированного секвенирования ДНК . [1] [2] Первоначально она была разработана для компьютерной программы Phred для помощи в автоматизации секвенирования ДНК в проекте «Геном человека» . Оценки качества Phred присваиваются каждому вызову нуклеотидного основания в трассировках автоматизированного секвенатора. [1] [2] Формат FASTQ кодирует оценки phred как символы ASCII вместе с считанными последовательностями. Оценки качества Phred стали широко принятыми для характеристики качества последовательностей ДНК и могут использоваться для сравнения эффективности различных методов секвенирования. Возможно, наиболее важным применением оценок качества Phred является автоматическое определение точных, основанных на качестве консенсусных последовательностей .

Определение

Показатели качества Phred логарифмически связаны с вероятностями ошибок распознавания оснований и определяются как [2] В {\displaystyle Q} П {\displaystyle P}

В = 10   бревно 10 П {\displaystyle Q=-10\ \log _{10}P} .

Это отношение можно также записать как

П = 10 В 10 {\displaystyle P=10^{\frac {-Q}{10}}} .

Например, если Фред присваивает базе оценку качества 30, вероятность того, что эта база будет вызвана неправильно, составляет 1 из 1000.

Показатели качества Phred логарифмически связаны с вероятностью ошибок
Показатель качества PhredВероятность неправильного определения основанияТочность базового вызова
101 из 1090%
201 из 10099%
301 из 100099,9%
401 из 10 00099,99%
501 из 100 00099,999%
601 из 1 000 00099,9999%

Показатель качества phred представляет собой отрицательное отношение вероятности ошибки к опорному уровню, выраженное в децибелах (дБ) . П = 1 {\displaystyle P=1}

История

Идея оценок качества последовательностей восходит к первоначальному описанию формата файла SCF группой Роджера Штадена в 1992 году. [3] В 1995 году Бонфилд и Штаден предложили метод использования оценок качества, специфичных для оснований, для повышения точности консенсусных последовательностей в проектах по секвенированию ДНК. [4]

Однако ранние попытки разработать показатели качества, специфичные для конкретной базы [5] [6], имели лишь ограниченный успех.

Первой программой, которая разработала точные и мощные базовые показатели качества, была программа Phred . Phred смогла вычислить высокоточные показатели качества, которые были логарифмически связаны с вероятностями ошибок. Phred быстро приняли все основные центры секвенирования генома, а также многие другие лаборатории; подавляющее большинство последовательностей ДНК, полученных в ходе проекта «Геном человека», были обработаны с помощью Phred.

После того, как показатели качества Phred стали обязательным стандартом в секвенировании ДНК, другие производители инструментов для секвенирования ДНК, включая Li-Cor и ABI , разработали аналогичные показатели оценки качества для своего программного обеспечения для распознавания оснований. [7]

Методы

Подход Phred к распознаванию оснований и вычислению оценок качества был изложен Эвингом и др. Для определения оценок качества Phred сначала вычисляет несколько параметров, связанных с формой пика и разрешением пика на каждом основании. Затем Phred использует эти параметры для поиска соответствующей оценки качества в огромных таблицах поиска. Эти таблицы поиска были сгенерированы из трассировок последовательностей, где правильная последовательность была известна, и жестко закодированы в Phred; разные таблицы поиска используются для разных химий секвенирования и машин. Оценка точности оценок качества Phred для ряда вариаций химии секвенирования и инструментов показала, что оценки качества Phred очень точны. [8]

Phred изначально был разработан для секвенирующих машин "slab gel", таких как ABI373. При первоначальной разработке Phred имел более низкий уровень ошибок распознавания оснований, чем программное обеспечение распознавания оснований производителя, которое также не обеспечивало оценки качества. Однако Phred был лишь частично адаптирован к капиллярным ДНК-секвенаторам, которые стали популярными позже. Напротив, производители инструментов, такие как ABI, продолжали адаптировать свои изменения программного обеспечения распознавания оснований в химии секвенирования и включили возможность создания оценок качества, подобных Phred. Таким образом, необходимость использования Phred для распознавания оснований следов секвенирования ДНК уменьшилась, и использование текущих версий программного обеспечения производителя часто может дать более точные результаты.

Приложения

Показатели качества Phred используются для оценки качества последовательностей, распознавания и удаления некачественных последовательностей (отсечение концов), а также определения точных консенсусных последовательностей.

Первоначально показатели качества Phred в основном использовались программой сборки последовательностей Phrap . Phrap регулярно использовался в некоторых из крупнейших проектов по секвенированию в рамках проекта по секвенированию генома человека и в настоящее время является одной из наиболее широко используемых программ сборки последовательностей ДНК в биотехнологической отрасли. Phrap использует показатели качества Phred для определения высокоточных консенсусных последовательностей и оценки качества консенсусных последовательностей. Phrap также использует показатели качества Phred для оценки того, возникают ли расхождения между двумя перекрывающимися последовательностями чаще из-за случайных ошибок или из-за разных копий повторяющейся последовательности.

В рамках проекта «Геном человека » наиболее важным применением показателей качества Phred было автоматическое определение консенсусных последовательностей. До появления Phred и Phrap ученым приходилось тщательно изучать расхождения между перекрывающимися фрагментами ДНК; зачастую это включало ручное определение последовательности наивысшего качества и ручное редактирование любых ошибок. Использование показателей качества Phred в Phrap эффективно автоматизировало поиск консенсусной последовательности наивысшего качества; в большинстве случаев это полностью устраняет необходимость ручного редактирования. В результате предполагаемая частота ошибок в сборках, созданных автоматически с помощью Phred и Phrap, как правило, существенно ниже, чем частота ошибок в последовательностях, отредактированных вручную.

В 2009 году многие часто используемые программные пакеты использовали оценки качества Phred, хотя и в разной степени. Такие программы, как Sequencher, используют оценки качества для отображения, отсечения концов и определения консенсуса; другие программы, такие как CodonCode Aligner, также реализуют методы консенсуса на основе качества.

Сжатие

Оценки качества обычно хранятся вместе с последовательностью нуклеотидов в широко распространенном формате FASTQ . Они занимают около половины необходимого дискового пространства в формате FASTQ (до сжатия), и поэтому сжатие значений качества может значительно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. В последнее время в литературе рассматриваются как сжатие без потерь , так и с потерями . Например, алгоритм QualComp [9] выполняет сжатие с потерями со скоростью (количество бит на значение качества), указанной пользователем. Основываясь на результатах теории искажения скорости, он распределяет количество бит таким образом, чтобы минимизировать MSE (среднюю квадратичную ошибку) между исходными (несжатыми) и восстановленными (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают SCALCE, [10] Fastqz [11] и совсем недавно QVZ, [12] AQUa [13] и стандарт MPEG-G, который в настоящее время разрабатывается рабочей группой по стандартизации MPEG . Оба являются алгоритмами сжатия без потерь, которые обеспечивают опциональный контролируемый подход к преобразованию с потерями. Например, SCALCE уменьшает размер алфавита на основе наблюдения, что «соседние» значения качества в целом схожи.

Символы

СимволПоказатель качества PhredВероятность неправильного определения основания
!01.000
"10,794
#20,631
$30,501
%40,398
&50,316
'60,251
(70.199
)80,158
*90,126
+100.100
,110,079
-120,063
.130,050
/140,040
0150,032
1160,025
2170,020
3180,016
4190,013
5200,010
6210,008
7220,006
8230,005
9240,004
:250,003
;260,002
<270,002
=280,001
>290,001
?300,001
@310,0008
А320,0006
Б330,0005
С340,0004
Д350,0003
Э360,0002
Ф370,0002
Г380,0002
ЧАС390.0001
я400.0001


Ссылки

  1. ^ ab Ewing B; Hillier L ; Wendl MC ; Green P. (1998). "Вызов оснований автоматизированных трасс секвенатора с использованием phred. I. Оценка точности". Genome Research . 8 (3): 175–185 . doi : 10.1101/gr.8.3.175 . PMID  9521921.
  2. ^ abc Ewing B, Green P (1998). "Вызов оснований автоматизированных трасс секвенатора с использованием phred. II. Вероятности ошибок". Genome Research . 8 (3): 186– 194. doi : 10.1101/gr.8.3.186 . PMID  9521922.
  3. ^ Уважаемый S, Staden R (1992). «Стандартный формат файла для данных с инструментов секвенирования ДНК». DNA Sequence . 3 (2): 107– 110. doi :10.3109/10425179209034003. PMID  1457811.
  4. ^ Bonfield JK, Staden R (25 апреля 1995 г.). «Применение численных оценок точности распознавания оснований в проектах по секвенированию ДНК». Nucleic Acids Research . 23 (8): 1406– 1410. doi :10.1093/nar/23.8.1406. PMC 306869. PMID  7753633 . 
  5. ^ Черчилль GA, Уотерман MS (сентябрь 1992 г.). «Точность последовательностей ДНК: оценка качества последовательностей». Геномика . 14 (1): 89–98 . doi :10.1016/S0888-7543(05)80288-5. hdl : 1813/31678 . PMID  1358801.
  6. ^ Lawrence CB, Solovyev VV (1994). "Присвоение вероятности ошибки, специфичной для позиции, данным первичной последовательности ДНК". Nucleic Acids Research . 22 (7): 1272– 1280. doi : 10.1093 /nar/22.7.1272. PMC 523653. PMID  8165143. 
  7. ^ «Life Technologies — США» (PDF) .
  8. ^ Richterich P (1998). «Оценка ошибок в «сырых» последовательностях ДНК: проверочное исследование». Genome Research . 8 (3): 251– 259. doi :10.1101/gr.8.3.251. PMC 310698. PMID  9521928 . 
  9. ^ Очоа, Идоя; Аснани, Химансу; Бхарадиа, Динеш; Чоудхури, Майнак; Вайсман, Цачи; Йона, Голан (2013). «Qual Comp: новый компрессор с потерями для показателей качества на основе теории искажения скорости». BMC Bioinformatics . 14 : 187. doi : 10.1186/1471-2105-14-187 . PMC 3698011. PMID  23758828 . 
  10. ^ Hach, F; Numanagic, I; Alkan, C; Sahinalp, SC (2012). "SCALCE: Повышение эффективности алгоритмов сжатия последовательностей с использованием локально согласованного кодирования". Биоинформатика . 28 (23): 3051– 3057. doi :10.1093/bioinformatics/bts593. PMC 3509486. PMID  23047557 . 
  11. ^ "fastqz - компрессор FASTQ".
  12. ^ Malysa, Greg; Hernaez, Mikel; Ochoa, Idoia; Rao, Milind; Ganesan, Karthik; Weissman, Tsachy (2015-10-01). "QVZ: сжатие значений качества с потерями". Bioinformatics . 31 (19): 3122– 3129. doi :10.1093/bioinformatics/btv330. ISSN  1367-4803. PMC 5856090 . PMID  26026138. 
  13. ^ Paridaens, Tom; Van Wallendael, Glenn; De Neve, Wesley; Lambert, Peter (2018). «AQUa: адаптивная структура для сжатия показателей качества секвенирования с функциональностью произвольного доступа». Биоинформатика . 34 (3): 425–433 . doi : 10.1093/bioinformatics/btx607 . ​​PMID  29028894.
  • Длинные чтения с помощью KB Basecaller Сравнение точности Phred с конкурирующей программой, KB Basecaller от ABI
  • Домашняя страница Лаборатории Фила Грина Фрэпа.
Получено с "https://en.wikipedia.org/w/index.php?title=Phred_quality_score&oldid=1240110138"