Процентиль

Статистика, которая делит набор данных на 100 частей и анализирует их в процентах.

В статистике k процентиль , также известный как процентильный балл или центиль , — это балл , ниже которого падает заданный процент k баллов в его частотном распределенииисключительное » определение), или балл, на который или ниже которого падает заданный процент (« включительное » определение). Процентили выражаются в той же единице измерения , что и входные баллы, а не в процентах ; например, если баллы относятся к весу человека , соответствующие процентили будут выражены в килограммах или фунтах. В пределе бесконечного размера выборки процентиль аппроксимирует процентильную функцию , обратную кумулятивной функции распределения .

Процентили — это тип квантилей , получаемых путем деления на 100 групп. 25-й процентиль также известен как первый квартиль ( Q 1 ), 50-й процентиль — как медиана или второй квартиль ( Q 2 ), а 75-й процентиль — как третий квартиль ( Q 3 ). Например, 50-й процентиль (медиана) — это оценка ниже (или на уровне или ниже , в зависимости от определения), которой соответствуют 50% оценок в распределении.

Связанная величина — это процентильный ранг оценки, выраженный в процентах , который представляет собой долю оценок в его распределении, которые меньше его, исключительное определение. Процентильные баллы и процентильные ранги часто используются при сообщении результатов тестов , относящихся к норме , но, как только что было отмечено, они не одно и то же. Для процентильных рангов дается балл и вычисляется процент. Процентильные ранги являются исключительными: если процентильный ранг для указанной оценки составляет 90%, то 90% оценок были ниже. Напротив, для процентилей дается процент и определяется соответствующая оценка, которая может быть как исключающей, так и инклюзивной. Оценка для указанного процента (например, 90-й) указывает оценку, ниже которой (исключающее определение) или на уровне или ниже которой (включающее определение) находятся другие оценки в распределении.

Определения

Стандартного определения процентиля не существует; [1] [2] [3] однако все определения дают схожие результаты, когда число наблюдений очень велико, а распределение вероятностей непрерывно. [4] В пределе, когда размер выборки стремится к бесконечности, 100 -й процентиль p (0< p <1) приближается к обратной величине кумулятивной функции распределения (CDF), сформированной таким образом, оцененной при p , поскольку p приближается к CDF. Это можно рассматривать как следствие теоремы Гливенко–Кантелли . Некоторые методы расчета процентилей приведены ниже.

Нормальное распределение и процентили

Представление правила трех сигм . Темно-синяя зона представляет наблюдения в пределах одного стандартного отклонения (σ) по обе стороны от среднего значения (μ), что составляет около 68,3% популяции. Два стандартных отклонения от среднего значения (темно- и средне-синие) составляют около 95,4%, а три стандартных отклонения (темно-, средне- и светло-синие) — около 99,7%.

Методы, приведенные в разделе методов расчета (ниже), являются приближениями для использования в статистике малых выборок. В общих чертах, для очень больших популяций, следующих нормальному распределению , процентили часто могут быть представлены ссылкой на график нормальной кривой. Нормальное распределение строится вдоль оси, масштабированной до стандартных отклонений , или единиц сигма ( ). Математически нормальное распределение простирается до отрицательной бесконечности слева и положительной бесконечности справа. Обратите внимание, однако, что только очень небольшая доля людей в популяции будет выходить за пределы диапазона от −3 σ до +3 σ . Например, при росте человека очень немногие люди выше уровня роста +3 σ . σ {\displaystyle \сигма}

Процентили представляют собой площадь под нормальной кривой, увеличиваясь слева направо. Каждое стандартное отклонение представляет собой фиксированный процентиль. Таким образом, округляя до двух знаков после запятой, −3 σ — это 0,13-й процентиль, −2 σ — 2,28-й процентиль, −1 σ — 15,87-й процентиль, 0 σ — 50-й процентиль (как среднее, так и медиана распределения), +1 σ — 84,13-й процентиль, +2 σ — 97,72-й процентиль и +3 σ — 99,87-й процентиль. Это связано с правилом 68–95–99,7 или правилом трех сигм. Обратите внимание, что теоретически 0-й процентиль приходится на отрицательную бесконечность, а 100-й процентиль — на положительную бесконечность, хотя во многих практических приложениях, таких как результаты испытаний, применяются естественные нижние и/или верхние пределы.

Приложения

Когда интернет-провайдеры выставляют счет за «взрывную» пропускную способность интернета , 95-й или 98-й процентиль обычно отсекает верхние 5% или 2% пиков пропускной способности в каждом месяце, а затем выставляет счет по ближайшему тарифу. Таким образом, нечастые пики игнорируются, и клиент платит более справедливо. Причина, по которой эта статистика так полезна для измерения пропускной способности данных, заключается в том, что она дает очень точную картину стоимости пропускной способности. 95-й процентиль говорит, что 95% времени использование ниже этой суммы: поэтому оставшиеся 5% времени использование выше этой суммы.

Врачи часто используют вес и рост младенцев и детей для оценки их развития в сравнении со средними показателями по стране и процентилями, указанными в диаграммах роста .

85-й процентиль скорости движения на дороге часто используется в качестве ориентира при установлении ограничений скорости и оценке того, является ли такое ограничение слишком высоким или низким. [5] [6]

В финансах стоимость под риском — это стандартная мера оценки (в зависимости от модели) величины, ниже которой стоимость портфеля, как ожидается, не упадет в течение определенного периода времени и с учетом доверительного значения.

Методы расчета

Интерполированные и ближайшие по рангу, исключительные и инклюзивные, процентили для 10-балльного распределения
Интерполированные и ближайшие по рангу, исключительные и инклюзивные, процентили для 10-балльного распределения

Существует множество формул или алгоритмов [7] для процентильного балла. Хайндман и Фэн [1] выделили девять, и большинство статистических и табличных программ используют один из описанных ими методов. [8] Алгоритмы либо возвращают значение балла, существующего в наборе баллов (методы ближайшего ранга), либо интерполируют между существующими баллами и являются либо исключающими, либо инклюзивными.

Методы ближайшего ранга (исключительные/включительные)
ПК: указан процентиль0.100,250,500,750,90
N: Количество баллов1010101010
ИЛИ: порядковый ранг = PC × N12.557.59
Ранг: >ИЛИ / ≥ИЛИ2/13/36/58/810/9
Оценка по рангу (искл./инкл.)2/13/34/35/57/5

Рисунок показывает распределение с 10 баллами, иллюстрирует процентильные баллы, которые получаются из этих различных алгоритмов, и служит введением к примерам, приведенным далее. Простейшими являются методы ближайшего ранга, которые возвращают балл из распределения, хотя по сравнению с методами интерполяции результаты могут быть немного грубыми. Таблица методов ближайшего ранга показывает вычислительные шаги для исключающих и инклюзивных методов.

Интерполированные методы (исключительные/включительные)
ПК: указан процентиль0.100,250,500,750,90
N: количество баллов1010101010
ИЛИ: ПК×(N+1) / ПК×(N−1)+11.1/1.92.75/3.255.5/5.58.25/7.759.9/9.1
LoRank: ИЛИ усеченный1/12/35/58/79/9
HIRank: ИЛИ округлено в большую сторону2/23/46/69/810/10
LoScore: оценка в LoRank1/12/33/35/45/5
HiScore: оценка HiRank2/23/34/45/57/7
Разница: HiScore − LoScore1/11/01/10/12/2
Mod: дробная часть OR0,1/0,90,75/0,250,5/0,50,25/0,750,9/0,1
Интерполированная оценка (искл./инкл.)
= LoScore + Mod × Difference
1.1/1.92.75/33.5/3.55/4.756.8/5.2

Методы интерполяции, как следует из названия, могут возвращать оценку, которая находится между оценками в распределении. Алгоритмы, используемые статистическими программами, обычно используют методы интерполяции, например, функции percentile.exc и percentile.inc в Microsoft Excel. Таблица Interpolated Methods показывает вычислительные шаги.

Метод ближайшего ранга

Значения процентиля для упорядоченного списка {15, 20, 35, 40, 50}

Одно из определений процентиля, часто приводимое в текстах, заключается в том, что P -й процентиль списка из N упорядоченных значений (отсортированных от наименьшего к наибольшему) является наименьшим значением в списке, таким, что не более P процентов данных строго меньше значения и по крайней мере P процентов данных меньше или равны этому значению. Это получается путем первого вычисления порядкового ранга, а затем взятия значения из упорядоченного списка, соответствующего этому рангу. Порядковый ранг n вычисляется с использованием этой формулы ( 0 < P 100 ) {\displaystyle (0<P\leq 100)}

n = P 100 × N . {\displaystyle n=\left\lceil {\frac {P}{100}}\times N\right\rceil .}
  • Использование метода ближайшего ранга в списках, содержащих менее 100 различных значений, может привести к тому, что одно и то же значение будет использоваться для более чем одного процентиля.
  • Процентиль, рассчитанный с использованием метода ближайшего ранга, всегда будет членом исходного упорядоченного списка.
  • 100-й процентиль определяется как наибольшее значение в упорядоченном списке.

Метод линейной интерполяции между ближайшими рангами

Альтернативой округлению, используемому во многих приложениях, является использование линейной интерполяции между соседними рангами.

Все следующие варианты имеют следующее общее. Учитывая статистику заказов

{ v i , i = 1 , 2 , , N : v i + 1 v i , i = 1 , 2 , , N 1 } , {\displaystyle \{v_{i},i=1,2,\ldots ,N:v_{i+1}\geq v_{i},\forall i=1,2,\ldots ,N-1\},}

мы ищем линейную интерполяционную функцию, проходящую через точки . Это просто достигается путем ( v i , i ) {\displaystyle (v_{i},i)}

v ( x ) = v x + ( x mod 1 ) ( v x + 1 v x ) , x [ 1 , N ] : v ( i ) = v i , for  i = 1 , 2 , , N , {\displaystyle v(x)=v_{\lfloor x\rfloor }+(x{\bmod {1}})(v_{\lfloor x\rfloor +1}-v_{\lfloor x\rfloor }),\forall x\in [1,N]:v(i)=v_{i}{\text{, for }}i=1,2,\ldots ,N,}

где использует функцию floor для представления целой части положительного x , тогда как использует функцию mod для представления его дробной части (остаток после деления на 1). (Обратите внимание, что, хотя в конечной точке , не определено, это не обязательно так, поскольку оно умножается на .) Как мы видим, x является непрерывной версией индекса i , линейно интерполирующей v между соседними узлами. x {\displaystyle \lfloor x\rfloor } x mod 1 {\displaystyle x{\bmod {1}}} x = N {\displaystyle x=N} v x + 1 {\displaystyle v_{\lfloor x\rfloor +1}} x mod 1 = 0 {\displaystyle x{\bmod {1}}=0}

Есть два способа, которыми различаются варианты подходов. Первый заключается в линейной зависимости между рангом x , процентным рангом и константой, которая является функцией размера выборки N : P = 100 p {\displaystyle P=100p}

x = f ( p , N ) = ( N + c 1 ) p + c 2 . {\displaystyle x=f(p,N)=(N+c_{1})p+c_{2}.}

Существует дополнительное требование, чтобы средняя точка диапазона , соответствующая медиане , находилась в : ( 1 , N ) {\displaystyle (1,N)} p = 0.5 {\displaystyle p=0.5}

f ( 0.5 , N ) = N + c 1 2 + c 2 = N + 1 2 2 c 2 + c 1 = 1 , {\displaystyle {\begin{aligned}f(0.5,N)&={\frac {N+c_{1}}{2}}+c_{2}={\frac {N+1}{2}}\\\therefore 2c_{2}+c_{1}&=1\end{aligned}},}

и наша пересмотренная функция теперь имеет только одну степень свободы и выглядит следующим образом:

x = f ( p , N ) = ( N + 1 2 C ) p + C . {\displaystyle x=f(p,N)=(N+1-2C)p+C.}

Второй способ, которым варианты различаются, заключается в определении функции вблизи границ диапазона p : должна производить или быть вынуждена производить результат в диапазоне , что может означать отсутствие однозначного соответствия в более широкой области. Один автор предложил выбор , где ξ — форма обобщенного распределения экстремальных значений , которое является пределом экстремальных значений выборочного распределения. [ 0 , 1 ] {\displaystyle [0,1]} f ( p , N ) {\displaystyle f(p,N)} [ 1 , N ] {\displaystyle [1,N]} C = 1 2 ( 1 + ξ ) {\displaystyle C={\tfrac {1}{2}}(1+\xi )}

Первый вариант,С= 1/2

Результат использования каждого из трех вариантов в упорядоченном списке {15, 20, 35, 40, 50}

(Источники: функция Matlab "prctile", [9] [10] )

x = f ( p ) = { N p + 1 2 , p [ p 1 , p N ] , 1 , p [ 0 , p 1 ] , N , p [ p N , 1 ] . {\displaystyle x=f(p)={\begin{cases}Np+{\frac {1}{2}},\forall p\in \left[p_{1},p_{N}\right],\\1,\forall p\in \left[0,p_{1}\right],\\N,\forall p\in \left[p_{N},1\right].\end{cases}}}

где

p i = 1 N ( i 1 2 ) , i [ 1 , N ] N {\displaystyle p_{i}={\frac {1}{N}}\left(i-{\frac {1}{2}}\right),i\in [1,N]\cap \mathbb {N} }
p 1 = 1 2 N , p N = 2 N 1 2 N . {\displaystyle \therefore p_{1}={\frac {1}{2N}},p_{N}={\frac {2N-1}{2N}}.}

Кроме того, пусть

P i = 100 p i . {\displaystyle P_{i}=100p_{i}.}

Обратная зависимость ограничена более узкой областью:

p = 1 N ( x 1 2 ) , x ( 1 , N ) R . {\displaystyle p={\frac {1}{N}}\left(x-{\frac {1}{2}}\right),x\in (1,N)\cap \mathbb {R} .}

Второй вариант,С= 1

[Источник: Некоторые программные пакеты, включая NumPy [11] и Microsoft Excel [3] (до версии 2013 включительно с помощью функции PERCENTILE.INC). Отмечено как альтернатива NIST . [8] ]

x = f ( p , N ) = p ( N 1 ) + 1 p [ 0 , 1 ] {\displaystyle x=f(p,N)=p(N-1)+1{\text{, }}p\in [0,1]}
p = x 1 N 1 x [ 1 , N ] . {\displaystyle \therefore p={\frac {x-1}{N-1}}{\text{, }}x\in [1,N].}

Обратите внимание, что связь является один-к-одному для , единственного из трех вариантов с этим свойством; отсюда суффикс «INC» ( включительно ) в функции Excel. x p {\displaystyle x\leftrightarrow p} p [ 0 , 1 ] {\displaystyle p\in [0,1]}

Третий вариант,С= 0

(Основной вариант, рекомендованный NIST . [8] Принят в Microsoft Excel с 2010 года посредством функции PERCENTIL.EXC. Однако, как указывает суффикс «EXC», версия Excel исключает обе конечные точки диапазона p , т. е. , тогда как версия «INC», второй вариант, этого не делает; фактически, любое число, меньшее , также исключается и приведет к ошибке.) p ( 0 , 1 ) {\displaystyle p\in (0,1)} 1 N + 1 {\displaystyle {\frac {1}{N+1}}}

x = f ( p , N ) = { 1 p [ 0 , 1 N + 1 ] p ( N + 1 ) p ( 1 N + 1 , N N + 1 ) N p [ N N + 1 , 1 ] . {\displaystyle x=f(p,N)={\begin{cases}1{\text{, }}p\in \left[0,{\frac {1}{N+1}}\right]\\p(N+1){\text{, }}p\in \left({\frac {1}{N+1}},{\frac {N}{N+1}}\right)\\N{\text{, }}p\in \left[{\frac {N}{N+1}},1\right]\end{cases}}.}

Обратное уравнение ограничено более узкой областью:

p = x N + 1 x ( 0 , N ) . {\displaystyle p={\frac {x}{N+1}}{\text{, }}x\in (0,N).}

Метод взвешенного процентиля

В дополнение к функции процентиля, есть также взвешенный процентиль , где вместо общего числа подсчитывается процент в общем весе. Стандартной функции для взвешенного процентиля не существует. Один метод естественным образом расширяет вышеуказанный подход.

Предположим, что у нас есть положительные веса , связанные, соответственно, с нашими N отсортированными выборочными значениями. Пусть w 1 , w 2 , w 3 , , w N {\displaystyle w_{1},w_{2},w_{3},\dots ,w_{N}}

S N = k = 1 N w k , {\displaystyle S_{N}=\sum _{k=1}^{N}w_{k},}

сумма весов. Затем формулы выше обобщаются, принимая

p n = 1 S N ( S n w n 2 ) {\displaystyle p_{n}={\frac {1}{S_{N}}}\left(S_{n}-{\frac {w_{n}}{2}}\right)} когда , C = 1 / 2 {\displaystyle C=1/2}

или

p n = S n C w n S N + ( 1 2 C ) w n {\displaystyle p_{n}={\frac {S_{n}-Cw_{n}}{S_{N}+(1-2C)w_{n}}}} для общего , C {\displaystyle C}

и

v = v k + P p k p k + 1 p k ( v k + 1 v k ) . {\displaystyle v=v_{k}+{\frac {P-p_{k}}{p_{k+1}-p_{k}}}(v_{k+1}-v_{k}).}

50%-ный взвешенный процентиль известен как взвешенная медиана .

Смотрите также

Ссылки

  1. ^ ab Hyndman, Rob J. ; Fan, Yanan (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах». American Statistician . 50 (4). Американская статистическая ассоциация: 361–365. doi :10.2307/2684934. JSTOR  2684934.
  2. ^ Лейн, Дэвид. "Процентили" . Получено 15 сентября 2007 г.
  3. ^ ab Pottel, Hans. "Статистические недостатки Excel" (PDF) . Архивировано из оригинала (PDF) 2013-06-04 . Получено 2013-03-25 .
  4. ^ Schoonjans F, De Bacquer D, Schmid P (2011). «Оценка процентилей населения». Эпидемиология . 22 (5): 750–751. doi : 10.1097/EDE.0b013e318225c1de. PMC 3171208. PMID  21811118. 
  5. ^ Джонсон, Роберт; Куби, Патрисия (2007), «Прикладной пример 2.15, 85-й процентиль ограничения скорости: движение с 85% потока», Elementary Statistics (10-е изд.), Cengage Learning, стр. 102, ISBN 9781111802493.
  6. ^ "Рациональные ограничения скорости и 85-й процентиль скорости" (PDF) . lsp.org . Полиция штата Луизиана. Архивировано из оригинала (PDF) 23 сентября 2018 г. . Получено 28 октября 2018 г. .
  7. ^ Wessa, P (2021). «Процентили в бесплатном статистическом программном обеспечении». Office for Research Development and Education . Получено 13 ноября 2021 г.
  8. ^ abc "Справочник по инженерной статистике: Процентиль". NIST . Получено 2009-02-18 .
  9. ^ "Matlab Statistics Toolbox – Percentiles" . Получено 2006-09-15 ., Это эквивалентно методу 5, обсуждаемому здесь
  10. ^ Лэнгфорд, Э. (2006). «Квартили в элементарной статистике». Журнал статистического образования . 14 (3). doi : 10.1080/10691898.2006.11910589 .
  11. ^ "Документация NumPy 1.12". SciPy . Получено 2017-03-19 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Percentile&oldid=1191184754"