Интервал допуска

Тип статистической вероятности

Интервал толерантности ( TI ) — это статистический интервал , в который с некоторым уровнем достоверности попадает указанная выборочная доля популяции . «Более конкретно, интервал толерантности 100× p %/100×(1−α) обеспечивает пределы, в которые попадает по крайней мере определенная доля ( p ) популяции с заданным уровнем достоверности (1−α)». [1] «Интервал толерантности (TI) ( p , 1−α), основанный на выборке, строится таким образом, чтобы он включал по крайней мере долю p выборочной популяции с уверенностью 1−α; такой TI обычно называют TI покрытия p-контента − (1−α)». [2] «Верхний предел толерантности (TL) (p, 1−α) — это просто верхний предел достоверности 1−α для 100 p процентиля популяции». [2]

Определение

Предположим, что наблюдения или случайные переменные являются реализацией независимых случайных величин , которые имеют общее распределение , с неизвестным параметром . Затем, интервал допуска с конечными точками , который имеет определяющее свойство: [3] х = ( х 1 , , х н ) {\displaystyle \mathbf {x} =(x_{1},\ldots ,x_{n})} Х = ( Х 1 , , Х н ) {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{n})} Ф θ {\displaystyle F_{\theta}} θ {\displaystyle \тета} ( Л ( х ) , У ( х ) ] {\displaystyle (L(\mathbf {x}),U (\mathbf {x})]}

инф θ { Пр θ ( Ф θ ( У ( Х ) ) Ф θ ( Л ( Х ) ) п ) } = 100 ( 1 α ) {\displaystyle \inf _{\theta }\{{\Pr }_{\theta }\left(F_{\theta }(U(\mathbf {X} ))-F_{\theta }(L(\mathbf {X} )\right)\geq p)\}=100(1-\alpha )}

где обозначает функцию инфимума . inf { } {\displaystyle \inf\{\}}

Это отличается от интервала прогнозирования с конечными точками , который имеет определяющее свойство: [3] [ l ( x ) , u ( x ) ] {\displaystyle [l(\mathbf {x} ),u(\mathbf {x} )]}

inf θ { Pr θ ( X 0 [ l ( X ) , u ( X ) ] ) } = 100 ( 1 α ) {\displaystyle \inf _{\theta }\{{\Pr }_{\theta }(X_{0}\in [l(\mathbf {X} ),u(\mathbf {X} )])\}=100(1-\alpha )} .

Здесь — случайная величина из того же распределения , но независимая от первых переменных. X 0 {\displaystyle X_{0}} F θ {\displaystyle F_{\theta }} n {\displaystyle n}

Примечание не учитывается при определении интервала толерантности, которое касается только первой выборки размером n . X 0 {\displaystyle X_{0}}

Расчет

Односторонние нормальные интервалы толерантности имеют точное решение в терминах выборочного среднего и выборочной дисперсии на основе нецентрального t -распределения . [4] Двусторонние нормальные интервалы толерантности можно оценить с помощью распределения хи-квадрат . [4]

Отношение к другим интервалам

«В случае известных параметров 95%-ный интервал допуска и 95%-ный интервал прогнозирования совпадают». [5] Если бы мы знали точные параметры популяции, мы могли бы вычислить диапазон, в который попадает определенная доля популяции. Например, если мы знаем, что популяция нормально распределена со средним значением и стандартным отклонением , то интервал включает 95% популяции (1,96 — это z-оценка для 95%-ного покрытия нормально распределенной популяции). μ {\displaystyle \mu } σ {\displaystyle \sigma } μ ± 1.96 σ {\displaystyle \mu \pm 1.96\sigma }

Однако, если у нас есть только выборка из популяции, мы знаем только среднее значение выборки и стандартное отклонение выборки , которые являются лишь оценками истинных параметров. В этом случае не обязательно будет включать 95% популяции из-за дисперсии в этих оценках. Интервал допуска ограничивает эту дисперсию, вводя уровень достоверности , который является уверенностью, с которой этот интервал фактически включает указанную долю популяции. Для нормально распределенной популяции z-оценка может быть преобразована в « k- фактор» или фактор допуска [6] для заданного с помощью таблиц поиска или нескольких формул аппроксимации. [7] «По мере того, как степени свободы приближаются к бесконечности, интервалы прогнозирования и допуска становятся равными». [8] μ ^ {\displaystyle {\hat {\mu }}} σ ^ {\displaystyle {\hat {\sigma }}} μ ^ ± 1.96 σ ^ {\displaystyle {\hat {\mu }}\pm 1.96{\hat {\sigma }}} γ {\displaystyle \gamma } γ {\displaystyle \gamma }

Интервал толерантности менее широко известен, чем доверительный интервал и интервал прогнозирования , что вызывает сожаление у некоторых педагогов, поскольку это может привести к неправильному использованию других интервалов, в то время как интервал толерантности более уместен. [9] [10]

Интервал толерантности отличается от доверительного интервала тем, что доверительный интервал ограничивает однозначный параметр популяции ( например, среднее значение или дисперсию ) с некоторой уверенностью, в то время как интервал толерантности ограничивает диапазон значений данных, который включает определенную долю популяции. В то время как размер доверительного интервала полностью обусловлен ошибкой выборки и будет приближаться к интервалу нулевой ширины при истинном параметре популяции по мере увеличения размера выборки, размер интервала толерантности частично обусловлен ошибкой выборки и частично фактической дисперсией в популяции и будет приближаться к интервалу вероятности популяции по мере увеличения размера выборки. [9] [10]

Интервал допуска связан с интервалом прогнозирования , поскольку оба они накладывают ограничения на вариацию в будущих образцах. Однако интервал прогнозирования ограничивает только один будущий образец, тогда как интервал допуска ограничивает всю популяцию (эквивалентно, произвольную последовательность будущих образцов). Другими словами, интервал прогнозирования охватывает указанную долю популяции в среднем , тогда как интервал допуска охватывает ее с определенным уровнем достоверности , что делает интервал допуска более подходящим, если один интервал предназначен для ограничения нескольких будущих образцов. [10] [11]

Примеры

[9] приводит следующий пример:

Итак, рассмотрим еще раз пресловутый сценарий теста пробега EPA , в котором несколько номинально идентичных автомобилей определенной модели тестируются для получения показателей пробега . Если такие данные обрабатываются для получения 95% доверительного интервала для среднего пробега модели, то, например, можно использовать его для прогнозирования среднего или общего потребления бензина для произведенного парка таких автомобилей за первые 5000 миль использования. Однако такой интервал не будет особо полезен человеку, арендующему одну из этих машин и размышляющему, хватит ли (полного) 10-галлонного бака бензина, чтобы проехать 350 миль до места назначения. Для этой работы гораздо более полезным будет интервал прогнозирования. (Рассмотрите различные последствия "уверенности на 95%", что в отличие от "уверенности на 95%", что .) Но ни доверительный интервал, ни интервал прогнозирования для одного дополнительного пробега не являются именно тем, что нужно инженеру-конструктору, которому поручено определить, какой объем бензобака действительно нужен модели, чтобы гарантировать, что 99% произведенных автомобилей будут иметь запас хода в 400 миль. На самом деле инженеру нужен интервал допуска для доли пробега таких автомобилей. y 1 , y 2 , . . . , y n {\displaystyle y_{1},y_{2},...,y_{n}} μ 35 {\displaystyle \mu \geq 35} y n + 1 35 {\displaystyle y_{n+1}\geq 35} μ {\displaystyle \mu } p = .99 {\displaystyle p=.99}

Другой пример приведен здесь: [11]

Уровни свинца в воздухе были отобраны в разных зонах предприятия. Было отмечено, что логарифмически преобразованные уровни свинца хорошо соответствуют нормальному распределению (то есть данные получены из логарифмически нормального распределения . Пусть и , соответственно, обозначают среднее значение совокупности и дисперсию для логарифмически преобразованных данных. Если обозначает соответствующую случайную величину, то мы имеем . Отметим, что — медианный уровень свинца в воздухе. Доверительный интервал для можно построить обычным способом на основе t - распределения ; это, в свою очередь, даст доверительный интервал для медианного уровня свинца в воздухе. Если и обозначают выборочное среднее значение и стандартное отклонение логарифмически преобразованных данных для выборки размером n, 95%-ный доверительный интервал для задается как , где обозначает квантиль t -распределения со степенями свободы. Также может быть интересно вывести 95%-ную верхнюю границу доверительного интервала для медианного уровня свинца в воздухе. Такая граница для задается как . Следовательно, 95%-ная верхняя граница доверительного интервала для медианного уровня свинца в воздухе задается как . Теперь предположим, что мы хотим предсказать уровень свинца в воздухе в определенной области в пределах лаборатории. 95% верхний предел прогнозирования для логарифмически преобразованного уровня свинца определяется как . Двусторонний интервал прогнозирования может быть вычислен аналогичным образом. Значение и интерпретация этих интервалов хорошо известны. Например, если доверительный интервал вычисляется повторно из независимых выборок, 95% интервалов, вычисленных таким образом, будут включать истинное значение , в долгосрочной перспективе. Другими словами, интервал предназначен для предоставления информации только относительно параметра. Интервал прогнозирования имеет аналогичную интерпретацию и предназначен для предоставления информации только относительно одного уровня свинца. Теперь предположим, что мы хотим использовать выборку, чтобы сделать вывод о том, находятся ли по крайней мере 95% уровней свинца в популяции ниже порогового значения. Доверительный интервал и интервал прогнозирования не могут ответить на этот вопрос, поскольку доверительный интервал предназначен только для медианного уровня свинца, а интервал прогнозирования — только для одного уровня свинца. Требуется интервал допуска; точнее, верхний предел допуска. Верхний предел допуска должен рассчитываться при условии, что по крайней мере у 95% населения уровень свинца ниже предельного значения, с определенным уровнем достоверности, например, 99%. n = 15 {\displaystyle n=15} μ {\displaystyle \mu } σ 2 {\displaystyle \sigma ^{2}} X {\displaystyle X} X N ( μ , σ 2 ) {\displaystyle X\sim {\mathcal {N}}(\mu ,\sigma ^{2})} exp ( μ ) {\displaystyle \exp(\mu )} μ {\displaystyle \mu } X ¯ {\displaystyle {\bar {X}}} S {\displaystyle S} μ {\displaystyle \mu } X ¯ ± t n 1 , 0.975 S / n {\displaystyle {\bar {X}}\pm t_{n-1,0.975}S/{\sqrt {n}}} t m , 1 α {\displaystyle t_{m,1-\alpha }} 1 α {\displaystyle 1-\alpha } m {\displaystyle m} μ {\displaystyle \mu } X ¯ + t n 1 , 0.95 S / n {\displaystyle {\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}} exp ( X ¯ + t n 1 , 0.95 S / n ) {\displaystyle \exp {\left({\bar {X}}+t_{n-1,0.95}S/{\sqrt {n}}\right)}} X ¯ + t n 1 , 0.95 S ( 1 + 1 / n ) {\displaystyle {\bar {X}}+t_{n-1,0.95}S{\sqrt {\left(1+1/n\right)}}} X ¯ ± t n 1 , 0.975 S / n {\displaystyle {\bar {X}}\pm t_{n-1,0.975}S/{\sqrt {n}}} μ {\displaystyle \mu } μ {\displaystyle \mu }

Смотрите также

Ссылки

  1. ^ DS Young (2010), Обзоры книг: «Статистические области допуска: теория, приложения и вычисления», TECHNOMETRICS, ФЕВРАЛЬ 2010, ТОМ 52, № 1, стр. 143-144.
  2. ^ ab Krishnamoorthy, K. и Lian, Xiaodong (2011) «Замкнутые приближенные интервалы толерантности для некоторых общих линейных моделей и сравнительные исследования», Журнал статистических вычислений и моделирования, Впервые опубликовано: 13 июня 2011 г. doi : 10.1080/00949655.2010.545061
  3. ^ ab Meeker, WQ; Hahn, GJ; Escobar, LA (2017). Статистические интервалы: руководство для практиков и исследователей. Серия Wiley по теории вероятностей и статистике. Wiley. ISBN 978-0-471-68717-7. Получено 2024-11-05 .
  4. ^ ab Derek S. Young (август 2010 г.). "tolerance: An R Package for Estimating Tolerance Intervals". Journal of Statistical Software . 36 (5): 1–39. ISSN  1548-7660 . Получено 19 февраля 2013 г., стр.23
  5. Томас П. Райан (22 июня 2007 г.). Современная инженерная статистика. John Wiley & Sons. стр. 222–. ISBN 978-0-470-12843-5. Получено 22 февраля 2013 г.
  6. ^ «Статистическая интерпретация данных — Часть 6: Определение статистических интервалов толерантности». ISO 16269-6. 2014. стр. 2.
  7. ^ "Интервалы допуска для нормального распределения". Справочник по инженерной статистике . NIST/Sematech. 2010. Получено 26.08.2011 .
  8. ^ Де Гриз, С.; Лангханс, И.; Вандебрук, М. (2007). «Использование правильных интервалов для прогнозирования: Учебное пособие по интервалам толерантности для обычной регрессии наименьших квадратов». Хемометрика и интеллектуальные лабораторные системы . 87 (2): 147. doi :10.1016/j.chemolab.2007.03.002.
  9. ^ abc Стивен Б. Вардеман (1992). «Что насчет других интервалов?». The American Statistician . 46 (3): 193–197. doi :10.2307/2685212. JSTOR  2685212.
  10. ^ abc Mark J. Nelson (2011-08-14). "You might want a allowance interval" . Получено 2011-08-26 .
  11. ^ ab K. Krishnamoorthy (2009). Статистические области допуска: теория, приложения и вычисления . John Wiley and Sons. стр. 1–6. ISBN 978-0-470-38026-0.

Дальнейшее чтение

  • Хан, Джеральд Дж.; Микер, Уильям К.; Эскобар, Луис А. (2017). Статистические интервалы: руководство для практиков и исследователей (2-е изд.). John Wiley & Sons, Incorporated. ISBN 978-0-471-68717-7.
  • К. Кришнамурти (2009). Статистические области допуска: теория, приложения и вычисления . John Wiley and Sons. ISBN 978-0-470-38026-0.; Глава 1, «Предварительные сведения», доступна по адресу http://media.wiley.com/product_data/excerpt/68/04703802/0470380268.pdf
  • Дерек С. Янг (август 2010 г.). "tolerance: An R Package for Estimating Tolerance Intervals". Журнал статистического программного обеспечения . 36 (5): 1–39. ISSN  1548-7660 . Получено 19 февраля 2013 г.
  • ISO 16269-6, Статистическая интерпретация данных, Часть 6: Определение статистических интервалов толерантности, Технический комитет ISO/TC 69, Применение статистических методов. Доступно по адресу http://standardsproposals.bsigroup.com/home/getpdf/458
Retrieved from "https://en.wikipedia.org/w/index.php?title=Tolerance_interval&oldid=1255604245"