В физике элементарных частиц CL [ 1] представляет собой статистический метод для установки верхних пределов (также называемых пределами исключения [2] ) для параметров модели , конкретную форму интервальной оценки, используемую для параметров, которые могут принимать только неотрицательные значения. Хотя говорят, что CL относятся к уровням доверия , «название метода ... вводит в заблуждение, поскольку область исключения CL не является доверительным интервалом ». [3] Он был впервые введен физиками, работающими над экспериментом LEP в ЦЕРНе , и с тех пор использовался во многих экспериментах по физике высоких энергий . Это частотный метод в том смысле, что свойства предела определяются с помощью вероятностей ошибок , однако он отличается от стандартных доверительных интервалов тем, что заявленный уровень доверия интервала не равен его вероятности покрытия . Причина этого отклонения заключается в том, что стандартные верхние пределы, основанные на самом мощном тесте, обязательно производят пустые интервалы с некоторой фиксированной вероятностью, когда значение параметра равно нулю, и это свойство считается нежелательным большинством физиков и статистиков. [4]
Верхние пределы, полученные с помощью метода CLs, всегда содержат нулевое значение параметра, и, следовательно, вероятность покрытия в этой точке всегда равна 100%. Определение CLs не следует из какой-либо точной теоретической структуры статистического вывода и поэтому иногда описывается как ad hoc . Однако оно имеет близкое сходство с концепциями статистических доказательств [5], предложенными статистиком Алланом Бирнбаумом .
Пусть X — случайная выборка из распределения вероятностей с действительным неотрицательным параметром . Верхний предел CL для параметра θ с уровнем достоверности — это статистика (т.е. наблюдаемая случайная величина ), которая обладает свойством:
1 |
Неравенство используется в определении для учета случаев, когда распределение X дискретно и равенство не может быть достигнуто точно. Если распределение X непрерывно , то это должно быть заменено равенством. Обратите внимание, что определение подразумевает, что вероятность покрытия всегда больше .
Эквивалентное определение можно сделать, рассмотрев проверку гипотезы нулевой гипотезы против альтернативы . Тогда числитель в ( 1 ), при оценке в , соответствует вероятности ошибки типа I ( ) теста (т.е. отклоняется, когда ), а знаменатель — степени ( ) . Таким образом, критерий отклонения требует, чтобы отношение было меньше . Это можно интуитивно интерпретировать как то, что исключается, поскольку менее вероятно наблюдать такой экстремальный результат, как X , когда верно, чем когда верна альтернатива .
Расчет верхнего предела обычно выполняется путем построения тестовой статистики и нахождения значения, для которого
где - наблюдаемый результат эксперимента.
Верхние пределы, основанные на методе CLs, использовались в многочисленных публикациях экспериментальных результатов, полученных в экспериментах на ускорителях частиц, таких как LEP , Tevatron и LHC , наиболее заметных в поисках новых частиц.
Первоначальная мотивация для CL была основана на условном вероятностном расчете, предложенном физиком Г. Цехом [6] для эксперимента по подсчету событий. Предположим, что эксперимент состоит из измерения событий, происходящих от сигнальных и фоновых процессов, оба из которых описываются распределениями Пуассона с соответствующими скоростями и , а именно . предполагается известным и является параметром, который должен быть оценен экспериментом. Стандартная процедура установления верхнего предела для данного экспериментального результата состоит в исключении значений для которых , что гарантирует по крайней мере покрытие. Рассмотрим, например, случай, когда наблюдаются и события, тогда обнаруживается, что исключается с 95%-ным уровнем достоверности. Но это подразумевает, что исключается, а именно все возможные значения . Такой результат трудно интерпретировать, поскольку эксперимент не может по существу отличить очень малые значения от гипотезы только о фоне, и, таким образом, заявление о том, что такие малые значения исключены (в пользу гипотезы только о фоне), кажется неуместным. Чтобы преодолеть эту трудность, Цех предложил обусловить вероятность того, что на наблюдении , что , где — (неизмеримое) количество фоновых событий. Обоснование этого заключается в том, что когда мало, процедура с большей вероятностью даст ошибку (т. е. интервал, который не охватывает истинное значение), чем когда велико, и распределение само по себе не зависит от . То есть, следует сообщать не общую вероятность ошибки, а условную вероятность, учитывая имеющиеся знания о количестве фоновых событий в выборке. Эта условная вероятность равна
которые соответствуют приведенному выше определению CL. Первое равенство просто использует определение условной вероятности , а второе равенство исходит из того факта, что если и количество фоновых событий по определению не зависит от силы сигнала.
Условный аргумент Зеха можно формально распространить на общий случай. Предположим, что это тестовая статистика , из которой выводится доверительный интервал, и пусть
где — результат, наблюдаемый в ходе эксперимента. Тогда можно рассматривать как неизмеримую (поскольку неизвестна) случайную величину, распределение которой равномерно между 0 и 1 независимо от . Если тест непредвзят, то результат подразумевает
откуда, аналогично обусловливанию в предыдущем случае, получаем
This section possibly contains original synthesis. Source material should verifiably mention and relate to the main topic. (April 2016) |
Приведенные выше аргументы можно рассматривать как следующие духу принципа обусловленности статистического вывода, хотя они выражают более обобщенное понятие обусловленности, которое не требует существования вспомогательной статистики . Однако принцип обусловленности уже в своей первоначальной более ограниченной версии формально подразумевает принцип правдоподобия , результат, который был хорошо продемонстрирован Бирнбаумом . [7] CLs не подчиняется принципу правдоподобия , и, таким образом, такие соображения могут использоваться только для предположения о правдоподобии, но не о теоретической полноте с основополагающей точки зрения. (То же самое, однако, можно сказать о любом частотном методе, если принцип обусловленности считается необходимым).
Сам Бирнбаум в своей статье 1962 года предположил, что отношение CLs следует использовать в качестве меры силы статистических доказательств, предоставляемых тестами значимости, а не только в качестве такового. Это вытекало из простого применения принципа правдоподобия : если результат эксперимента должен быть сообщен только в форме решения «принять»/«отклонить», то общая процедура эквивалентна эксперименту, который имеет только два возможных результата с вероятностями , и , при . Отношение правдоподобия , связанное с результатом «отклонить », поэтому равно и, следовательно, должно определять доказательную интерпретацию этого результата. (Поскольку для проверки двух простых гипотез отношение правдоподобия является компактным представлением функции правдоподобия ). С другой стороны, если принцип правдоподобия должен соблюдаться последовательно, то следует использовать отношение правдоподобия исходного результата, а не , что делает основу такой интерпретации сомнительной. Бирнбаум позже описал это как имеющее «в лучшем случае эвристическое, но не существенное значение для доказательной интерпретации».
Более прямой подход, приводящий к аналогичному выводу, можно найти в формулировке Бирнбаума принципа уверенности , который, в отличие от более распространенной версии, относится к вероятности ошибок обоих видов. Это формулируется следующим образом: [8]
«Концепция статистических доказательств не является правдоподобной, если она не находит «веских доказательств за или против » с малой вероятностью, когда это верно, и с гораздо большей вероятностью, когда это верно».
Такое определение уверенности может естественным образом удовлетворяться определением CL. Остается верным, что как эта, так и более распространенная (связанная с теорией Неймана - Пирсона ) версия принципа уверенности несовместимы с принципом правдоподобия, и поэтому никакой частотный метод не может считаться действительно полным решением проблем, возникающих при рассмотрении условных свойств доверительных интервалов.
Если выполняются определенные условия регулярности, то общая функция правдоподобия станет гауссовой функцией в пределе большой выборки. В таком случае верхний предел CL на уровне достоверности (выведенный из равномерно наиболее мощного теста ) задается как [9]
где — стандартное нормальное кумулятивное распределение , — оценка максимального правдоподобия , а — его стандартное отклонение ; последнее можно оценить из обратной матрицы информации Фишера или с помощью набора данных «Азимов» [9] . Этот результат оказывается эквивалентным байесовскому доверительному интервалу, если используется равномерная априорная вероятность для .