В статистике опорная величина или стержень — это функция наблюдений и ненаблюдаемых параметров, такая, что распределение вероятностей функции не зависит от неизвестных параметров (включая мешающие параметры ). [1] Опорный элемент не обязательно должен быть статистикой — функция и ее «значение» могут зависеть от параметров модели, но ее «распределение» не должно. Если это статистика, то она известна как « вспомогательная статистика ».
Более формально, [2] пусть будет случайной выборкой из распределения, которое зависит от параметра (или вектора параметров) . Пусть будет случайной величиной, распределение которой одинаково для всех . Тогда называется «основной величиной» (или просто «основой»).
Сводные величины обычно используются для нормализации, чтобы можно было сравнивать данные из разных наборов данных. Относительно легко построить сводные величины для параметров местоположения и масштаба: для первых мы формируем различия, чтобы местоположение отменялось, для вторых — отношения, чтобы масштаб отменялся.
Основные величины имеют основополагающее значение для построения тестовых статистик , поскольку они позволяют статистике не зависеть от параметров — например, t-статистика Стьюдента предназначена для нормального распределения с неизвестной дисперсией (и средним значением). Они также предоставляют один из методов построения доверительных интервалов , а использование основных величин улучшает производительность бутстрапа . В форме вспомогательных статистик их можно использовать для построения частотных интервалов прогнозирования (прогностических доверительных интервалов).
Одной из самых простых основных величин является z-оценка . При наличии нормального распределения со средним значением и дисперсией и наблюдения 'x', z-оценка:
имеет распределение – нормальное распределение со средним значением 0 и дисперсией 1. Аналогично, поскольку среднее значение выборки n имеет выборочное распределение , z-оценка среднего значения
также имеет распределение. Обратите внимание, что хотя эти функции зависят от параметров (и, следовательно, их можно вычислить, только если параметры известны (они не являются статистикой)), распределение не зависит от параметров.
Учитывая независимые, одинаково распределенные (iid) наблюдения из нормального распределения с неизвестным средним значением и дисперсией , из функции можно получить основную величину:
где
и
являются несмещенными оценками и , соответственно. Функция представляет собой t-статистику Стьюдента для нового значения , которое должно быть взято из той же совокупности, что и уже наблюдаемый набор значений .
Использование функции становится стержневой величиной, которая также распределена по распределению Стьюдента со степенями свободы. Как и требуется, хотя и выступает в качестве аргумента функции , распределение не зависит от параметров или нормального распределения вероятностей, которое управляет наблюдениями .
Это можно использовать для вычисления интервала прогнозирования для следующего наблюдения ( см. Интервал прогнозирования: Нормальное распределение ).
В более сложных случаях невозможно построить точные опорные точки. Однако наличие приближенных опорных точек улучшает сходимость к асимптотической нормальности .
Предположим, что выборка размера векторов взята из двумерного нормального распределения с неизвестной корреляцией .
Оценкой является выборочная (Пирсоновская, моментная) корреляция
где — выборочные дисперсии и . Выборочная статистика имеет асимптотически нормальное распределение:
Однако, дисперсионно-стабилизирующее преобразование
Известное как z-преобразование Фишера коэффициента корреляции позволяет создать распределение, асимптотически независимое от неизвестных параметров:
где — соответствующий параметр распределения. Для конечных размеров выборки случайная величина будет иметь распределение, более близкое к нормальному, чем у . Еще более близкое приближение к стандартному нормальному распределению получается при использовании лучшего приближения для точной дисперсии: обычная форма —
С точки зрения надежной статистики , основные величины надежны к изменениям параметров — действительно, независимо от параметров — но в целом не надежны к изменениям в модели, таким как нарушения предположения о нормальности. Это имеет основополагающее значение для надежной критики ненадежной статистики, часто выведенной из основных величин: такая статистика может быть надежной внутри семейства, но не надежной вне его.