В статистике вспомогательность — это свойство статистики , вычисляемое на выборочном наборе данных по отношению к параметрической модели набора данных. Вспомогательная статистика имеет одинаковое распределение независимо от значений параметров и, таким образом, не предоставляет никакой информации о них. [ 1] [2] [3] Она противоположна концепции полной статистики, которая не содержит никакой вспомогательной информации. Она тесно связана с концепцией достаточной статистики , которая содержит всю информацию, которую набор данных предоставляет о параметрах.
Вспомогательная статистика — это частный случай основной величины , которая вычисляется только из данных, а не из параметров. Они могут использоваться для построения интервалов прогнозирования . Они также используются в связи с теоремой Басу для доказательства независимости между статистиками. [4]
Эта концепция была впервые введена Рональдом Фишером в 1920-х годах [5], но ее формальное определение было предоставлено только в 1964 году Дебабратой Басу . [6] [7]
Предположим, что X 1 , ..., X n независимы и одинаково распределены , причем распределены нормально с неизвестным ожидаемым значением μ и известной дисперсией 1. Пусть
быть выборочным средним .
Следующие статистические меры дисперсии выборки
все это вспомогательные статистики , потому что их выборочные распределения не меняются при изменении μ . С точки зрения вычислений это происходит потому, что в формулах члены μ сокращаются — добавление постоянного числа к распределению (и всем выборкам) изменяет его выборочный максимум и минимум на ту же величину, поэтому это не меняет их разность, и аналогично для других: эти меры дисперсии не зависят от местоположения.
Наоборот, если заданы независимые нормальные переменные с известным средним 1 и неизвестной дисперсией σ 2 , то выборочное среднее не является вспомогательной статистикой дисперсии, поскольку выборочное распределение выборочного среднего равно N (1, σ 2 / n ), которое зависит от σ 2 – эта мера местоположения (в частности, ее стандартная ошибка ) зависит от дисперсии. [8]
В семействе распределений по местоположению является вспомогательной статистикой.
В масштабном семействе распределений является вспомогательной статистикой.
В семействе распределений масштаба местоположения , где — дисперсия выборки, — вспомогательная статистика. [3] [9]
Оказывается, что если является недостаточной статистикой и является вспомогательной, то иногда можно восстановить всю информацию о неизвестном параметре, содержащуюся во всех данных, сообщая при этом обусловливая наблюдаемое значение . Это известно как условный вывод . [3]
Например, предположим, что следуют распределению, где неизвестно. Обратите внимание, что, хотя недостаточно для (поскольку его информация Фишера равна 1, тогда как информация Фишера полной статистики равна 2), дополнительно сообщая вспомогательную статистику , можно получить совместное распределение с информацией Фишера 2. [3]
Если статистика T недостаточна , то вспомогательное дополнение — это статистика U , которая является вспомогательной и такой, что ( T , U ) достаточно. [2] Интуитивно понятно, что вспомогательное дополнение «добавляет недостающую информацию» (не дублируя ее).
Статистика особенно полезна, если взять T в качестве оценщика максимального правдоподобия , что в общем случае будет недостаточно; тогда можно попросить вспомогательное дополнение. В этом случае Фишер утверждает, что необходимо обусловить вспомогательное дополнение, чтобы определить информационное содержание: следует считать информационное содержание Фишера T не пределом T , а условным распределением T , учитывая U : сколько информации добавляет T ? В общем случае это невозможно, поскольку не требуется никакого вспомогательного дополнения, а если оно существует, оно не обязательно должно быть уникальным, и не существует максимального вспомогательного дополнения.
В бейсболе предположим, что скаут наблюдает за отбивающим в N отбивках. Предположим (нереалистично), что число N выбирается некоторым случайным процессом, который не зависит от способностей отбивающего — скажем, монета подбрасывается после каждого отбива, и результат определяет, останется ли скаут наблюдать за следующим отбивающим. Окончательными данными являются число N отбивок и число X попаданий: данные ( X , N ) являются достаточной статистикой. Наблюдаемое среднее отбивание X / N не передает всей информации, имеющейся в данных, поскольку оно не сообщает число N отбивок (например, среднее отбивание 0,400, что очень высоко , основанное только на пяти отбивках, не внушает такой же уверенности в способностях игрока, как среднее 0,400, основанное на 100 отбивках). Число N выходов на биту является вспомогательной статистикой, поскольку
Эта вспомогательная статистика является вспомогательным дополнением к наблюдаемому среднему показателю отбивания X / N , т. е. средний показатель отбивания X / N не является достаточной статистикой , поскольку он передает не всю необходимую информацию в данных, но в сочетании с N он становится достаточным.