Вычислительная статистика или статистические вычисления — это исследование, которое находится на стыке статистики и компьютерных наук и относится к статистическим методам, которые становятся возможными благодаря использованию вычислительных методов. Это область вычислительной науки (или научных вычислений), специфичная для математической науки статистики . Эта область быстро развивается. Мнение о том, что более широкая концепция вычислений должна преподаваться как часть общего статистического образования, набирает обороты. [1]
Как и в традиционной статистике, цель состоит в том, чтобы преобразовать необработанные данные в знания , [2] но основное внимание уделяется статистическим методам , требующим большого объема вычислений , например, случаям с очень большим размером выборки и неоднородными наборами данных . [2]
Термины «вычислительная статистика» и «статистические вычисления» часто используются как взаимозаменяемые, хотя Карло Лауро (бывший президент Международной ассоциации статистических вычислений ) предложил провести различие, определив «статистические вычисления» как «применение компьютерной науки к статистике», а «вычислительную статистику» как «направленную на разработку алгоритма для реализации статистических методов на компьютерах, включая те, которые были немыслимы до компьютерной эры (например, бутстрап , моделирование ), а также для решения аналитически неразрешимых проблем» [ sic ]. [3]
Термин «вычислительная статистика» может также использоваться для обозначения статистических методов, требующих большого объема вычислений, включая методы повторной выборки , методы Монте-Карло на основе цепей Маркова , локальную регрессию , оценку плотности ядра , искусственные нейронные сети и обобщенные аддитивные модели .
Хотя вычислительная статистика широко используется сегодня, на самом деле она имеет относительно короткую историю принятия в статистическом сообществе. По большей части основатели области статистики опирались на математику и асимптотические приближения при разработке вычислительной статистической методологии. [4]
В 1908 году Уильям Сили Госсет выполнил свое ныне широко известное моделирование методом Монте-Карло , которое привело к открытию распределения Стьюдента . [5] С помощью вычислительных методов он также построил графики эмпирических распределений, наложенных на соответствующие теоретические распределения. Компьютер произвел революцию в моделировании и сделал повторение эксперимента Госсета не более чем упражнением. [6] [7]
Позже ученые предложили вычислительные способы генерации псевдослучайных отклонений, разработали методы преобразования равномерных отклонений в другие формы распределения с использованием обратной кумулятивной функции распределения или методов принятия-отклонения, а также разработали методологию пространства состояний для Монте-Карло с цепями Маркова . [8] Одна из первых попыток генерации случайных цифр полностью автоматизированным способом была предпринята корпорацией RAND в 1947 году. Полученные таблицы были опубликованы в виде книги в 1955 году , а также в виде серии перфокарт.
К середине 1950-х годов было предложено несколько статей и патентов на устройства для генераторов случайных чисел . [9] Разработка этих устройств была мотивирована необходимостью использования случайных цифр для выполнения моделирования и других фундаментальных компонентов в статистическом анализе. Одним из самых известных таких устройств является ERNIE, которое производит случайные числа, определяющие победителей Premium Bond , лотерейной облигации, выпущенной в Соединенном Королевстве. В 1958 году был разработан складной нож Джона Тьюки . Он является методом уменьшения смещения оценок параметров в выборках в нестандартных условиях. [10] Для этого требуются компьютеры для практической реализации. К настоящему моменту компьютеры сделали многие утомительные статистические исследования осуществимыми. [11]
Оценка максимального правдоподобия используется для оценки параметров предполагаемого распределения вероятностей , учитывая некоторые наблюдаемые данные. Это достигается путем максимизации функции правдоподобия , так что наблюдаемые данные являются наиболее вероятными в рамках предполагаемой статистической модели .
Монте-Карло — это статистический метод, который опирается на повторную случайную выборку для получения числовых результатов. Концепция заключается в использовании случайности для решения проблем, которые в принципе могут быть детерминированными . Они часто используются в физических и математических задачах и наиболее полезны, когда трудно использовать другие подходы. Методы Монте-Карло в основном используются в трех классах задач: оптимизация , численное интегрирование и генерация розыгрышей из распределения вероятностей .
Метод Монте-Карло с цепями Маркова создает выборки из непрерывной случайной величины с плотностью вероятности, пропорциональной известной функции. Эти выборки можно использовать для оценки интеграла по этой переменной, как ее ожидаемого значения или дисперсии . Чем больше шагов включено, тем ближе распределение выборки к фактическому желаемому распределению.
Самонастройка
Бутстрап — это метод повторной выборки, используемый для генерации выборок из эмпирического распределения вероятностей , определенного исходной выборкой популяции. Его можно использовать для поиска бутстрапированной оценки параметра популяции. Его также можно использовать для оценки стандартной ошибки оценщика, а также для генерации бутстрапированных доверительных интервалов. Складной нож — это родственный метод [12] .
{{cite journal}}
: CS1 maint: числовые имена: список авторов ( ссылка )