Вычислительная статистика

Интерфейс между статистикой и информатикой
Студенты работают в кабинете статистической машины Лондонской школы экономики в 1964 году.

Вычислительная статистика или статистические вычисления — это исследование, которое находится на стыке статистики и компьютерных наук и относится к статистическим методам, которые становятся возможными благодаря использованию вычислительных методов. Это область вычислительной науки (или научных вычислений), специфичная для математической науки статистики . Эта область быстро развивается. Мнение о том, что более широкая концепция вычислений должна преподаваться как часть общего статистического образования, набирает обороты. [1]

Как и в традиционной статистике, цель состоит в том, чтобы преобразовать необработанные данные в знания , [2] но основное внимание уделяется статистическим методам , требующим большого объема вычислений , например, случаям с очень большим размером выборки и неоднородными наборами данных . [2]

Термины «вычислительная статистика» и «статистические вычисления» часто используются как взаимозаменяемые, хотя Карло Лауро (бывший президент Международной ассоциации статистических вычислений ) предложил провести различие, определив «статистические вычисления» как «применение компьютерной науки к статистике», а «вычислительную статистику» как «направленную на разработку алгоритма для реализации статистических методов на компьютерах, включая те, которые были немыслимы до компьютерной эры (например, бутстрап , моделирование ), а также для решения аналитически неразрешимых проблем» [ sic ]. [3]

Термин «вычислительная статистика» может также использоваться для обозначения статистических методов, требующих большого объема вычислений, включая методы повторной выборки , методы Монте-Карло на основе цепей Маркова , локальную регрессию , оценку плотности ядра , искусственные нейронные сети и обобщенные аддитивные модели .

История

Хотя вычислительная статистика широко используется сегодня, на самом деле она имеет относительно короткую историю принятия в статистическом сообществе. По большей части основатели области статистики опирались на математику и асимптотические приближения при разработке вычислительной статистической методологии. [4]

В 1908 году Уильям Сили Госсет выполнил свое ныне широко известное моделирование методом Монте-Карло , которое привело к открытию распределения Стьюдента . [5] С помощью вычислительных методов он также построил графики эмпирических распределений, наложенных на соответствующие теоретические распределения. Компьютер произвел революцию в моделировании и сделал повторение эксперимента Госсета не более чем упражнением. [6] [7]

Позже ученые предложили вычислительные способы генерации псевдослучайных отклонений, разработали методы преобразования равномерных отклонений в другие формы распределения с использованием обратной кумулятивной функции распределения или методов принятия-отклонения, а также разработали методологию пространства состояний для Монте-Карло с цепями Маркова . [8] Одна из первых попыток генерации случайных цифр полностью автоматизированным способом была предпринята корпорацией RAND в 1947 году. Полученные таблицы были опубликованы в виде книги в 1955 году , а также в виде серии перфокарт.

К середине 1950-х годов было предложено несколько статей и патентов на устройства для генераторов случайных чисел . [9] Разработка этих устройств была мотивирована необходимостью использования случайных цифр для выполнения моделирования и других фундаментальных компонентов в статистическом анализе. Одним из самых известных таких устройств является ERNIE, которое производит случайные числа, определяющие победителей Premium Bond , лотерейной облигации, выпущенной в Соединенном Королевстве. В 1958 году был разработан складной нож Джона Тьюки . Он является методом уменьшения смещения оценок параметров в выборках в нестандартных условиях. [10] Для этого требуются компьютеры для практической реализации. К настоящему моменту компьютеры сделали многие утомительные статистические исследования осуществимыми. [11]

Методы

Оценка максимального правдоподобия

Оценка максимального правдоподобия используется для оценки параметров предполагаемого распределения вероятностей , учитывая некоторые наблюдаемые данные. Это достигается путем максимизации функции правдоподобия , так что наблюдаемые данные являются наиболее вероятными в рамках предполагаемой статистической модели .

Метод Монте-Карло

Монте-Карло — это статистический метод, который опирается на повторную случайную выборку для получения числовых результатов. Концепция заключается в использовании случайности для решения проблем, которые в принципе могут быть детерминированными . Они часто используются в физических и математических задачах и наиболее полезны, когда трудно использовать другие подходы. Методы Монте-Карло в основном используются в трех классах задач: оптимизация , численное интегрирование и генерация розыгрышей из распределения вероятностей .

Марковская цепь Монте-Карло

Метод Монте-Карло с цепями Маркова создает выборки из непрерывной случайной величины с плотностью вероятности, пропорциональной известной функции. Эти выборки можно использовать для оценки интеграла по этой переменной, как ее ожидаемого значения или дисперсии . Чем больше шагов включено, тем ближе распределение выборки к фактическому желаемому распределению.


Самонастройка

Бутстрап — это метод повторной выборки, используемый для генерации выборок из эмпирического распределения вероятностей , определенного исходной выборкой популяции. Его можно использовать для поиска бутстрапированной оценки параметра популяции. Его также можно использовать для оценки стандартной ошибки оценщика, а также для генерации бутстрапированных доверительных интервалов. Складной нож — это родственный метод [12] .

Приложения

Журналы вычислительной статистики

Ассоциации

Смотрите также

Ссылки

  1. ^ Нолан, Д. и Темпл Лэнг, Д. (2010). «Вычислительная техника в учебных программах по статистике», The American Statistician 64 (2), стр. 97-107.
  2. ^ ab Wegman, Edward J. «Вычислительная статистика: новая повестка дня для статистической теории и практики». Журнал Вашингтонской академии наук , т. 78, № 4, 1988, стр. 310–322. JSTOR
  3. ^ Лауро, Карло (1996), «Вычислительная статистика или статистические вычисления, в этом ли вопрос?», Computational Statistics & Data Analysis , 23 (1): 191–193, doi :10.1016/0167-9473(96)88920-1
  4. ^ Уотник, Митчелл (2011). «Ранняя вычислительная статистика». Журнал вычислительной и графической статистики . 20 (4): 811–817. doi :10.1198/jcgs.2011.204b. ISSN  1061-8600. S2CID  120111510.
  5. ^ "Студент" [ Уильям Сили Госсет ] (1908). "Вероятная ошибка среднего" (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR  2331554.{{cite journal}}: CS1 maint: числовые имена: список авторов ( ссылка )
  6. ^ Трахан, Трэвис Джон (2019-10-03). Последние достижения в методах Монте-Карло в Лос-Аламосской национальной лаборатории (отчет). doi :10.2172/1569710. OSTI  1569710.
  7. ^ Метрополис, Николас; Улам, С. (1949). «Метод Монте-Карло». Журнал Американской статистической ассоциации . 44 (247): 335–341. doi :10.1080/01621459.1949.10483310. ISSN  0162-1459. PMID  18139350.
  8. ^ Роберт, Кристиан; Казелла, Джордж (2011-02-01). "Краткая история Монте-Карло с цепями Маркова: субъективные воспоминания о неполных данных". Статистическая наука . 26 (1). arXiv : 0808.2902 . doi : 10.1214/10-sts351 . ISSN  0883-4237. S2CID  2806098.
  9. ^ Пьер Л'Экюйер (2017). «История равномерной генерации случайных чисел» (PDF) . Зимняя конференция по моделированию 2017 г. (WSC) . стр. 202–230. doi :10.1109/WSC.2017.8247790. ISBN 978-1-5386-3428-8. S2CID  4567651.
  10. ^ КВЕНУЙ, МХ (1956). «Заметки о предвзятости в оценке». Биометрика . 43 (3–4): 353–360. дои : 10.1093/biomet/43.3-4.353. ISSN  0006-3444.
  11. ^ Teichroew, Daniel (1965). «История выборки распределения до эры компьютеров и ее значение для моделирования». Журнал Американской статистической ассоциации . 60 (309): 27–49. doi :10.1080/01621459.1965.10480773. ISSN  0162-1459.
  12. ^ Риццо, Мария (15 ноября 2007 г.). Статистические вычисления с R . CRC Press. ISBN 9781420010718.

Дальнейшее чтение

Статьи

  • Альберт, Дж. Х.; Джентл, Дж. Э. (2004), Альберт, Джеймс Х.; Джентл, Джеймс Э. (ред.), «Специальный раздел: преподавание вычислительной статистики», The American Statistician , 58 : 1, doi : 10.1198/0003130042872, S2CID  219596225
  • Уилкинсон, Леланд (2008), «Будущее статистических вычислений (с обсуждением)», Technometrics , 50 (4): 418–435, doi :10.1198/004017008000000460, S2CID  3521989

Книги

  • Дрю, Джон Х.; Эванс, Дайан Л .; Глен, Эндрю Г.; Лемис, Лоуренс М. (2007), Вычислительная вероятность: алгоритмы и приложения в математических науках , Springer International Series in Operations Research & Management Science, Springer, ISBN 978-0-387-74675-3
  • Джентл, Джеймс Э. (2002), Элементы вычислительной статистики , Springer, ISBN 0-387-95489-9
  • Джентл, Джеймс Э.; Хардл, Вольфганг; Мори, Юичи, ред. (2004), Справочник по вычислительной статистике: концепции и методы , Springer, ISBN 3-540-40464-3
  • Гивенс, Джеф Х.; Хоетинг, Дженнифер А. (2005), Вычислительная статистика , серия Wiley по теории вероятностей и статистике, Wiley-Interscience, ISBN 978-0-471-46124-1
  • Клеменс, Бен (2008), Моделирование с использованием данных: инструменты и методы статистических вычислений , Princeton University Press, ISBN 978-0-691-13314-0
  • Монахан, Джон (2001), Численные методы статистики , Cambridge University Press, ISBN 978-0-521-79168-7
  • Роуз, Колин; Смит, Мюррей Д. (2002), Математическая статистика с Mathematica , Springer Texts in Statistics, Springer, ISBN 0-387-95234-9
  • Тистед, Рональд Аарон (1988), Элементы статистических вычислений: численные вычисления , CRC Press, ISBN 0-412-01371-1
  • Гариб, Реда Р. (2017), Наука о данных: Научные и статистические вычисления , Noor Publishing, ISBN 978-3-330-97256-8

Ассоциации

  • Международная ассоциация статистических вычислений
  • Секция статистических вычислений Американской статистической ассоциации

Журналы

  • Вычислительная статистика и анализ данных
  • Журнал вычислительной и графической статистики
  • Статистика и вычисления
Взято с "https://en.wikipedia.org/w/index.php?title=Вычислительная_статистика&oldid=1248283345"