Статистика

Изучение сбора и анализа данных
Нормальное распределение , очень распространенная плотность вероятности , широко используется в статистике выводов .
Диаграммы рассеяния и линейные графики используются в описательной статистике для демонстрации наблюдаемых взаимосвязей между различными переменными. В данном случае используется набор данных «Цветок ириса» .

Статистика (от немецкого : Statistik , ориг. «описание государства , страны» [1] ) — дисциплина, которая занимается сбором, организацией, анализом, интерпретацией и представлением данных . [2] При применении статистики к научной, промышленной или социальной проблеме принято начинать со статистической совокупности или статистической модели для изучения. Совокупности могут быть различными группами людей или объектов, такими как «все люди, живущие в стране» или «каждый атом, составляющий кристалл». Статистика имеет дело со всеми аспектами данных, включая планирование сбора данных с точки зрения разработки опросов и экспериментов . [3]

Когда данные переписи не могут быть собраны, статистики собирают данные, разрабатывая специальные экспериментальные планы и выборки обследований . Репрезентативная выборка гарантирует, что выводы и заключения могут быть обоснованно распространены от выборки на популяцию в целом. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с использованием той же процедуры, чтобы определить, изменило ли манипулирование значения измерений. Напротив, наблюдательное исследование не включает в себя экспериментальное манипулирование.

В анализе данных используются два основных статистических метода : описательная статистика , которая суммирует данные из выборки с использованием таких индексов , как среднее или стандартное отклонение , и выводная статистика , которая делает выводы из данных, которые подвержены случайным изменениям (например, ошибки наблюдений, выборочная вариация). [4] Описательная статистика чаще всего связана с двумя наборами свойств распределения ( выборки или совокупности): центральная тенденция (или местоположение ) стремится охарактеризовать центральное или типичное значение распределения, в то время как дисперсия (или изменчивость ) характеризует степень, в которой члены распределения отклоняются от своего центра и друг от друга. Выводы, сделанные с использованием математической статистики, используют структуру теории вероятностей , которая занимается анализом случайных явлений.

Стандартная статистическая процедура включает сбор данных, приводящих к проверке взаимосвязи между двумя статистическими наборами данных или набором данных и синтетическими данными, взятыми из идеализированной модели. Предлагается гипотеза для статистической взаимосвязи между двумя наборами данных, альтернатива идеализированной нулевой гипотезе об отсутствии взаимосвязи между двумя наборами данных. Отклонение или опровержение нулевой гипотезы выполняется с помощью статистических тестов, которые количественно определяют смысл, в котором нулевая гипотеза может быть доказана ложной, учитывая данные, которые используются в тесте. Работая с нулевой гипотезой, распознаются две основные формы ошибок: ошибки типа I (нулевая гипотеза отклоняется, когда она на самом деле верна, давая «ложноположительный результат») и ошибки типа II (нулевая гипотеза не может быть отклонена, когда она на самом деле ложна, давая «ложноотрицательный результат»). С этой структурой связано множество проблем, начиная от получения достаточного размера выборки до указания адекватной нулевой гипотезы. [4]

Статистические процессы измерения также подвержены ошибкам в отношении данных, которые они генерируют. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( смещение ), но могут также возникать и другие типы ошибок (например, промах, когда аналитик сообщает неверные единицы). Наличие отсутствующих данных или цензурирование может привести к смещенным оценкам, и для решения этих проблем были разработаны специальные методы.

Введение

Статистика — это математическая наука, которая относится к сбору, анализу, интерпретации или объяснению и представлению данных , [5] или как раздел математики . [6] Некоторые считают статистику отдельной математической наукой, а не разделом математики. В то время как многие научные исследования используют данные, статистика, как правило, занимается использованием данных в контексте неопределенности и принятия решений в условиях неопределенности. [7] [8]

При применении статистики к проблеме принято начинать с популяции или процесса, которые необходимо изучить. Популяции могут быть разнообразными темами, например, «все люди, живущие в стране» или «каждый атом, составляющий кристалл». В идеале статистики собирают данные обо всей популяции (операция, называемая переписью ). Это может быть организовано государственными статистическими институтами. Описательная статистика может использоваться для обобщения данных о популяции. Числовые дескрипторы включают среднее значение и стандартное отклонение для непрерывных данных (например, доход), в то время как частота и процент более полезны с точки зрения описания категориальных данных (например, образование).

Если перепись невозможна, изучается выбранное подмножество населения, называемое выборкой . После того, как определена выборка, которая является репрезентативной для населения, данные собираются для членов выборки в наблюдательной или экспериментальной обстановке. Опять же, описательная статистика может использоваться для обобщения данных выборки. Однако составление выборки содержит элемент случайности; следовательно, числовые дескрипторы из выборки также подвержены неопределенности. Чтобы сделать значимые выводы о всей популяции, необходима выводная статистика . Она использует закономерности в данных выборки, чтобы сделать выводы о представленной популяции, учитывая случайность. Эти выводы могут принимать форму ответов на вопросы типа «да/нет» о данных ( проверка гипотез ), оценки числовых характеристик данных ( оценка ), описания ассоциаций в данных ( корреляция ) и моделирования отношений в данных (например, с помощью регрессионного анализа ). Вывод может распространяться на прогнозирование , предсказание и оценку ненаблюдаемых значений, находящихся в изучаемой популяции или связанных с ней. Он может включать экстраполяцию и интерполяцию временных рядов или пространственных данных , а также интеллектуальный анализ данных .

Математическая статистика

Математическая статистика — это приложение математики к статистике. Математические методы, используемые для этого, включают математический анализ , линейную алгебру , стохастический анализ , дифференциальные уравнения и теорию вероятностей с мерой . [9] [10]

История

«Искусство предположений» Бернулли было первым трудом, посвященным теории вероятностей в ее современном понимании.

Формальные обсуждения вывода восходят к математикам и криптографам исламского Золотого века между VIII и XIII веками. Аль-Халиль (717–786) написал « Книгу криптографических сообщений» , которая содержит одно из первых применений перестановок и комбинаций для перечисления всех возможных арабских слов с гласными и без них. [11] «Рукопись расшифровки криптографических сообщений » Аль-Кинди дала подробное описание того, как использовать частотный анализ для расшифровки зашифрованных сообщений, предоставив ранний пример статистического вывода для декодирования . Ибн Адлан (1187–1268) позже внес важный вклад в использование размера выборки в частотном анализе. [11]

Хотя термин «статистика» был введен итальянским ученым Джироламо Гилини в 1589 году в отношении совокупности фактов и информации о государстве, именно немец Готфрид Ахенвалль в 1749 году начал использовать этот термин как совокупность количественной информации в современном значении для этой науки. [12] [13] Самое раннее сочинение, содержащее статистику в Европе, датируется 1663 годом, когда была опубликована книга Джона Граунта « Естественные и политические наблюдения за счетами смертности» . [14] Ранние приложения статистического мышления вращались вокруг потребностей государств в обосновании политики на основе демографических и экономических данных, отсюда и ее статэтимология . Сфера применения дисциплины статистики расширилась в начале 19 века, включив в себя сбор и анализ данных в целом. Сегодня статистика широко используется в правительстве, бизнесе, а также в естественных и социальных науках.

Карл Фридрих Гаусс внес значительный вклад в вероятностные методы, приведшие к возникновению статистики.

Математические основы статистики развивались из дискуссий, касающихся азартных игр , среди таких математиков, как Джероламо Кардано , Блез Паскаль , Пьер де Ферма и Христиан Гюйгенс . Хотя идея вероятности уже рассматривалась в античном и средневековом праве и философии (например, в работах Хуана Карамуэля ), теория вероятностей как математическая дисциплина оформилась только в самом конце XVII века, в частности, в посмертном труде Якоба Бернулли Ars Conjectandi . [15] Это была первая книга, в которой сфера азартных игр и сфера вероятного (которая касалась мнения, доказательств и аргумента) были объединены и подвергнуты математическому анализу. [16] Метод наименьших квадратов был впервые описан Адриеном-Мари Лежандром в 1805 году, хотя Карл Фридрих Гаусс , по-видимому, использовал его десятилетием ранее, в 1795 году. [17]

Карл Пирсон , основатель математической статистики

Современная область статистики возникла в конце 19-го и начале 20-го века в три этапа. [18] Первая волна, на рубеже веков, была возглавлена ​​работами Фрэнсиса Гальтона и Карла Пирсона , которые превратили статистику в строгую математическую дисциплину, используемую для анализа не только в науке, но также в промышленности и политике. Вклад Гальтона включал введение понятий стандартного отклонения , корреляции , регрессионного анализа и применение этих методов к изучению различных человеческих характеристик — роста, веса и длины ресниц среди прочих. [19] Пирсон разработал коэффициент корреляции Пирсона-произведения-момента , определяемый как произведение-момент, [20] метод моментов для подгонки распределений к выборкам и распределение Пирсона , среди прочего. [21] Гальтон и Пирсон основали Biometrika как первый журнал математической статистики и биостатистики (тогда называвшийся биометрией ), а последний основал первый в мире университетский статистический факультет в Университетском колледже Лондона . [22]

Вторая волна 1910-х и 20-х годов была инициирована Уильямом Сили Госсетом и достигла своей кульминации в идеях Рональда Фишера , который написал учебники, которые должны были определить академическую дисциплину в университетах по всему миру. Наиболее важными публикациями Фишера были его основополагающая работа 1918 года « Корреляция между родственниками при предположении о менделевском наследовании» (в которой впервые был использован статистический термин « дисперсия» ), его классическая работа 1925 года «Статистические методы для научных работников» и его работа 1935 года «Планирование экспериментов» [ 23] [24] [25] , где он разработал строгий дизайн моделей экспериментов . Он создал концепции достаточности , вспомогательной статистики , линейного дискриминатора Фишера и информации Фишера . [26] Он также ввел термин «нулевая гипотеза» во время эксперимента с леди, дегустирующей чай , которая «никогда не была доказана или установлена, но, возможно, была опровергнута в ходе эксперимента». [27] [28] В своей книге 1930 года «Генетическая теория естественного отбора » он применил статистику к различным биологическим концепциям, таким как принцип Фишера [29] (который А. В. Ф. Эдвардс назвал «вероятно, самым знаменитым аргументом в эволюционной биологии ») и « разгон по Фишеру » [30] [ 31] [32] [33] [34] [35] концепция в половом отборе о положительной обратной связи, вызывающей разгон, обнаруженной в эволюции .

Последняя волна, которая в основном включала в себя уточнение и расширение более ранних разработок, возникла в результате совместной работы Эгона Пирсона и Ежи Неймана в 1930-х годах. Они ввели понятия ошибки « типа II », мощности теста и доверительных интервалов . Ежи Нейман в 1934 году показал, что стратифицированная случайная выборка в целом является лучшим методом оценки, чем преднамеренная (квотная) выборка. [36]

Сегодня статистические методы применяются во всех областях, где требуется принятие решений, для получения точных выводов из сопоставленного массива данных и для принятия решений в условиях неопределенности на основе статистической методологии. Использование современных компьютеров ускорило крупномасштабные статистические вычисления, а также сделало возможными новые методы, которые непрактично выполнять вручную. Статистика продолжает оставаться областью активных исследований, например, по проблеме анализа больших данных . [37]

Статистические данные

Сбор данных

Отбор проб

Когда полные данные переписи собрать невозможно, статистики собирают выборочные данные, разрабатывая специальные экспериментальные проекты и выборки обследований . Статистика сама по себе также предоставляет инструменты для прогнозирования и предсказания с помощью статистических моделей .

Чтобы использовать выборку в качестве руководства для всей популяции, важно, чтобы она действительно представляла всю популяцию. Репрезентативная выборка гарантирует, что выводы и заключения могут безопасно распространяться от выборки на популяцию в целом. Основная проблема заключается в определении степени, в которой выбранная выборка действительно является репрезентативной. Статистика предлагает методы оценки и исправления любых смещений в выборке и процедурах сбора данных. Существуют также методы экспериментального проектирования, которые могут уменьшить эти проблемы в начале исследования, усиливая его способность различать истины о популяции.

Теория выборочного метода является частью математической дисциплины теории вероятностей . Вероятность используется в математической статистике для изучения выборочных распределений выборочных статистик и , в более общем плане, свойств статистических процедур . Использование любого статистического метода допустимо, когда рассматриваемая система или популяция удовлетворяет предположениям метода. Разница в точках зрения между классической теорией вероятностей и теорией выборочного метода заключается, грубо говоря, в том, что теория вероятностей исходит из заданных параметров общей популяции, чтобы вывести вероятности, которые относятся к выборкам. Статистический вывод, однако, движется в противоположном направлении — индуктивно выводя из выборок параметры большей или общей популяции.

Экспериментальные и наблюдательные исследования

Общей целью статистического исследовательского проекта является изучение причинности и, в частности, вывод о влиянии изменений значений предикторов или независимых переменных на зависимые переменные . Существует два основных типа причинно-следственных статистических исследований: экспериментальные исследования и наблюдательные исследования . В обоих типах исследований наблюдается влияние различий независимой переменной (или переменных) на поведение зависимой переменной. Разница между двумя типами заключается в том, как на самом деле проводится исследование. Каждое из них может быть очень эффективным. Экспериментальное исследование включает в себя проведение измерений изучаемой системы, манипулирование системой, а затем проведение дополнительных измерений с различными уровнями, используя ту же процедуру, чтобы определить, изменило ли манипулирование значения измерений. Напротив, наблюдательное исследование не включает в себя экспериментальную манипуляцию . Вместо этого собираются данные и исследуются корреляции между предикторами и ответом. Хотя инструменты анализа данных лучше всего работают с данными рандомизированных исследований , они также применяются к другим видам данных, таким как естественные эксперименты и наблюдательные исследования [38] , для которых статистик использовал бы модифицированный, более структурированный метод оценки (например, оценку разницы в разностях и инструментальные переменные , среди многих других), которые дают согласованные оценки .

Эксперименты

Основные этапы статистического эксперимента:

  1. Планирование исследования, включая определение количества повторов исследования, с использованием следующей информации: предварительные оценки относительно размера эффектов лечения , альтернативные гипотезы и предполагаемая экспериментальная изменчивость . Необходимо учитывать выбор субъектов эксперимента и этику исследования. Статистики рекомендуют, чтобы эксперименты сравнивали (по крайней мере) одно новое лечение со стандартным лечением или контролем, чтобы обеспечить непредвзятую оценку разницы в эффектах лечения.
  2. Планирование экспериментов с использованием блокирования для снижения влияния вмешивающихся переменных и рандомизированного назначения лечения субъектам для обеспечения беспристрастной оценки эффектов лечения и экспериментальной ошибки. На этом этапе экспериментаторы и статистики пишут экспериментальный протокол , который будет направлять выполнение эксперимента и который определяет первичный анализ экспериментальных данных.
  3. Проведение эксперимента в соответствии с экспериментальным протоколом и анализ данных в соответствии с экспериментальным протоколом.
  4. Дальнейшее изучение набора данных во вторичных анализах с целью выдвижения новых гипотез для будущих исследований.
  5. Документирование и представление результатов исследования.

Эксперименты с поведением человека вызывают особые опасения. Знаменитое исследование Хоторна изучало изменения в рабочей среде на заводе Хоторна компании Western Electric Company . Исследователи хотели определить, увеличит ли увеличение освещенности производительность рабочих сборочной линии . Сначала исследователи измерили производительность на заводе, затем изменили освещение в определенной зоне завода и проверили, повлияли ли изменения в освещении на производительность. Оказалось, что производительность действительно улучшилась (в условиях эксперимента). Однако сегодня исследование подвергается резкой критике за ошибки в экспериментальных процедурах, в частности за отсутствие контрольной группы и слепоту . Эффект Хоторна относится к обнаружению того, что результат (в данном случае производительность труда) изменился из-за самого наблюдения. Участники исследования Хоторна стали более производительными не потому, что изменилось освещение, а потому, что за ними наблюдали. [39]

Наблюдательное исследование

Примером наблюдательного исследования является исследование, которое изучает связь между курением и раком легких. Этот тип исследования обычно использует опрос для сбора наблюдений об интересующей области, а затем выполняет статистический анализ. В этом случае исследователи собирают наблюдения как курящих, так и некурящих, возможно, через когортное исследование , а затем ищут количество случаев рака легких в каждой группе. [40] Исследование случай-контроль — это еще один тип наблюдательного исследования, в котором приглашаются к участию люди с интересующим результатом (например, рак легких) и без него, и собираются их истории воздействия.

Типы данных

Были предприняты различные попытки создать таксономию уровней измерения . Психофизик Стэнли Смит Стивенс определил номинальную, порядковую, интервальную и шкалу отношений. Номинальные измерения не имеют осмысленного порядка рангов среди значений и допускают любое преобразование один к одному (инъективное). Порядковые измерения имеют неточные различия между последовательными значениями, но имеют осмысленный порядок этих значений и допускают любое преобразование, сохраняющее порядок. Интервальные измерения имеют осмысленные расстояния между определенными измерениями, но нулевое значение является произвольным (как в случае с измерениями долготы и температуры в градусах Цельсия или Фаренгейта ), и допускают любое линейное преобразование. Измерения отношений имеют как осмысленное нулевое значение, так и расстояния между различными определенными измерениями и допускают любое преобразование перемасштабирования.

Поскольку переменные, соответствующие только номинальным или порядковым измерениям, не могут быть разумно измерены численно, иногда их группируют вместе как категориальные переменные , тогда как измерения отношения и интервала группируют вместе как количественные переменные , которые могут быть как дискретными , так и непрерывными из-за их числовой природы. Такие различия часто можно свободно соотнести с типом данных в информатике, в том смысле, что дихотомические категориальные переменные могут быть представлены с типом данных Boolean , политомические категориальные переменные с произвольно назначенными целыми числами в интегральном типе данных , а непрерывные переменные с типом данных real, включающим арифметику с плавающей точкой . Но отображение типов данных информатики в статистические типы данных зависит от того, какая категоризация последних реализуется.

Были предложены и другие классификации. Например, Мостеллер и Тьюки (1977) [41] различали градации, ранги, подсчитанные дроби, подсчеты, суммы и балансы. Нелдер (1990) [42] описал непрерывные подсчеты, непрерывные отношения, подсчетные отношения и категориальные режимы данных. (См. также: Крисман (1998), [43] ван ден Берг (1991). [44] )

Вопрос о том, целесообразно ли применять различные виды статистических методов к данным, полученным из различных видов процедур измерения, осложняется проблемами, касающимися преобразования переменных и точной интерпретации исследовательских вопросов. «Отношение между данными и тем, что они описывают, просто отражает тот факт, что определенные виды статистических утверждений могут иметь значения истинности, которые не являются инвариантными при некоторых преобразованиях. Будет ли преобразование разумным для рассмотрения, зависит от вопроса, на который пытаешься ответить». [45] : 82 

Методы

Описательная статистика

Описательная статистика (в смысле исчисляемого существительного ) — это сводная статистика , которая количественно описывает или суммирует характеристики набора информации , [46] в то время как описательная статистика в смысле массового существительного — это процесс использования и анализа этих статистических данных. Описательная статистика отличается от выводной статистики (или индуктивной статистики) тем, что описательная статистика направлена ​​на суммирование выборки , а не на использование данных для изучения совокупности , которую, как предполагается, представляет выборка данных. [47]

Выводная статистика

Статистический вывод — это процесс использования анализа данных для выведения свойств базового распределения вероятностей . [48] Выводной статистический анализ выводит свойства совокупности , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбирается из более крупной совокупности. Выводную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из более крупной совокупности. [49]

Терминология и теория выводной статистики

Статистика, оценки и основные величины

Рассмотрим независимые одинаково распределенные (IID) случайные величины с заданным распределением вероятностей : стандартная теория статистического вывода и оценки определяет случайную выборку как случайный вектор , заданный вектором -столбцом этих IID-переменных. [50] Исследуемая популяция описывается распределением вероятностей, которое может иметь неизвестные параметры.

Статистика — это случайная величина, которая является функцией случайной выборки, но не функцией неизвестных параметров . Однако распределение вероятностей статистики может иметь неизвестные параметры. Рассмотрим теперь функцию неизвестного параметра: оценщик — это статистика, используемая для оценки такой функции. Обычно используемые оценщики включают выборочное среднее , несмещенную выборочную дисперсию и выборочную ковариацию .

Случайная величина, которая является функцией случайной выборки и неизвестного параметра, но распределение вероятностей которой не зависит от неизвестного параметра, называется опорной величиной или pivot. Широко используемые опорные величины включают z-счет , статистику хи-квадрат и t-значение Стьюдента .

Из двух оценок заданного параметра более эффективной считается та, у которой средняя квадратическая ошибка ниже . Кроме того, оценка называется несмещенной, если ее ожидаемое значение равно истинному значению неизвестного оцениваемого параметра, и асимптотически несмещенной, если ее ожидаемое значение сходится в пределе к истинному значению такого параметра.

Другие желательные свойства оценщиков включают: оценщики UMVUE , которые имеют наименьшую дисперсию для всех возможных значений оцениваемого параметра (это свойство обычно легче проверить, чем эффективность), и состоятельные оценщики , которые сходятся по вероятности к истинному значению такого параметра.

Это по-прежнему оставляет открытым вопрос о том, как получить оценки в данной ситуации и провести вычисления. Было предложено несколько методов: метод моментов , метод максимального правдоподобия , метод наименьших квадратов и более поздний метод оценки уравнений .

Нулевая гипотеза и альтернативная гипотеза

Интерпретация статистической информации часто может включать разработку нулевой гипотезы , которая обычно (но не обязательно) заключается в том, что между переменными не существует никакой связи или что с течением времени не произошло никаких изменений. [51] [52]

Лучшей иллюстрацией для новичка является затруднительное положение, с которым сталкивается уголовный процесс. Нулевая гипотеза, H 0 , утверждает, что подсудимый невиновен, тогда как альтернативная гипотеза, H 1 , утверждает, что подсудимый виновен. Обвинение выдвигается из-за подозрения в виновности. H 0 (статус-кво) противостоит H 1 и сохраняется, если H 1 не подкреплена доказательствами «вне разумного сомнения». Однако «неспособность отвергнуть H 0 » в этом случае не подразумевает невиновности, а лишь то, что доказательств было недостаточно для осуждения. Таким образом, присяжные не обязательно принимают H 0 , но не отвергают H 0 . Хотя нельзя «доказать» нулевую гипотезу, можно проверить, насколько она близка к истинности, с помощью теста мощности , который проверяет наличие ошибок типа II .

То, что статистики называют альтернативной гипотезой, — это просто гипотеза, которая противоречит нулевой гипотезе.

Ошибка

Исходя из нулевой гипотезы , можно выделить две основные категории ошибок:

  • Ошибки I типа , при которых нулевая гипотеза ложно отвергается, давая «ложноположительный результат».
  • Ошибки II типа , при которых нулевая гипотеза не отвергается и фактическое различие между популяциями не обнаруживается, что приводит к «ложноотрицательному результату».

Стандартное отклонение относится к степени, в которой отдельные наблюдения в выборке отличаются от центрального значения, например, от среднего значения выборки или совокупности, в то время как стандартная ошибка относится к оценке разницы между средним значением выборки и средним значением совокупности.

Статистическая ошибка — это величина, на которую наблюдение отличается от ожидаемого значения . Остаток — это величина, на которую наблюдение отличается от значения, которое оценщик ожидаемого значения предполагает для данной выборки (также называемой прогнозом).

Среднеквадратическая ошибка используется для получения эффективных оценок , широко используемого класса оценок. Среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.

Подгонка по методу наименьших квадратов: красным цветом обозначены подгоняемые точки, синим — подгоняемая линия.

Многие статистические методы стремятся минимизировать остаточную сумму квадратов , и они называются « методами наименьших квадратов » в отличие от наименьших абсолютных отклонений . Последний дает равный вес малым и большим ошибкам, в то время как первый дает больший вес большим ошибкам. Остаточная сумма квадратов также дифференцируема , что обеспечивает удобное свойство для выполнения регрессии . Наименьшие квадраты, применяемые к линейной регрессии, называются обычным методом наименьших квадратов , а наименьшие квадраты, применяемые к нелинейной регрессии, называются нелинейными наименьшими квадратами . Также в линейной регрессионной модели недетерминированная часть модели называется ошибкой, возмущением или, проще говоря, шумом. Как линейная регрессия, так и нелинейная регрессия рассматриваются в полиномиальном методе наименьших квадратов , который также описывает дисперсию в прогнозе зависимой переменной (ось y) как функцию независимой переменной (ось x) и отклонения (ошибки, шум, возмущения) от оцененной (подогнанной) кривой.

Процессы измерения, которые генерируют статистические данные, также подвержены ошибкам. Многие из этих ошибок классифицируются как случайные (шум) или систематические ( смещение ), но другие типы ошибок (например, промах, когда аналитик сообщает неверные единицы) также могут быть важными. Наличие отсутствующих данных или цензурирование может привести к смещенным оценкам , и были разработаны специальные методы для решения этих проблем. [53]

Интервальная оценка
Доверительные интервалы : красная линия — истинное значение среднего в этом примере, синие линии — случайные доверительные интервалы для 100 реализаций.

Большинство исследований выбирают только часть популяции, поэтому результаты не полностью представляют всю популяцию. Любые оценки, полученные из выборки, лишь приблизительно соответствуют значению популяции. Доверительные интервалы позволяют статистикам выразить, насколько близко оценка выборки соответствует истинному значению во всей популяции. Часто они выражаются как 95% доверительные интервалы. Формально 95% доверительный интервал для значения — это диапазон, в котором, если бы выборка и анализ были повторены при тех же условиях (что дало бы другой набор данных), интервал включал бы истинное (популяционное) значение в 95% всех возможных случаев. Это не означает , что вероятность того, что истинное значение находится в доверительном интервале, составляет 95%. С точки зрения частотника такое утверждение даже не имеет смысла, поскольку истинное значение не является случайной величиной . Либо истинное значение находится, либо не находится в пределах заданного интервала. Однако верно, что до того, как будут отобраны какие-либо данные и дан план построения доверительного интервала, вероятность того, что еще не рассчитанный интервал будет охватывать истинное значение, составляет 95%: на этом этапе пределы интервала являются еще не наблюдаемыми случайными величинами . Один из подходов, который действительно дает интервал, который можно интерпретировать как имеющий заданную вероятность содержания истинного значения, заключается в использовании достоверного интервала из байесовской статистики : этот подход зависит от другого способа интерпретации того, что подразумевается под «вероятностью» , то есть как байесовская вероятность .

В принципе доверительные интервалы могут быть симметричными или асимметричными. Интервал может быть асимметричным, поскольку он работает как нижняя или верхняя граница для параметра (левосторонний интервал или правосторонний интервал), но он также может быть асимметричным, поскольку двусторонний интервал построен с нарушением симметрии вокруг оценки. Иногда границы для доверительного интервала достигаются асимптотически, и они используются для аппроксимации истинных границ.

Значение

Статистика редко дает простой ответ типа «Да/Нет» на анализируемый вопрос. Интерпретация часто сводится к уровню статистической значимости, применяемому к числам, и часто относится к вероятности того, что значение точно отвергает нулевую гипотезу (иногда называемой p -значением ).

На этом графике черная линия представляет собой распределение вероятностей для тестовой статистики , критическая область — это набор значений справа от наблюдаемой точки данных (наблюдаемое значение тестовой статистики), а p-значение представлено зеленой областью.

Стандартный подход [50] заключается в проверке нулевой гипотезы против альтернативной гипотезы. Критическая область — это набор значений оценщика, который приводит к опровержению нулевой гипотезы. Вероятность ошибки типа I — это вероятность того, что оценщик принадлежит критической области при условии, что нулевая гипотеза верна ( статистическая значимость ), а вероятность ошибки типа II — это вероятность того, что оценщик не принадлежит критической области при условии, что альтернативная гипотеза верна. Статистическая мощность теста — это вероятность того, что он правильно отвергает нулевую гипотезу, когда нулевая гипотеза ложна.

Ссылка на статистическую значимость не обязательно означает, что общий результат является значимым в реальных условиях. Например, в крупном исследовании препарата может быть показано, что препарат имеет статистически значимый, но очень небольшой полезный эффект, так что препарат вряд ли ощутимо поможет пациенту.

Хотя в принципе приемлемый уровень статистической значимости может быть предметом обсуждения, уровень значимости — это наибольшее p-значение, которое позволяет тесту отвергнуть нулевую гипотезу. Этот тест логически эквивалентен утверждению, что p-значение — это вероятность, предполагая, что нулевая гипотеза верна, наблюдения результата, по крайней мере столь же экстремального, как и статистика теста . Следовательно, чем меньше уровень значимости, тем ниже вероятность совершения ошибки I типа.

С этой структурой обычно связаны некоторые проблемы (см. критику проверки гипотез ):

  • Разница, которая является статистически высокозначимой, все еще может не иметь практического значения, но можно правильно сформулировать тесты, чтобы учесть это. Один из ответов заключается в том, чтобы выйти за рамки сообщения только об уровне значимости и включить p -значение при сообщении о том, отклонена или принята гипотеза. Однако p-значение не указывает на размер или важность наблюдаемого эффекта и также может, по-видимому, преувеличивать важность незначительных различий в крупных исследованиях. Лучший и все более распространенный подход — сообщать доверительные интервалы . Хотя они производятся из тех же расчетов, что и тесты гипотез или p -значения, они описывают как размер эффекта, так и неопределенность, окружающую его.
  • Ошибка транспонированного условного предложения, также известная как ошибка прокурора : критика возникает из-за того, что подход к проверке гипотез заставляет отдавать предпочтение одной гипотезе ( нулевой гипотезе ), поскольку оценивается вероятность наблюдаемого результата при наличии нулевой гипотезы, а не вероятность нулевой гипотезы при наличии наблюдаемого результата. Альтернативой этому подходу является байесовский вывод , хотя он требует установления априорной вероятности . [54]
  • Отклонение нулевой гипотезы не означает автоматического доказательства альтернативной гипотезы.
  • Как и все в выводной статистике, она зависит от размера выборки, и поэтому при толстых хвостах p-значения могут быть серьезно неверно рассчитаны. [ необходимо разъяснение ]
Примеры

Вот некоторые известные статистические тесты и процедуры:

Исследовательский анализ данных

Исследовательский анализ данных ( EDA ) — это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием визуальных методов. Статистическая модель может использоваться или нет, но в первую очередь EDA предназначен для того, чтобы увидеть, что данные могут нам сказать за пределами формального моделирования или задачи проверки гипотез.

Неправильное использование

Неправильное использование статистики может привести к тонким, но серьезным ошибкам в описании и интерпретации — тонким в том смысле, что даже опытные профессионалы допускают такие ошибки, и серьезным в том смысле, что они могут привести к разрушительным ошибкам в принятии решений. Например, социальная политика, медицинская практика и надежность таких конструкций, как мосты, зависят от правильного использования статистики.

Даже при правильном применении статистических методов результаты могут быть сложными для интерпретации для тех, у кого нет опыта. Статистическая значимость тенденции в данных — которая измеряет степень, в которой тенденция может быть вызвана случайными вариациями в выборке — может согласовываться или не согласовываться с интуитивным ощущением ее значимости. Набор базовых статистических навыков (и скептицизма), необходимых людям для правильной работы с информацией в повседневной жизни, называется статистической грамотностью .

Существует общее мнение, что статистические знания слишком часто намеренно используются не по назначению , находя способы интерпретировать только те данные, которые выгодны презентатору. [55] Недоверие и непонимание статистики связано с цитатой: « Существует три вида лжи: ложь, наглая ложь и статистика ». Неправильное использование статистики может быть как непреднамеренным, так и преднамеренным, и в книге « Как лгать с помощью статистики » [55] Даррелла Хаффа излагается ряд соображений. В попытке пролить свет на использование и неправильное использование статистики проводятся обзоры статистических методов, используемых в определенных областях (например, Уорн, Лазо, Рамос и Риттер (2012)). [56]

Способы избежания неправильного использования статистики включают использование надлежащих диаграмм и избежание предвзятости . [57] Неправильное использование может произойти, когда выводы чрезмерно обобщаются и заявляются как репрезентативные для большего, чем они есть на самом деле, часто либо преднамеренно, либо неосознанно игнорируя смещение выборки. [58] Столбчатые диаграммы, возможно, являются самыми простыми для использования и понимания диаграммами, и их можно создавать как вручную, так и с помощью простых компьютерных программ. [57] Большинство людей не ищут предвзятости или ошибки, поэтому их не замечают. Таким образом, люди часто могут верить, что что-то является истинным, даже если это не очень хорошо представлено . [58] Чтобы сделать данные, собранные из статистики, правдоподобными и точными, взятая выборка должна быть репрезентативной для целого. [59] По словам Хаффа, «Надежность выборки может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма». [60]

Чтобы помочь в понимании статистики, Хафф предложил ряд вопросов, которые следует задавать в каждом случае: [55]

  • Кто так сказал? (У него/нее есть корыстные мотивы?)
  • Откуда он/она знает? (Есть ли у него/нее ресурсы, чтобы знать факты?)
  • Чего не хватает? (Дает ли он/она нам полную картину?)
  • Кто-то сменил тему? (Он/она предлагает нам правильный ответ на неправильную проблему?)
  • Имеет ли это смысл? (Является ли его/ее вывод логичным и соответствующим тому, что мы уже знаем?)

Неправильное толкование: корреляция

Проблема смешивающих переменных : X и Y могут быть коррелированы не потому, что между ними есть причинно-следственная связь, а потому, что обе они зависят от третьей переменной Z. Z называется смешивающим фактором .

Концепция корреляции особенно примечательна из-за потенциальной путаницы, которую она может вызвать. Статистический анализ набора данных часто показывает, что две переменные (свойства) рассматриваемой популяции имеют тенденцию меняться вместе, как если бы они были связаны. Например, исследование годового дохода, которое также рассматривает возраст смерти, может обнаружить, что бедные люди, как правило, имеют более короткую продолжительность жизни, чем богатые люди. Говорят, что эти две переменные коррелируют; однако они могут быть или не быть причиной друг друга. Явления корреляции могут быть вызваны третьим, ранее не рассмотренным явлением, называемым скрытой переменной или смешивающей переменной . По этой причине нет способа немедленно сделать вывод о существовании причинно-следственной связи между двумя переменными.

Приложения

Прикладная статистика, теоретическая статистика и математическая статистика

Прикладная статистика, иногда называемая статистической наукой, [61] включает в себя описательную статистику и применение выводной статистики. [62] [63] Теоретическая статистика касается логических аргументов, лежащих в основе обоснования подходов к статистическому выводу , а также охватывает математическую статистику . Математическая статистика включает в себя не только манипулирование распределениями вероятностей, необходимое для получения результатов, связанных с методами оценки и вывода, но также различные аспекты вычислительной статистики и планирования экспериментов .

Статистические консультанты могут помочь организациям и компаниям, у которых нет собственных специалистов, имеющих отношение к их конкретным вопросам.

Машинное обучение и интеллектуальный анализ данных

Модели машинного обучения — это статистические и вероятностные модели, которые фиксируют закономерности в данных с помощью вычислительных алгоритмов.

Статистика в академической среде

Статистика применима к широкому кругу академических дисциплин , включая естественные и социальные науки , государственное управление и бизнес. Бизнес-статистика применяет статистические методы в эконометрике , аудите , производстве и операциях, включая улучшение услуг и маркетинговые исследования. [64] Исследование двух журналов по тропической биологии показало, что 12 наиболее часто используемых статистических тестов: дисперсионный анализ (ANOVA), критерий хи-квадрат , t-критерий Стьюдента , линейная регрессия , коэффициент корреляции Пирсона , U-критерий Манна-Уитни , тест Краскела-Уоллиса , индекс разнообразия Шеннона , критерий размаха Тьюки , кластерный анализ , коэффициент ранговой корреляции Спирмена и анализ главных компонент . [65]

Типичный курс статистики охватывает описательную статистику, вероятность, биномиальное и нормальное распределение , проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию. [66] Современные фундаментальные статистические курсы для студентов бакалавриата сосредоточены на правильном выборе тестов, интерпретации результатов и использовании бесплатного статистического программного обеспечения . [65]

Статистические вычисления

gretl , пример статистического пакета с открытым исходным кодом

Быстрое и устойчивое увеличение вычислительной мощности, начиная со второй половины 20-го века, оказало существенное влияние на практику статистической науки. Ранние статистические модели почти всегда относились к классу линейных моделей , но мощные компьютеры в сочетании с подходящими численными алгоритмами вызвали повышенный интерес к нелинейным моделям (таким как нейронные сети ), а также к созданию новых типов, таких как обобщенные линейные модели и многоуровневые модели .

Увеличение вычислительной мощности также привело к росту популярности вычислительно интенсивных методов, основанных на повторной выборке , таких как тесты перестановки и бутстрап , в то время как такие методы, как выборка Гиббса, сделали использование байесовских моделей более осуществимым. Компьютерная революция имеет последствия для будущего статистики с новым акцентом на «экспериментальную» и «эмпирическую» статистику. В настоящее время доступно большое количество как общего, так и специального статистического программного обеспечения . Примерами доступного программного обеспечения, способного выполнять сложные статистические вычисления , являются такие программы, как Mathematica , SAS , SPSS и R.

Статистика бизнеса

В бизнесе «статистика» является широко используемым инструментом управления и поддержки принятия решений . Она особенно применяется в финансовом менеджменте , маркетинговом менеджменте , а также в управлении производством , услугами и операциями . [67] [68] Статистика также широко используется в управленческом учете и аудите . Дисциплина « Наука управления» формализует использование статистики и другой математики в бизнесе. ( Эконометрика — это применение статистических методов к экономическим данным с целью придания эмпирического содержания экономическим отношениям .)

Типичный курс «Бизнес-статистика» предназначен для студентов бизнес-специалистов и охватывает [69] описательную статистику ( сбор , описание, анализ и обобщение данных), вероятность (обычно биномиальное и нормальное распределения ), проверку гипотез и доверительных интервалов, линейную регрессию и корреляцию; (последующие) курсы могут включать прогнозирование , временные ряды , деревья решений , множественную линейную регрессию и другие темы из бизнес-аналитики в целом. Программы профессиональной сертификации , такие как CFA , часто включают темы по статистике.

Статистика, применяемая в математике или искусстве

Традиционно статистика занималась выводом выводов с использованием полустандартизированной методологии, которая была «требуемой к обучению» в большинстве наук. Эта традиция изменилась с использованием статистики в невыводимых контекстах. То, что когда-то считалось сухим предметом, принимаемым во многих областях как требование к получению степени, теперь рассматривается с энтузиазмом. [ по мнению кого? ] Первоначально высмеиваемое некоторыми математическими пуристами, теперь оно считается необходимой методологией в определенных областях.

  • В теории чисел диаграммы рассеяния данных, полученные с помощью функции распределения, можно преобразовать с помощью знакомых инструментов, используемых в статистике, для выявления базовых закономерностей, которые затем могут привести к гипотезам.
  • Прогностические методы статистики в прогнозировании, сочетающие теорию хаоса и фрактальную геометрию, могут быть использованы для создания видеоработ. [70]
  • Процессуальное искусство Джексона Поллока основывалось на художественных экспериментах, посредством которых художественно раскрывались глубинные распределения в природе. [71] С появлением компьютеров статистические методы стали применяться для формализации таких естественных процессов, обусловленных распределением, для создания и анализа движущегося видеоискусства. [ необходима цитата ]
  • Методы статистики могут использоваться предикативно в исполнительском искусстве , как в карточном фокусе, основанном на марковском процессе , который срабатывает лишь некоторое время, и случай которого можно предсказать с помощью статистической методологии.
  • Статистика может использоваться для предикативного создания искусства, как в статистической или стохастической музыке, изобретенной Яннисом Ксенакисом , где музыка специфична для исполнения. Хотя этот тип искусства не всегда получается так, как ожидается, он ведет себя предсказуемым и настраиваемым образом с использованием статистики.

Специализированные дисциплины

Статистические методы используются в широком спектре видов научных и социальных исследований, включая: биостатистику , вычислительную биологию , вычислительную социологию , сетевую биологию , социальные науки , социологию и социальные исследования . Некоторые области исследования используют прикладную статистику настолько широко, что у них есть специализированная терминология . Эти дисциплины включают:

Кроме того, существуют особые типы статистического анализа, которые также разработали свою собственную специализированную терминологию и методологию:

Статистика также является ключевым базовым инструментом в бизнесе и производстве. Она используется для понимания изменчивости измерительных систем, процессов управления (как в статистическом управлении процессами или SPC), для обобщения данных и принятия решений на основе данных.

Смотрите также

Основы и основные направления статистики

Ссылки

  1. ^
    • "статистика" . Оксфордский словарь английского языка (Электронная правка). Oxford University Press . (Требуется подписка или членство в участвующем учреждении.)
    • «Статистика». Digitales Wörterbuch der deutschen Sprache (на немецком языке). Берлин-Бранденбургская академия Wissenschaften. Август 2024.
  2. ^
    • «Статистика». Oxford Reference . Oxford University Press. 2008. ISBN 978-0-19-954145-4.
    • Ромейн, Ян-Виллем (2014). «Философия статистики». Стэнфордская энциклопедия философии .
    • «Статистика». Кембриджский словарь .
  3. ^ Додж, Ядола (2003). Оксфордский словарь статистических терминов . Oxford University Press. ISBN 0-19-920613-9.
  4. ^ ab Lund Research Ltd. "Описательная и инференциальная статистика". statistics.laerd.com. Архивировано из оригинала 2020-10-26 . Получено 2014-03-23 .
  5. ^ Моисей, Линкольн Э. (1986) Думайте и объясняйте с помощью статистики , Addison-Wesley, ISBN 978-0-201-15619-5 . стр. 1–3 
  6. ^ Хейс, Уильям Ли, (1973) Статистика для социальных наук , Холт, Райнхарт и Уинстон, стр. xii, ISBN 978-0-03-077945-9 
  7. ^ Мур, Дэвид (1992). «Преподавание статистики как достойного предмета». В Ф. Гордоне; С. Гордон (ред.). Статистика для XXI века . Вашингтон, округ Колумбия: Математическая ассоциация Америки. стр. 14–25. ISBN 978-0-88385-078-7.
  8. ^ Chance, Beth L. ; Rossman, Allan J. (2005). "Предисловие" (PDF) . Исследование статистических концепций, приложений и методов . Duxbury Press. ISBN 978-0-495-05064-3. Архивировано (PDF) из оригинала 2020-11-22 . Получено 2009-12-06 .
  9. ^ Лакшмикантам, Д.; Каннан, В. (2002). Справочник по стохастическому анализу и его приложениям . Нью-Йорк: М. Деккер. ISBN 0824706609.
  10. ^ Шервиш, Марк Дж. (1995). Теория статистики (исправленное 2-е издание). Нью-Йорк: Springer. ISBN 0387945466.
  11. ^ ab Broemeling, Lyle D. (1 ноября 2011 г.). «Отчет о раннем статистическом выводе в арабской криптологии». The American Statistician . 65 (4): 255–257. doi :10.1198/tas.2011.10191. S2CID  123537702.
  12. ^ Остасевич, Валенти (2014). «Зарождение статистической науки». Сленски Пшеглон Статистический . 12 (18): 76–77. дои : 10.15611/sps.2014.12.04 .
  13. ^ Бруно, Квентин (2022). Штаты и хозяева капитала: суверенное кредитование, старое и новое. Columbia University Press . ISBN 978-0231555647.
  14. ^ Уиллкокс, Уолтер (1938) «Основатель статистики». Обзор Международного статистического института 5(4): 321–328. JSTOR  1400906
  15. ^ Франклин, Джеймс (2002). Наука предположений . Балтимор: Тейлор и Фрэнсис. ISBN 978-0-8018-7109-2.
  16. ^
    • Grattan-Guinness, I., ред. (2005). Знаковые сочинения по западной математике 1640-1940 . Elsevier. стр. 88–103. doi :10.1016/b978-0-444-50871-3.x5080-3. ISBN 978-0-444-50871-3.
    • Бернулли, Якоб (2006) [1713]. Искусство догадок, вместе с письмом к другу о сетах в теннисе. Перевод Силлы, Э. Д. Издательство Университета Джонса Хопкинса. ISBN 978-0-8018-8235-7.
  17. ^ Лим, М. (2021). «Гаусс, наименьшие квадраты и пропавшая планета». Actuaries Digital . Получено 01.11.2022 .
  18. ^ Уокер, Хелен Мэри (1975). Исследования по истории статистического метода. Арно. ISBN 978-0405066283.
  19. ^ Гальтон, Ф. (1877). «Типичные законы наследственности». Nature . 15 (388): 492–553. Bibcode :1877Natur..15..492.. doi : 10.1038/015492a0 .
  20. ^ Стиглер, SM (1989). «Рассказ Фрэнсиса Гальтона об изобретении корреляции». Статистическая наука . 4 (2): 73–79. doi : 10.1214/ss/1177012580 .
  21. ^ Пирсон, К. (1900). «О критерии, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно обоснованно предположить, что она возникла из случайной выборки». Philosophical Magazine . Серия 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
  22. ^ "Карл Пирсон (1857–1936)". Департамент статистических наук, Университетский колледж Лондона . Архивировано из оригинала 2008-09-25.
  23. ^ Бокс, Дж. Ф. (февраль 1980 г.). «RA Fisher и планирование экспериментов, 1922–1926». The American Statistician . 34 (1): 1–7. doi :10.2307/2682986. JSTOR  2682986.
  24. ^ Йейтс, Ф. (июнь 1964 г.). «Сэр Рональд Фишер и планирование экспериментов». Биометрия . 20 (2): 307–321. doi :10.2307/2528399. JSTOR  2528399.
  25. ^ Стэнли, Джулиан К. (1966). «Влияние «Планирования экспериментов» Фишера на образовательные исследования тридцать лет спустя». Американский журнал образовательных исследований . 3 (3): 223–229. doi :10.3102/00028312003003223. JSTOR  1161806. S2CID  145725524.
  26. ^ Агрести, Алан; Хичкок, Дэвид Б. (2005). "Байесовский вывод для категориального анализа данных" (PDF) . Статистические методы и приложения . 14 (3): 298. doi :10.1007/s10260-005-0121-y. S2CID  18896230. Архивировано (PDF) из оригинала 2013-12-19 . Получено 2013-12-19 .
  27. Цитата из Оксфордского словаря английского языка: 1935 RA Fisher, The Design of Experiments ii. 19, «Мы можем говорить об этой гипотезе как о «нулевой гипотезе», а нулевая гипотеза никогда не доказывается и не устанавливается, но может быть опровергнута в ходе эксперимента».
  28. ^ Фишер 1971. Глава II: Принципы экспериментирования, проиллюстрированные психофизическим экспериментом, Раздел 8. Нулевая гипотеза.
  29. ^ Эдвардс, AWF (1998). «Естественный отбор и соотношение полов: источники Фишера». American Naturalist . 151 (6): 564–569. doi :10.1086/286141. PMID  18811377. S2CID  40540426.
  30. ^ Фишер, РА (1915) Эволюция сексуальных предпочтений. Обзор евгеники (7) 184:192
  31. ^ Фишер, РА (1999) [1930]. Генетическая теория естественного отбора . Oxford University Press. ISBN 0-19-850440-3.
  32. ^ Эдвардс, AWF (2000) Перспективы: анекдотические, исторические и критические комментарии по генетике. Генетическое общество Америки (154) 1419:1426
  33. ^ Андерссон, Мальте (1994). Половой отбор. Princeton University Press. ISBN 0-691-00057-3.
  34. ^ Андерссон, М. и Симмонс, Л. В. (2006) Половой отбор и выбор партнера. Тенденции, экология и эволюция (21) 296:302
  35. ^ Гайон, Дж. (2010) Половой отбор: еще один дарвиновский процесс. Comptes Rendus Biologies (333) 134:144
  36. ^ Нейман, Дж. (1934). «О двух различных аспектах репрезентативного метода: метод стратифицированной выборки и метод целенаправленного отбора». Журнал Королевского статистического общества . 97 (4): 557–625. doi :10.2307/2342192. JSTOR  2342192.
  37. ^ «Наука в сложном мире – Большие данные: возможность или угроза?». Институт Санта-Фе . 2 декабря 2013 г. Архивировано из оригинала 2016-05-30 . Получено 2014-10-13 .
  38. ^ Фридман, DA (2005) Статистические модели: теория и практика , Cambridge University Press. ISBN 978-0-521-67105-7 
  39. ^ Маккарни Р., Уорнер Дж., Илиффе С., ван Хаселен Р., Гриффин М., Фишер П. (2007). «Эффект Хоторна: рандомизированное контролируемое исследование». BMC Med Res Methodol . 7 (1): 30. doi : 10.1186/1471-2288-7-30 . PMC 1936999. PMID  17608932 . 
  40. ^ Ротман, Кеннет Дж.; Гринленд, Сандер; Лэш, Тимоти, ред. (2008). "7". Современная эпидемиология (3-е изд.). Липпинкотт Уильямс и Уилкинс. стр. 100. ISBN 978-0781755641.
  41. ^ Мостеллер, Ф .; Тьюки, Дж. В. (1977). Анализ данных и регрессия . Бостон: Addison-Wesley.
  42. ^ Nelder, JA (1990). Знания, необходимые для компьютеризации анализа и интерпретации статистической информации. В Expert systems and artificial intelligence: the need for information about data . Library Association Report, London, March, 23–27.
  43. ^ Крисман, Николас Р. (1998). «Переосмысление уровней измерения для картографии». Картография и географическая информатика . 25 (4): 231–242. Bibcode : 1998CGISy..25..231C. doi : 10.1559/152304098782383043.
  44. ^ ван ден Берг, Г. (1991). Выбор метода анализа . Лейден: DSWO Press
  45. ^ Hand, DJ (2004). Теория и практика измерения: мир через квантификацию. Лондон: Arnold.
  46. ^ Манн, Прем С. (1995). Вводная статистика (2-е изд.). Wiley. ISBN 0-471-31009-3.
  47. ^ "Описательная статистика | Исследовательские связи". www.researchconnections.org . Получено 2023-01-10 .
  48. ^ Аптон, Г., Кук, И. (2008) Оксфордский словарь статистики , OUP. ISBN 978-0-19-954145-4 . 
  49. ^ "Basic Inferential Statistics - Purdue OWL® - Purdue University". owl.purdue.edu . Получено 10.01.2023 .
  50. ^ ab Piazza Elio, Probabilità e Statistica, Esculapio 2007.
  51. ^ Эверитт, Брайан (1998). Кембриджский словарь статистики. Кембридж, Великобритания, Нью-Йорк: Cambridge University Press. ISBN 0521593468.
  52. ^ "Cohen (1994) The Earth Is Round (p < .05)". YourStatsGuru.com. Архивировано из оригинала 2015-09-05 . Получено 2015-07-20 .
  53. ^ Рубин, Дональд Б.; Литтл, Родерик JA, Статистический анализ с пропущенными данными, Нью-Йорк: Wiley 2002
  54. ^ Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327. PMID  16060722 . 
  55. ^ abc Хафф, Даррелл (1954) Как лгать с помощью статистики , WW Norton & Company, Inc. Нью-Йорк. ISBN 0-393-31072-8 
  56. ^ Уорн, Р. Лазо; Рамос, Т.; Риттер, Н. (2012). «Статистические методы, используемые в журналах по образованию одаренных детей, 2006–2010». Gifted Child Quarterly . 56 (3): 134–149. doi :10.1177/0016986212444122. S2CID  144168910.
  57. ^ ab Drennan, Robert D. (2008). "Статистика в археологии". В Pearsall, Deborah M. (ред.). Энциклопедия археологии . Elsevier Inc. стр. 2093–2100. ISBN 978-0-12-373962-9.
  58. ^ ab Cohen, Jerome B. (декабрь 1938 г.). «Неправильное использование статистики». Журнал Американской статистической ассоциации . 33 (204). JSTOR: 657–674. doi : 10.1080/01621459.1938.10502344.
  59. ^ Фройнд, Дж. Э. (1988). «Современная элементарная статистика». Credo Reference .
  60. ^ Хафф, Даррелл; Ирвинг Гейс (1954). Как лгать с помощью статистики . Нью-Йорк: Нортон. Надежность выборки может быть разрушена [предвзятостью]... позвольте себе некоторую степень скептицизма.
  61. ^ Nelder, John A. (1999). "From Statistics to Statistical Science" . Журнал Королевского статистического общества. Серия D (The Statistician) . 48 (2): 257–269. doi :10.1111/1467-9884.00187. ISSN  0039-0526. JSTOR  2681191. Архивировано из оригинала 2022-01-15 . Получено 2022-01-15 .
  62. ^ Николетсеас, ММ (2014) «Статистика: концепции и примеры». ISBN 978-1500815684 
  63. ^ Андерсон, DR; Суини, DJ; Уильямс, TA (1994) Введение в статистику: концепции и приложения , стр. 5–9. West Group. ISBN 978-0-314-03309-3 
  64. ^ "Journal of Business & Economic Statistics". Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 г. Получено 16 марта 2020 г.
  65. ^ ab Наталья Лоаиса Веласкес, Мария Исабель Гонсалес Лутц и Хулиан Монге-Нахера (2011). «Какую статистику следует изучить тропическим биологам?» (PDF) . Обзор тропической биологии . 59 (3): 983–992. PMID  22017105. Архивировано (PDF) из оригинала 19 октября 2020 г. Проверено 26 апреля 2020 г.
  66. ^ Пекоз, Эрол (2009). Руководство менеджера по статистике . Эрол Пекоз. ISBN 978-0979570438.
  67. ^ "Цели и сфера применения". Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 23 июня 2021 г. Получено 16 марта 2020 г.
  68. ^ "Journal of Business & Economic Statistics". Журнал деловой и экономической статистики . Тейлор и Фрэнсис. Архивировано из оригинала 27 июля 2020 г. Получено 16 марта 2020 г.
  69. ^ Доступны многочисленные тексты, отражающие масштаб и область применения дисциплины в деловом мире:
    • Шарп, Н. (2014). Бизнес-статистика , Пирсон. ISBN 978-0134705217 
    • Вегнер, Т. (2010). Прикладная бизнес-статистика: методы и приложения на основе Excel, Juta Academic. ISBN 0702172863 
    Два открытых учебника :
    • Холмс, Л., Илловски, Б., Дин, С. (2017). Вводная статистика бизнеса Архивировано 16.06.2021 на Wayback Machine
    • Ника, М. (2013). Принципы деловой статистики Архивировано 2021-05-18 в Wayback Machine
  70. ^ Клайн, Грейсен (2019). Непараметрические статистические методы с использованием R. EDTECH. ISBN 978-1-83947-325-8. OCLC  1132348139. Архивировано из оригинала 2022-05-15 . Получено 2021-09-16 .
  71. ^ Паласиос, Бернардо; Росарио, Альфонсо; Вильгельмус, Моника М.; Зетина, Сандра; Зенит, Роберто (2019-10-30). «Поллок избегал гидродинамической нестабильности, рисуя с помощью своей техники капель». PLOS ONE . 14 (10): e0223706. Bibcode : 2019PLoSO..1423706P. doi : 10.1371/journal.pone.0223706 . ISSN  1932-6203. PMC 6821064. PMID 31665191  . 

Дальнейшее чтение

  • Лидия Денворт, «Значительная проблема: Стандартные научные методы подвергаются критике. Изменится ли что-нибудь?», Scientific American , т. 321, № 4 (октябрь 2019 г.), стр. 62–67. «Использование значений p в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальных результатов способствовало возникновению иллюзии определенности и кризисам воспроизводимости во многих научных областях . Растет решимость реформировать статистический анализ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порогового значения для определения «значимых» результатов». (стр. 63.)
  • Барбара Илловски; Сьюзан Дин (2014). Вводная статистика. OpenStax CNX. ISBN 978-1938168208.
  • Стокбургер, Дэвид В. «Вводная статистика: концепции, модели и приложения». Университет штата Миссури (3-е веб-издание). Архивировано из оригинала 28 мая 2020 г.
  • Статистика OpenIntro, архив 2019-06-16 в Wayback Machine , 3-е издание, авторы Diez, Barr и Cetinkaya-Rundel
  • Стивен Джонс, 2010. Статистика в психологии: объяснения без уравнений. Palgrave Macmillan. ISBN 978-1137282392 . 
  • Коэн, Дж. (1990). «Чему я научился (пока)» (PDF) . Американский психолог . 45 (12): 1304–1312. doi :10.1037/0003-066x.45.12.1304. S2CID  7180431. Архивировано из оригинала (PDF) 18.10.2017.
  • Гигеренцер, Г. (2004). «Бездумная статистика». Журнал социально-экономической науки . 33 (5): 587–606. doi :10.1016/j.socec.2004.09.033.
  • Иоаннидис, JPA (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Medicine . 2 (4): 696–701. doi : 10.1371/journal.pmed.0040168 . PMC  1855693. PMID  17456002 .
  • (Электронная версия): TIBCO Software Inc. (2020). Учебник по науке о данных.
  • Онлайн-статистическое образование: интерактивный мультимедийный курс обучения. Разработано Университетом Райса (ведущий разработчик), Университетом Хьюстона Клир-Лейк, Университетом Тафтса и Национальным научным фондом.
  • Ресурсы статистических вычислений Калифорнийского университета в Лос-Анджелесе (архивировано 17 июля 2006 г.)
  • Философия статистики из Стэнфордской энциклопедии философии
Взято с "https://en.wikipedia.org/w/index.php?title=Статистика&oldid=1256466449"