Центральная тенденция

Статистическое значение, представляющее центр или среднее значение распределения.

В статистике центральная тенденция (или мера центральной тенденции ) — это центральное или типичное значение для распределения вероятностей . [1]

В разговорной речи меры центральной тенденции часто называют средними . Термин «центральная тенденция» появился в конце 1920-х годов. [2]

Наиболее распространенными мерами центральной тенденции являются среднее арифметическое , медиана и мода . Средняя тенденция может быть рассчитана либо для конечного набора значений, либо для теоретического распределения, такого как нормальное распределение . Иногда авторы используют центральную тенденцию для обозначения «тенденции количественных данных группироваться вокруг некоторого центрального значения». [2] [3]

Центральная тенденция распределения обычно противопоставляется его дисперсии или изменчивости ; дисперсия и центральная тенденция являются часто характеризуемыми свойствами распределений. Анализ может судить о том, имеют ли данные сильную или слабую центральную тенденцию на основе их дисперсии.

Меры

К одномерным данным можно применить следующее. В зависимости от обстоятельств может быть целесообразно преобразовать данные перед вычислением центральной тенденции. Примерами являются возведение значений в квадрат или взятие логарифмов. Уместно ли преобразование и каким оно должно быть, во многом зависит от анализируемых данных.

Среднее арифметическое или просто среднее
сумма всех измерений, деленная на количество наблюдений в наборе данных.
Медиана
среднее значение, которое отделяет верхнюю половину от нижней половины набора данных. Медиана и мода являются единственными мерами центральной тенденции, которые могут использоваться для порядковых данных , в которых значения ранжируются относительно друг друга, но не измеряются абсолютно.
Режим
наиболее частое значение в наборе данных. Это единственная центральная мера тенденции, которая может использоваться с номинальными данными , имеющими чисто качественные назначения категорий.
Обобщенное среднее
Обобщение пифагорейских средних , заданное показателем степени.
Геометрическое среднее
корень n-й степени из произведения значений данных, где их n . Эта мера действительна только для данных, которые измеряются по строго положительной шкале.
Гармоническое среднее
обратная величина среднего арифметического обратных величин значений данных. Эта мера действительна только для данных, которые измеряются либо по строго положительной, либо по строго отрицательной шкале.
Среднее арифметическое взвешенное
среднее арифметическое, включающее взвешивание определенных элементов данных.
Усеченное среднее или усеченное среднее
среднее арифметическое значений данных после того, как определенное количество или доля самых высоких и самых низких значений данных были отброшены.
Межквартильное среднее
усеченное среднее значение, рассчитанное на основе данных в пределах межквартильного размаха .
Средний диапазон
среднее арифметическое максимального и минимального значений набора данных.
Мидхинг
среднее арифметическое первого и третьего квартилей .
Среднее квазиарифметическое
Обобщение обобщенного среднего , заданное непрерывной инъективной функцией .
Тримеан
взвешенное арифметическое среднее медианы и двух квартилей.
Винсоризованное среднее
среднее арифметическое, в котором крайние значения заменяются значениями, более близкими к медиане.

Любое из вышеперечисленного может быть применено к каждому измерению многомерных данных, но результаты могут быть неинвариантными к вращениям многомерного пространства.

Геометрическая медиана
точка, минимизирующая сумму расстояний до набора точек выборки. Это то же самое, что и медиана при применении к одномерным данным, но это не то же самое, что взятие медианы каждого измерения независимо. Она не инвариантна к разному масштабированию различных измерений.
Среднеквадратичное (часто называемое средним квадратом )
полезно в инженерии, но не часто используется в статистике. Это связано с тем, что это не хороший индикатор центра распределения, когда распределение включает отрицательные значения.
Симплициальная глубина
вероятность того, что случайно выбранный симплекс с вершинами из заданного распределения будет содержать заданный центр
Медиана Тьюки
точка со свойством, что каждое полупространство, содержащее ее, также содержит много точек выборки

Решения вариационных задач

Несколько мер центральной тенденции можно охарактеризовать как решение вариационной проблемы в смысле исчисления вариаций , а именно минимизации вариации от центра. То есть, имея меру статистической дисперсии , запрашивается мера центральной тенденции, которая минимизирует вариацию: такая, что вариация от центра минимальна среди всех выборов центра. В шутке, «дисперсия предшествует местоположению». Эти меры изначально определены в одном измерении, но могут быть обобщены на несколько измерений. Этот центр может быть или не быть уникальным. В смысле пространств L p соответствие таково:

Л пдисперсияцентральная тенденция
Л 0коэффициент вариациирежим [а]
Л 1среднее абсолютное отклонениемедиана ( геометрическая медиана ) [б]
Л 2стандартное отклонениесреднее ( центроид ) [c]
Л максимальное отклонениесредний диапазон [d]

Связанные функции называются p -нормами : соответственно 0-"норма", 1-норма, 2-норма и ∞-норма. Функция, соответствующая пространству L 0, не является нормой, поэтому ее часто называют в кавычках: 0-"норма".

В уравнениях для заданного (конечного) набора данных X , рассматриваемого как вектор x = ( x 1 ,…, x n ) , дисперсия относительно точки c представляет собой «расстояние» от x до постоянного вектора c = ( c ,…, c ) в p -норме (нормализованной по числу точек n ):

ф п ( с ) = х с п := ( 1 н я = 1 н | х я с | п ) 1 / п {\displaystyle f_{p}(c)=\left\|\mathbf {x} -\mathbf {c} \right\|_{p}:={\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-c\right|^{p}{\bigg )}^{1/p}}

Для p = 0 и p = ∞ эти функции определяются путем взятия пределов, соответственно, при p → 0 и p → ∞ . Для p = 0 предельными значениями являются 0 0 = 0 и a 0 = 0 или a ≠ 0 , поэтому разность становится просто равенством, поэтому 0-норма учитывает количество неравных точек. Для p = ∞ наибольшее число доминирует, и, таким образом, ∞-норма является максимальной разностью.

Уникальность

Среднее значение ( центр L 2 ) и середина диапазона ( центр L ) являются уникальными (когда они существуют), тогда как медиана ( центр L 1 ) и мода ( центр L 0 ) в общем случае не являются уникальными. Это можно понять с точки зрения выпуклости связанных функций ( коэрцитивных функций ).

2-норма и ∞-норма строго выпуклы , и, таким образом (по выпуклой оптимизации), минимизатор уникален (если он существует) и существует для ограниченных распределений. Таким образом, стандартное отклонение относительно среднего значения ниже стандартного отклонения относительно любой другой точки, а максимальное отклонение относительно середины диапазона ниже максимального отклонения относительно любой другой точки.

1-норма не является строго выпуклой, тогда как строгая выпуклость необходима для обеспечения уникальности минимизатора. Соответственно, медиана (в этом смысле минимизации) в общем случае не является уникальной, и фактически любая точка между двумя центральными точками дискретного распределения минимизирует среднее абсолютное отклонение.

0-"норма" не выпукла (следовательно, не является нормой). Соответственно, мода не единственна – например, в равномерном распределении любая точка является модой.

Кластеризация

Вместо одной центральной точки можно запросить несколько точек, чтобы минимизировать отклонение от этих точек. Это приводит к кластерному анализу , где каждая точка в наборе данных кластеризуется с ближайшим «центром». Чаще всего использование 2-нормы обобщает среднее значение до кластеризации k -средних , тогда как использование 1-нормы обобщает (геометрическую) медиану до кластеризации k -медиан . Использование 0-нормы просто обобщает моду (наиболее распространенное значение) до использования k наиболее распространенных значений в качестве центров.

В отличие от одноцентровой статистики, многоцентровая кластеризация в общем случае не может быть вычислена в замкнутом выражении , а вместо этого должна быть вычислена или аппроксимирована итеративным методом ; одним из общих подходов являются алгоритмы максимизации ожидания .

Информационная геометрия

Понятие «центра» как минимизирующего вариацию может быть обобщено в информационной геометрии как распределение, которое минимизирует расхождение (обобщенное расстояние) от набора данных. Наиболее распространенным случаем является оценка максимального правдоподобия , где оценка максимального правдоподобия (MLE) максимизирует правдоподобие (минимизирует ожидаемый сюрприз ), что можно интерпретировать геометрически, используя энтропию для измерения вариации: MLE минимизирует перекрестную энтропию (эквивалентно, относительную энтропию , расхождение Кульбака–Лейблера).

Простой пример этого — центр номинальных данных: вместо использования моды (единственного однозначного «центра») часто используют эмпирическую меру ( частотное распределение, деленное на размер выборки ) в качестве «центра». Например, если даны бинарные данные , скажем, орел или решка, если набор данных состоит из 2 орлов и 1 решки, то мода — «орел», но эмпирическая мера — 2/3 орла, 1/3 решки, что минимизирует перекрестную энтропию (общую неожиданность) из набора данных. Эта перспектива также используется в регрессионном анализе , где наименьшие квадраты находят решение, которое минимизирует расстояния от него, и аналогично в логистической регрессии оценка максимального правдоподобия минимизирует неожиданность (информационное расстояние).

Отношения между средним значением, медианой и модой

Для унимодальных распределений известны и являются точными следующие границы: [4]

| θ μ | σ 3 , {\displaystyle {\frac {|\theta -\mu |}{\sigma }}\leq {\sqrt {3}},}
| ν μ | σ 0,6 , {\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq {\sqrt {0,6}},}
| θ ν | σ 3 , {\displaystyle {\frac {|\theta -\nu |}{\sigma }}\leq {\sqrt {3}},}

где μ — среднее значение, ν — медиана, θ — мода, а σ — стандартное отклонение.

Для каждого распределения, [5] [6]

| ν μ | σ 1. {\displaystyle {\frac {|\nu -\mu |}{\sigma }}\leq 1.}

Смотрите также

Примечания

  1. ^ В отличие от других мер, этот режим не требует какой-либо геометрии на множестве и, таким образом, применяется одинаково в одном измерении, нескольких измерениях или даже для категориальных переменных .
  2. ^ Медиана определяется только в одном измерении; геометрическая медиана является многомерным обобщением.
  3. ^ Среднее значение может быть определено одинаково как для векторов в нескольких измерениях, так и для скаляров в одном измерении; многомерную форму часто называют центроидом.
  4. ^ В многомерных измерениях средний диапазон можно определить по координатам (взять средний диапазон каждой координаты), хотя это не является общепринятым.

Ссылки

  1. ^ Weisberg HF (1992) Центральная тенденция и изменчивость , Серия статей Университета Сейджа по количественным приложениям в социальных науках, ISBN  0-8039-4007-6, стр. 2
  2. ^ ab Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics , OUP ISBN 978-0-19-954145-4 (статья для «центральной тенденции») 
  3. ^ Додж, И. (2003) Оксфордский словарь статистических терминов , OUP для Международного статистического института . ISBN 0-19-920613-9 (запись для «центральной тенденции») 
  4. ^ Джонсон Н. Л., Роджерс К. А. (1951) «Проблема моментов для унимодальных распределений». Annals of Mathematical Statistics , 22 (3) 433–439
  5. ^ Хотеллинг Х., Соломонс Л. М. (1932) Пределы меры асимметрии. Annals Math Stat 3, 141–114
  6. ^ Гарвер (1932) Относительно пределов меры асимметрии. Ann Math Stats 3(4) 141–142
Взято с "https://en.wikipedia.org/w/index.php?title=Central_tendency&oldid=1241129894"