В теории вероятностей и статистике коэффициент вариации ( CV ), также известный как нормализованное среднеквадратичное отклонение (NRMSD) , процентное среднеквадратичное отклонение и относительное стандартное отклонение ( RSD ), является стандартизированной мерой дисперсии распределения вероятностей или частотного распределения . Он определяется как отношение стандартного отклонения к среднему значению (или его абсолютному значению , ) и часто выражается в процентах («%RSD»). CV или RSD широко используется в аналитической химии для выражения точности и повторяемости анализа . Он также широко используется в таких областях, как инженерия или физика, при проведении исследований по обеспечению качества и ANOVA gauge R&R , [ требуется ссылка ] экономистами и инвесторами в экономические модели , а также в психологии / нейробиологии .
Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , [1]
Он показывает степень изменчивости по отношению к среднему значению совокупности. Коэффициент вариации следует вычислять только для данных, измеренных по шкалам, которые имеют значимый ноль ( шкала отношений ) и, следовательно, допускают относительное сравнение двух измерений (т. е. деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных по интервальной шкале . [2] Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. д.) являются интервальными шкалами с произвольными нулями, поэтому вычисленный коэффициент вариации будет отличаться в зависимости от используемой шкалы. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии, и, таким образом, является шкалой отношений. Проще говоря, имеет смысл сказать, что 20 Кельвинов вдвое горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) можно измерить в градусах Кельвина, Цельсия или Фаренгейта, вычисленное значение применимо только к этой шкале. Для вычисления достоверного коэффициента изменчивости можно использовать только шкалу Кельвина.
Измерения, распределенные по логарифмически нормальному закону , демонстрируют стационарный CV; в отличие от этого, SD изменяется в зависимости от ожидаемого значения измерений.
Более надежным вариантом является квартиль коэффициента дисперсии , представляющий собой половину межквартильного размаха, деленную на среднее значение квартилей (срединный шарнир ) .
В большинстве случаев CV вычисляется для одной независимой переменной (например, одного фабричного продукта) с многочисленными, повторяющимися измерениями зависимой переменной (например, ошибки в процессе производства). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с редкими измерениями по каждому значению (например, диаграмма рассеяния), могут поддаваться вычислению одного CV с использованием подхода оценки максимального правдоподобия . [3]
В приведенных ниже примерах мы будем использовать значения, выбранные случайным образом из большей совокупности значений .
В этих примерах мы будем рассматривать приведенные значения как всю совокупность значений .
Если доступна только выборка данных из популяции, коэффициент вариации популяции можно оценить с помощью отношения стандартного отклонения выборки к среднему значению выборки :
Но эта оценка, когда применяется к выборке небольшого или среднего размера, имеет тенденцию быть слишком низкой: это смещенная оценка . Для нормально распределенных данных несмещенная оценка [4] для выборки размера n имеет вид:
Многие наборы данных следуют приблизительно логнормальному распределению. [5] В таких случаях более точная оценка, полученная на основе свойств логнормального распределения , [6] [7] [8] определяется как:
где — стандартное отклонение выборки данных после преобразования натурального логарифма . (В случае, если измерения регистрируются с использованием любого другого логарифмического основания b, их стандартное отклонение преобразуется в основание e с использованием , и формула для остается прежней. [9] ) Эту оценку иногда называют «геометрическим CV» (GCV) [10] [11] , чтобы отличить ее от простой оценки выше. Однако «геометрический коэффициент вариации» также был определен Кирквудом [12] как:
Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации в логнормальных данных, но это определение GCV не имеет теоретической основы в качестве оценки самого себя.
Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) это то, что наиболее полезно в контексте логарифмически нормально распределенных данных. При необходимости это можно вывести из оценки или GCV путем инвертирования соответствующей формулы.
Коэффициент вариации полезен, поскольку стандартное отклонение данных всегда должно пониматься в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы, в которой было проведено измерение, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами или сильно различающимися средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.
Коэффициент вариации также распространен в прикладных областях вероятностей, таких как теория восстановления , теория массового обслуживания и теория надежности . В этих областях экспоненциальное распределение часто важнее нормального распределения . Среднеквадратичное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV < 1 (например, распределение Эрланга ) считаются низкодисперсными, в то время как распределения с CV > 1 (например, гиперэкспоненциальное распределение ) считаются высокодисперсными [ требуется ссылка ] . Некоторые формулы в этих областях выражаются с использованием квадрата коэффициента вариации , часто сокращенно SCV. В моделировании вариацией CV является CV(RMSD). По сути, CV(RMSD) заменяет термин стандартного отклонения на среднеквадратичное отклонение (RMSD) . Хотя многие естественные процессы действительно демонстрируют корреляцию между средним значением и величиной вариации вокруг него, точные сенсорные устройства должны быть спроектированы таким образом, чтобы коэффициент вариации был близок к нулю, т. е. обеспечивал постоянную абсолютную погрешность во всем рабочем диапазоне.
В актуарной науке CV известен как унифицированный риск . [13]
В промышленной обработке твердых веществ CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, была ли достигнута достаточная степень смешивания. [14]
В гидродинамике CV , также называемый процентом RMS , %RMS , %RMS однородностью или скоростью RMS , является полезным определением однородности потока для промышленных процессов. Этот термин широко используется при проектировании оборудования для контроля загрязнения, такого как электрофильтры (ESP), [ 15] селективное каталитическое восстановление (SCR), скрубберы и аналогичные устройства. Институт компаний по производству чистого воздуха (ICAC) ссылается на среднеквадратичное отклонение скорости при проектировании тканевых фильтров (документ ICAC F-7). [16] Руководящий принцип заключается в том, что многие из этих устройств контроля загрязнения требуют «равномерного потока», входящего и проходящего через зону контроля. Это может быть связано с однородностью профиля скорости, распределением температуры, видами газа (такими как аммиак для SCR или впрыск активированного угля для поглощения ртути) и другими параметрами, связанными с потоком. Процент среднеквадратичного значения также используется для оценки равномерности потока в системах сгорания, системах отопления, вентиляции и кондиционирования воздуха, воздуховодах, входных отверстиях вентиляторов и фильтров, вентиляционных установках и т. д., где на производительность оборудования влияет распределение входящего потока.
Меры CV часто используются в качестве контроля качества для количественных лабораторных анализов . Хотя можно предположить, что внутрианализные и межанализные CV рассчитываются путем простого усреднения значений CV по значениям CV для нескольких образцов в одном анализе или путем усреднения нескольких оценок межанализного CV, было высказано предположение, что эти методы неверны и что требуется более сложный вычислительный процесс. [17] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в зависимости от образца − в этом случае предполагается, что стандартная ошибка в процентах будет лучше. [18] Если измерения не имеют естественной нулевой точки, то CV не является допустимым измерением, и рекомендуются альтернативные меры, такие как коэффициент внутриклассовой корреляции . [19]
Коэффициент вариации удовлетворяет требованиям, предъявляемым к мере экономического неравенства . [20] [21] [22] Если x (с записями x i ) представляет собой список значений экономического показателя (например, богатства), где x i является богатством агента i , то выполняются следующие требования:
c v предполагает минимальное значение, равное нулю, для полного равенства (все x i равны). [22] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать, чтобы он находился в фиксированном диапазоне (например, как коэффициент Джини , который ограничен пределами от 0 до 1). [22] Однако он более поддается математическому анализу, чем коэффициент Джини.
Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. [23] [24] Изменение CV интерпретировалось как указание на различные культурные контексты передачи для принятия новых технологий. [25] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. [26] Археологи также используют несколько методов для сравнения значений CV, например, тест модифицированного знакового отношения правдоподобия (MSLR) на равенство CV. [27] [28]
Сравнение коэффициентов вариации между параметрами с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе единицы относительные, где кельвин и шкала Ранкина являются их связанными абсолютными значениями):
Цельсий: [0, 10, 20, 30, 40]
Фаренгейт: [32, 50, 68, 86, 104]
Стандартные отклонения выборки составляют 15,81 и 28,46 соответственно. CV первого набора составляет 15,81/20 = 79%. Для второго набора (которые представляют собой те же температуры) он составляет 28,46/68 = 42%.
Если, например, наборы данных представляют собой показания температуры с двух разных датчиков (датчик Цельсия и датчик Фаренгейта) и вы хотите узнать, какой датчик лучше, выбрав тот, у которого наименьшая дисперсия, то вы будете введены в заблуждение, если используете CV. Проблема здесь в том, что вы разделили на относительное значение, а не на абсолютное.
Сравниваем тот же набор данных, теперь в абсолютных единицах:
Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]
Ранкин: [491,67, 509,67, 527,67, 545,67, 563,67]
Стандартные отклонения выборки по-прежнему равны 15,81 и 28,46 соответственно, поскольку стандартное отклонение не зависит от постоянного смещения. Однако коэффициенты вариации теперь оба равны 5,39%.
Математически говоря, коэффициент вариации не является полностью линейным. То есть, для случайной величины коэффициент вариации равен коэффициенту вариации только когда . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только с помощью линейного преобразования вида с , тогда как градусы Кельвина можно преобразовать в градусы Ранкинса с помощью преобразования вида .
При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с незначительной частотой, распределение вероятностей коэффициента вариации для выборки размера iid нормальных случайных величин, как показали Хендрикс и Роби, выглядит следующим образом [29]
где символ указывает, что суммирование производится только по четным значениям , т.е. если нечетно, то суммирование производится по четным значениям , а если четно, то суммирование производится только по нечетным значениям .
Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации в нормально распределенных данных часто основан на приближении хи-квадрат Маккея для коэффициента вариации. [30] [31] [32] [33] [34] [35] Методы для
Лю (2012) рассматривает методы построения доверительного интервала для коэффициента вариации. [36] В частности, Леманн (1986) вывел выборочное распределение для коэффициента вариации, используя нецентральное t-распределение, чтобы дать точный метод построения доверительного интервала. [37]
Стандартизированные моменты — это похожие отношения, где — момент k относительно среднего, которые также безразмерны и масштабно инвариантны. Отношение дисперсии к среднему , , — это еще одно похожее отношение, но оно не безразмерно и, следовательно, не масштабно инвариантно. См. Нормализация (статистика) для получения дополнительных отношений.
В обработке сигналов , в частности при обработке изображений , обратное отношение (или его квадрат) называется отношением сигнал/шум вообще и отношением сигнал/шум (визуализации) в частности.
Другие связанные коэффициенты включают: