Рейтинг (статистика)

Преобразование статистических данных в ранг

В статистике ранжирование — это преобразование данных , при котором числовые или порядковые значения заменяются их рангом при сортировке данных.

Например, если наблюдаются числовые данные 3.4, 5.1, 2.6, 7.3, то ранги этих элементов данных будут 2, 3, 1 и 4 соответственно.

В качестве другого примера порядковые данные «горячий», «холодный», «теплый» будут заменены на 3, 1, 2. В этих примерах ранги присваиваются значениям в порядке возрастания, хотя можно использовать и убывающие ранги.

Ранги связаны с индексированным списком порядковых статистик , который состоит из исходного набора данных, упорядоченного в порядке возрастания.

Использовать для тестирования

Некоторые виды статистических тестов используют вычисления, основанные на рангах. Примеры включают:

Распределение значений в порядке убывания ранга часто представляет интерес, когда значения сильно различаются по масштабу; это распределение ранг-размер (или распределение ранг-частота), например, для размеров городов или частот слов. Они часто следуют степенному закону .

Некоторые ранги могут иметь нецелые значения для связанных значений данных. Например, когда есть четное количество копий одного и того же значения данных, дробный статистический ранг связанных данных заканчивается на ½. Процентильный ранг — это еще один тип статистического ранжирования.

Вычисление

Microsoft Excel предоставляет две функции ранжирования: функцию Rank.EQ , которая присваивает рейтинги конкуренции ("1224"), и функцию Rank.AVG , которая присваивает дробные рейтинги ("1 2,5 2,5 4"). Функции имеют аргумент порядка [1] , который по умолчанию установлен на убывающий , т. е. наибольшее число будет иметь рейтинг 1. Это, как правило, нетипично для статистики, где рейтинг обычно идет в порядке возрастания, где наименьшее число имеет рейтинг 1.

Сравнение рейтингов

Ранговая корреляция может использоваться для сравнения двух рейтингов для одного и того же набора объектов. Например, коэффициент ранговой корреляции Спирмена полезен для измерения статистической зависимости между рейтингами спортсменов в двух турнирах. А коэффициент ранговой корреляции Кендалла — это другой подход. В качестве альтернативы, подходы, основанные на пересечении/перекрытии, предлагают дополнительную гибкость. Одним из примеров является подход «гипергеометрического перекрытия ранг–ранг» [2] , который разработан для сравнения рейтинга генов, находящихся «наверху» двух упорядоченных списков дифференциально экспрессируемых генов. Похожий подход используется в «перекрытии смещенного ранга (RBO)» [3] , который также реализует регулируемую вероятность p для настройки веса, назначенного на желаемой глубине ранжирования. Эти подходы имеют преимущества рассмотрения непересекающихся наборов , наборов разных размеров и верхнего веса (с учетом абсолютной позиции рейтинга, которая может игнорироваться в стандартных подходах невзвешенной ранговой корреляции).

Определение

Пусть будет набором случайных величин. Сортируя их по порядку, мы определили их порядковые статистики [4] Х 1 , . . Х н {\displaystyle X_{1},..X_{n}}

Х н , ( 1 ) . . . Х н , ( н ) {\displaystyle X_{n,(1)}\leq ...\leq X_{n,(n)}}

Если все значения уникальны, то ранг переменной number является единственным решением уравнения . При наличии связей мы можем использовать либо средний ранг (соответствующий «дробному рангу», упомянутому выше), определяемый как среднее значение всех индексов, таких что , либо верхний ранг (соответствующий «модифицированному рейтингу конкуренции» ), определяемый как . я {\displaystyle я} Р н , я {\displaystyle R_{n,i}} Х я = Х Н , ( Р н , я ) {\displaystyle X_{i}=X_{N,(R_{n,i})}} я {\displaystyle я} Х дж = Х Н , ( Р н , дж ) {\displaystyle X_{j}=X_{N,(R_{n,j})}} дж = 1 н 1 { Х дж Х я } {\displaystyle \sum _{j=1}^{n}1\{X_{j}\leq X_{i}\}}

Ссылки

  1. ^ "Справка Excel RANK.AVG". Поддержка Office . Microsoft . Получено 21 января 2021 г. .
  2. ^ Plaisier, Seema B.; Taschereau, Richard; Wong, Justin A.; Graeber, Thomas G. (сентябрь 2010 г.). «Гипергеометрическое перекрытие ранг–ранг: идентификация статистически значимого перекрытия между сигнатурами экспрессии генов». Nucleic Acids Research . 38 (17): e169. doi :10.1093/nar/gkq636. PMC 2943622 . PMID  20660011. 
  3. ^ Веббер, Уильям; Моффат, Алистер; Зобель, Джастин (ноябрь 2010 г.). «Мера сходства для неопределенных ранжирований». Труды ACM по информационным системам . 28 (4): 1–38. doi :10.1145/1852102.1852106. S2CID  16050561.
  4. ^ Ваарт, А.В. ван дер (1998). Асимптотическая статистика . Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 9780521784504.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Ranking_(statistics)&oldid=1240834157"