В статистике ранжирование — это преобразование данных , при котором числовые или порядковые значения заменяются их рангом при сортировке данных.
Например, если наблюдаются числовые данные 3.4, 5.1, 2.6, 7.3, то ранги этих элементов данных будут 2, 3, 1 и 4 соответственно.
В качестве другого примера порядковые данные «горячий», «холодный», «теплый» будут заменены на 3, 1, 2. В этих примерах ранги присваиваются значениям в порядке возрастания, хотя можно использовать и убывающие ранги.
Ранги связаны с индексированным списком порядковых статистик , который состоит из исходного набора данных, упорядоченного в порядке возрастания.
Некоторые виды статистических тестов используют вычисления, основанные на рангах. Примеры включают:
Распределение значений в порядке убывания ранга часто представляет интерес, когда значения сильно различаются по масштабу; это распределение ранг-размер (или распределение ранг-частота), например, для размеров городов или частот слов. Они часто следуют степенному закону .
Некоторые ранги могут иметь нецелые значения для связанных значений данных. Например, когда есть четное количество копий одного и того же значения данных, дробный статистический ранг связанных данных заканчивается на ½. Процентильный ранг — это еще один тип статистического ранжирования.
Microsoft Excel предоставляет две функции ранжирования: функцию Rank.EQ , которая присваивает рейтинги конкуренции ("1224"), и функцию Rank.AVG , которая присваивает дробные рейтинги ("1 2,5 2,5 4"). Функции имеют аргумент порядка [1] , который по умолчанию установлен на убывающий , т. е. наибольшее число будет иметь рейтинг 1. Это, как правило, нетипично для статистики, где рейтинг обычно идет в порядке возрастания, где наименьшее число имеет рейтинг 1.
Ранговая корреляция может использоваться для сравнения двух рейтингов для одного и того же набора объектов. Например, коэффициент ранговой корреляции Спирмена полезен для измерения статистической зависимости между рейтингами спортсменов в двух турнирах. А коэффициент ранговой корреляции Кендалла — это другой подход. В качестве альтернативы, подходы, основанные на пересечении/перекрытии, предлагают дополнительную гибкость. Одним из примеров является подход «гипергеометрического перекрытия ранг–ранг» [2] , который разработан для сравнения рейтинга генов, находящихся «наверху» двух упорядоченных списков дифференциально экспрессируемых генов. Похожий подход используется в «перекрытии смещенного ранга (RBO)» [3] , который также реализует регулируемую вероятность p для настройки веса, назначенного на желаемой глубине ранжирования. Эти подходы имеют преимущества рассмотрения непересекающихся наборов , наборов разных размеров и верхнего веса (с учетом абсолютной позиции рейтинга, которая может игнорироваться в стандартных подходах невзвешенной ранговой корреляции).
Пусть будет набором случайных величин. Сортируя их по порядку, мы определили их порядковые статистики [4]
Если все значения уникальны, то ранг переменной number является единственным решением уравнения . При наличии связей мы можем использовать либо средний ранг (соответствующий «дробному рангу», упомянутому выше), определяемый как среднее значение всех индексов, таких что , либо верхний ранг (соответствующий «модифицированному рейтингу конкуренции» ), определяемый как .