В статистике коэффициент фи (или среднеквадратичный коэффициент сопряженности , обозначается как φ или r φ ) является мерой связи для двух двоичных переменных .
В машинном обучении он известен как коэффициент корреляции Мэтьюза (MCC) и используется как мера качества бинарных (двухклассовых) классификаций , введенных биохимиком Брайаном У. Мэтьюзом в 1975 году. [1]
Введенный Карлом Пирсоном [ 2] и также известный как коэффициент Юла-фи после его введения Удни Юлом в 1912 году [3], этот показатель по своей интерпретации аналогичен коэффициенту корреляции Пирсона .
Коэффициент корреляции Пирсона , рассчитанный для двух двоичных переменных, вернет коэффициент фи. [4]
Две бинарные переменные считаются положительно связанными, если большая часть данных попадает на диагональные ячейки. Напротив, две бинарные переменные считаются отрицательно связанными, если большая часть данных попадает за пределы диагонали.
Если у нас есть таблица 2×2 для двух случайных величин x и y
у = 1 | у = 0 | общий | |
х = 1 | |||
х = 0 | |||
общий |
где n 11 , n 10 , n 01 , n 00 , являются неотрицательными числами количества наблюдений, которые в сумме дают n , общее количество наблюдений. Коэффициент фи, описывающий связь x и y, равен
Фи связан с точечно-бисериальным коэффициентом корреляции и d Коэна и оценивает степень взаимосвязи между двумя переменными (2×2). [5]
Коэффициент фи также можно выразить, используя только , , , и , как
Хотя вычислительно коэффициент корреляции Пирсона сводится к коэффициенту фи в случае 2×2, в общем случае они не одинаковы. Коэффициент корреляции Пирсона варьируется от −1 до +1, где ±1 указывает на полное согласие или несогласие, а 0 указывает на отсутствие связи. Коэффициент фи имеет максимальное значение, которое определяется распределением двух переменных, если одна или обе переменные могут принимать более двух значений. [ необходимо дополнительное объяснение ] Подробное обсуждение см. в Davenport and El-Sanhury (1991) [6] .
MCC определяется идентично коэффициенту фи, введенному Карлом Пирсоном [2] [ 7], также известному как коэффициент фи Юла, введенный Удни Юлом в 1912 году [3]. Несмотря на эти предшественники, которые появились за несколько десятилетий до использования Мэтьюзом, термин MCC широко используется в области биоинформатики и машинного обучения.
Коэффициент учитывает истинные и ложные положительные и отрицательные результаты и обычно рассматривается как сбалансированная мера, которую можно использовать, даже если классы имеют очень разные размеры. [8] MCC по сути является коэффициентом корреляции между наблюдаемыми и предсказанными бинарными классификациями; он возвращает значение от −1 до +1. Коэффициент +1 представляет собой идеальное предсказание, 0 не лучше случайного предсказания, а −1 указывает на полное несоответствие между предсказанием и наблюдением. Однако, если MCC не равен ни −1, ни 0, ни +1, это не является надежным показателем того, насколько предиктор похож на случайное угадывание, поскольку MCC зависит от набора данных. [9] MCC тесно связан со статистикой хи-квадрат для таблицы сопряженности 2×2
где n — общее количество наблюдений.
Хотя не существует идеального способа описания матрицы путаницы истинных и ложных положительных и отрицательных результатов одним числом, коэффициент корреляции Мэтьюса обычно считается одной из лучших таких мер. [10] Другие меры, такие как доля правильных предсказаний (также называемая точностью ), бесполезны, когда два класса имеют очень разные размеры. Например, назначение каждого объекта большему набору обеспечивает высокую долю правильных предсказаний, но, как правило, не является полезной классификацией.
MCC можно рассчитать непосредственно из матрицы неточностей, используя формулу:
В этом уравнении TP — это число истинно положительных результатов , TN — число истинно отрицательных результатов , FP — число ложно положительных результатов и FN — число ложно отрицательных результатов . Если ровно одна из четырех сумм в знаменателе равна нулю, знаменатель можно произвольно установить равным единице; это приводит к нулевому коэффициенту корреляции Мэтьюза, который, как можно показать, является правильным предельным значением. В случае, если две или более сумм равны нулю (например, обе метки и предсказания модели все положительные или отрицательные), предела не существует.
MCC можно рассчитать по формуле:
с использованием положительной прогностической ценности, истинно положительной частоты, истинно отрицательной частоты, отрицательной прогностической ценности, частоты ложных открытий, ложноотрицательной частоты, ложноположительной частоты и частоты ложного пропуска.
Первоначальная формула, предложенная Мэтьюсом, была следующей: [1]
Это равно формуле, приведенной выше. Как коэффициент корреляции , коэффициент корреляции Мэтьюса является геометрическим средним коэффициентов регрессии задачи и ее дуальной . Компонентными коэффициентами регрессии коэффициента корреляции Мэтьюса являются Markedness (Δp) и статистика J Youden's ( Informedness или Δp'). [10] [11] Markedness и Informedness соответствуют различным направлениям потока информации и обобщают статистику J Youden's , статистику p, в то время как их геометрическое среднее обобщает коэффициент корреляции Мэтьюса на более чем два класса. [10]
Некоторые ученые утверждают, что коэффициент корреляции Мэтьюза является наиболее информативным единичным показателем для определения качества предсказания бинарного классификатора в контексте матрицы путаницы. [12] [13]
Дан выбор из 12 фотографий, 8 из которых с кошками и 4 с собаками, где кошки относятся к классу 1, а собаки — к классу 0.
Предположим, что классификатор, который различает кошек и собак, обучен, и мы берем 12 фотографий и пропускаем их через классификатор. Классификатор делает 9 точных предсказаний и пропускает 3: 2 кошки ошибочно предсказаны как собаки (первые 2 предсказания) и 1 собака ошибочно предсказана как кошка (последнее предсказание).
С помощью этих двух маркированных наборов (фактического и прогнозируемого) мы можем создать матрицу путаницы, которая обобщит результаты тестирования классификатора:
Предсказанный класс Фактический класс | Кот | Собака |
---|---|---|
Кот | 6 | 2 |
Собака | 1 | 3 |
В этой матрице путаницы из 8 изображений кошек система определила, что 2 — это собаки, а из 4 изображений собак она предсказала, что 1 — это кошка. Все правильные прогнозы расположены по диагонали таблицы (выделены жирным шрифтом), поэтому легко визуально проверить таблицу на наличие ошибок прогнозирования, поскольку они будут представлены значениями за пределами диагонали.
В абстрактном смысле матрица путаницы выглядит следующим образом:
Предсказанный класс Фактический класс | П | Н |
---|---|---|
П | ТП | ФН |
Н | ФП | ТН |
где P = Положительный; N = Отрицательный; TP = Истинно положительный; FP = Ложно положительный; TN = Истинно отрицательный; FN = Ложно отрицательный.
Подставляем числа из формулы:
Давайте определим эксперимент из P положительных случаев и N отрицательных случаев для некоторого условия. Четыре результата можно сформулировать в виде таблицы сопряженности 2×2 или матрицы путаницы следующим образом:
Прогнозируемое состояние | Источники: [14] [15] [16] [17] [18] [19] [20] [21] | ||||
Общая численность населения = P + N | Прогнозируемый положительный (ПП) | Прогнозируемый отрицательный (PN) | Информированность , букмекерская информированность (БМ) = TPR + TNR − 1 | Порог распространенности (PT) = √ TPR × FPR - FPR/ТПР - ФПР | |
Фактическое состояние | Положительный (P) [a] | Истинно положительный (TP), удар [b] | Ложноотрицательный результат (ЛО), промах, недооценка | Истинно положительный процент (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, процент попаданий, мощность = ТП/П = 1 − ФНР | Ложноотрицательный коэффициент (ЛКО), коэффициент ошибок типа II [c] = ФН/П = 1 − ТПР |
Отрицательно (Н) [г] | Ложноположительный результат (ЛП), ложная тревога, переоценка | Истинно отрицательный (TN), правильное отклонение [e] | Коэффициент ложных срабатываний (FPR), вероятность ложной тревоги, ошибка типа I [f] = ФП/Н = 1 − ТНР | Истинно отрицательный показатель (TNR), специфичность (SPC), селективность = ТН/Н = 1 − ФПР | |
Распространенность = П/П + Н | Положительная прогностическая ценность (PPV), точность = ТП/ПП = 1 − ФДР | Коэффициент ложного пропуска (FOR) = ФН/ПН = 1 − ЧПС | Положительное отношение правдоподобия (LR+) = ТПР/ФПР | Отрицательное отношение правдоподобия (LR−) = ФНР/ТНР | |
Точность (ACC) = ТП + ТН/П + Н | Коэффициент ложных срабатываний (FDR) = ФП/ПП = 1 − ППЦ | Отрицательная прогностическая ценность (NPV) = ТН/ПН = 1 − ДЛЯ | Маркированность (МК), дельтаП (Δp) = PPV + NPV − 1 | Диагностическое отношение шансов (DOR) = ЛР+/ЛР− | |
Сбалансированная точность (BA) = ТПР + ТНР/2 | F 1 оценка = 2 PPV × TPR/ППВ + ТПР = 2 ТП/2 ТП + ФП + ФН | Индекс Фаулкса–Мэллоуза (FM) = √ PPV × TPR | Коэффициент корреляции Мэтьюса (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Оценка угрозы (TS), индекс критического успеха (CSI), индекс Жаккара = ТП/ТП + ФН + ФП |
Коэффициент корреляции Мэтьюса был обобщен на случай нескольких классов. Обобщение, называемое статистикой (для K различных классов), было определено в терминах матрицы путаницы [22] . [23]
Если меток больше двух, MCC больше не будет находиться в диапазоне от −1 до +1. Вместо этого минимальное значение будет находиться в диапазоне от −1 до 0 в зависимости от истинного распределения. Максимальное значение всегда равно +1.
Эту формулу можно легче понять, определив промежуточные переменные: [24]
Предсказанный класс Фактический класс | Кот | Собака | Сумма | |
---|---|---|---|---|
Кот | 6 | 2 | 8 | |
Собака | 1 | 3 | 4 | |
Сумма | 7 | 5 | 12 |
Используя приведенную выше формулу для вычисления меры MCC для примера с собакой и кошкой, рассмотренного выше, где матрица путаницы рассматривается как пример 2 × Multiclass:
Альтернативное обобщение коэффициента корреляции Мэтьюза на более чем два класса было дано Пауэрсом [10] путем определения корреляции как геометрического среднего значения информированности и маркированности .
Несколько обобщений коэффициента корреляции Мэтьюза на более чем два класса, а также новые многомерные метрики корреляции для многомерной классификации были представлены П. Стоикой и П. Бабу [25] .
Как объяснил Давиде Чикко в своей статье «Десять быстрых советов по машинному обучению в вычислительной биологии » [12] ( BioData Mining , 2017) и «Преимущества коэффициента корреляции Мэтьюза (MCC) по сравнению с оценкой F1 и точностью при оценке бинарной классификации» [26] ( BMC Genomics , 2020), коэффициент корреляции Мэтьюза более информативен, чем оценка F1 и точность при оценке задач бинарной классификации, поскольку он учитывает соотношения баланса четырех категорий матрицы путаницы (истинно положительные, истинно отрицательные, ложно положительные, ложно отрицательные). [12] [26]
В предыдущей статье поясняется, что касается совета 8 : [ излишняя цитата ]
Чтобы получить общее представление о своем прогнозе, вы решаете воспользоваться общими статистическими показателями, такими как точность и показатель F1.
(Уравнение 1, точность: наихудшее значение = 0; наилучшее значение = 1)
(Уравнение 2, оценка F1: худшее значение = 0; наилучшее значение = 1)
Однако даже если точность и оценка F1 широко используются в статистике, оба они могут вводить в заблуждение, поскольку они не в полной мере учитывают размер четырех классов матрицы неточностей при вычислении окончательной оценки.
Предположим, например, что у вас есть очень несбалансированный набор проверки, состоящий из 100 элементов, 95 из которых являются положительными элементами, и только 5 являются отрицательными элементами (как объяснено в Совете 5). И предположим также, что вы допустили некоторые ошибки при проектировании и обучении вашего классификатора машинного обучения, и теперь у вас есть алгоритм, который всегда предсказывает положительное. Представьте, что вы не знаете об этой проблеме.
Таким образом, применяя ваш единственный положительный предиктор к вашему несбалансированному проверочному набору, вы получаете значения для категорий матрицы путаницы:
- TP = 95, FP = 5; TN = 0, FN = 0.
Эти значения приводят к следующим показателям производительности: точность = 95% и оценка F1 = 97,44%. Прочитав эти сверхоптимистичные оценки, вы будете очень довольны и подумаете, что ваш алгоритм машинного обучения отлично справляется. Очевидно, вы на неправильном пути.
Напротив, чтобы избежать этих опасных вводящих в заблуждение иллюзий, есть еще один показатель эффективности, который вы можете использовать: коэффициент корреляции Мэтьюза [40] (MCC).
(Уравнение 3, MCC: наихудшее значение = −1; наилучшее значение = +1).
Учитывая долю каждого класса матрицы неточностей в формуле, ее оценка будет высокой только в том случае, если ваш классификатор хорошо справляется как с отрицательными, так и с положительными элементами.
В приведенном выше примере оценка MCC будет неопределенной (поскольку TN и FN будут равны 0, следовательно, знаменатель уравнения 3 будет равен 0). Проверяя это значение вместо точности и оценки F1, вы сможете заметить, что ваш классификатор движется в неправильном направлении, и вы поймете, что есть проблемы, которые следует решить, прежде чем продолжать.
Рассмотрим другой пример. Вы провели классификацию на том же наборе данных, что привело к следующим значениям для категорий матрицы путаницы:
- TP = 90, FP = 4; TN = 1, FN = 5.
В этом примере классификатор хорошо справился с классификацией положительных случаев, но не смог правильно распознать отрицательные элементы данных. Опять же, результирующие баллы F1 и баллы точности будут чрезвычайно высокими: точность = 91%, а баллы F1 = 95,24%. Аналогично предыдущему случаю, если бы исследователь проанализировал только эти два показателя баллов, не принимая во внимание MCC, он бы ошибочно подумал, что алгоритм достаточно хорошо справляется со своей задачей, и у него возникла бы иллюзия успеха.
С другой стороны, проверка коэффициента корреляции Мэтьюса снова будет иметь решающее значение. В этом примере значение MCC будет равно 0,14 (уравнение 3), что указывает на то, что алгоритм работает аналогично случайному угадыванию. Действуя как сигнал тревоги, MCC сможет сообщить специалисту по интеллектуальному анализу данных, что статистическая модель работает плохо.
По этим причинам мы настоятельно рекомендуем оценивать эффективность каждого теста с помощью коэффициента корреляции Мэтьюза (MCC), а не точности и показателя F1 для любой задачи бинарной классификации.
— Давиде Чикко, Десять быстрых советов по машинному обучению в вычислительной биологии [12]
Отрывок Чикко можно интерпретировать как одобрение оценки MCC в случаях с несбалансированными наборами данных. Однако это оспаривается; в частности, Чжу (2020) предлагает сильное опровержение. [27]
Обратите внимание, что оценка F1 зависит от того, какой класс определен как положительный класс. В первом примере выше оценка F1 высока, поскольку класс большинства определен как положительный класс. Инвертирование положительных и отрицательных классов приводит к следующей матрице путаницы:
Это дает оценку F1 = 0%.
MCC не зависит от того, какой класс является положительным, что имеет преимущество перед оценкой F1, поскольку позволяет избежать неправильного определения положительного класса.