В статистическом анализе систем бинарной классификации и поиска информации F-оценка или F-мера является мерой предсказательной эффективности. Она рассчитывается на основе точности и полноты теста, где точность — это количество истинно положительных результатов, деленное на количество всех образцов, которые, как прогнозируется, будут положительными, включая те, которые были идентифицированы неправильно, а полнота — это количество истинно положительных результатов, деленное на количество всех образцов, которые должны были быть идентифицированы как положительные. Точность также известна как положительное предсказательное значение , а полнота также известна как чувствительность в диагностической бинарной классификации.
Оценка F 1 — это гармоническое среднее значение точности и полноты. Таким образом, она симметрично представляет как точность, так и полноту в одной метрике. Более общая оценка применяет дополнительные веса, оценивая одну из точности или полноты больше, чем другую.
Максимально возможное значение F-оценки составляет 1,0, что указывает на идеальную точность и полноту, а минимально возможное значение составляет 0, если точность и полнота равны нулю.
Считается, что название F-мера произошло от другой функции F из книги Ван Рийсбергена, представленной на Четвертой конференции по пониманию сообщений (MUC-4, 1992). [1]
Традиционная F-мера или сбалансированная F-оценка ( оценка F1 ) представляет собой гармоническое среднее значение точности и полноты: [2]
Более общая оценка F, которая использует положительный действительный фактор , где выбрано так, что полнота считается в разы более важной, чем точность, выглядит следующим образом:
С точки зрения ошибок типа I и типа II это становится:
Два наиболее часто используемых значения — это 2, при котором полнота имеет больший вес, чем точность, и 0,5, при котором полнота имеет меньший вес, чем точность.
F-мера была выведена таким образом, чтобы «измерять эффективность поиска по отношению к пользователю, который придает в разы большее значение запоминанию, чем точности». [3] Она основана на мере эффективности Ван Рейсбергена
Их отношения - это то, где .
Это связано с областью бинарной классификации , где отзыв часто называют «чувствительностью».
Прогнозируемое состояние | Источники: [4] [5] [6] [7] [8] [9] [10] [11] | ||||
Общая численность населения = P + N | Прогнозируемый положительный (ПП) | Прогнозируемый отрицательный (PN) | Информированность , букмекерская информированность (БМ) = TPR + TNR − 1 | Порог распространенности (PT) = √ TPR × FPR - FPR/ТПР - ФПР | |
Фактическое состояние | Положительный (P) [a] | Истинно положительный (TP), удар [b] | Ложноотрицательный результат (ЛО), промах, недооценка | Истинно положительный процент (TPR), отзыв , чувствительность (SEN), вероятность обнаружения, процент попаданий, мощность = ТП/П = 1 − ФНР | Ложноотрицательный коэффициент (ЛКО), коэффициент ошибок типа II [c] = ФН/П = 1 − ТПР |
Отрицательно (Н) [г] | Ложноположительный результат (ЛП), ложная тревога, переоценка | Истинно отрицательный (TN), правильное отклонение [e] | Коэффициент ложных срабатываний (FPR), вероятность ложной тревоги, ошибка типа I [f] = ФП/Н = 1 − ТНР | Истинно отрицательный показатель (TNR), специфичность (SPC), селективность = ТН/Н = 1 − ФПР | |
Распространенность = П/П + Н | Положительная прогностическая ценность (PPV), точность = ТП/ПП = 1 − ФДР | Коэффициент ложного пропуска (FOR) = ФН/ПН = 1 − ЧПС | Положительное отношение правдоподобия (LR+) = ТПР/ФПР | Отрицательное отношение правдоподобия (LR−) = ФНР/ТНР | |
Точность (ACC) = ТП + ТН/П + Н | Коэффициент ложных срабатываний (FDR) = ФП/ПП = 1 − ППЦ | Отрицательная прогностическая ценность (NPV) = ТН/ПН = 1 − ДЛЯ | Маркированность (МК), дельтаП (Δp) = PPV + NPV − 1 | Диагностическое отношение шансов (DOR) = ЛР+/ЛР− | |
Сбалансированная точность (BA) = ТПР + ТНР/2 | F 1 оценка = 2 PPV × TPR/ППВ + ТПР = 2 ТП/2 ТП + ФП + ФН | Индекс Фаулкса–Мэллоуза (FM) = √ PPV × TPR | Коэффициент корреляции Мэтьюса (MCC) = √ TPR × TNR × PPV × NPV - √ FNR × FPR × FOR × FDR | Оценка угрозы (TS), индекс критического успеха (CSI), индекс Жаккара = ТП/ТП + ФН + ФП |
Кривая точности-полноты и, следовательно, оценка явно зависят от соотношения положительных и отрицательных тестовых случаев. [12] Это означает, что сравнение F-оценки по разным задачам с разными соотношениями классов проблематично. Одним из способов решения этой проблемы (см., например, Siblini et al., 2020 [13] ) является использование стандартного соотношения классов при проведении таких сравнений.
F-оценка часто используется в области поиска информации для измерения производительности поиска , классификации документов и классификации запросов . [14] Она особенно актуальна в приложениях, которые в первую очередь связаны с положительным классом и где положительный класс встречается реже отрицательного класса.
Более ранние работы были сосредоточены в основном на оценке F 1 , но с распространением крупномасштабных поисковых систем цели производительности изменились, и теперь больше внимания уделяется либо точности, либо полноте [15] , поэтому этот метод нашел широкое применение.
F-оценка также используется в машинном обучении . [16] Однако F-меры не учитывают истинно отрицательные значения, поэтому для оценки эффективности бинарного классификатора могут быть предпочтительны такие меры, как коэффициент корреляции Мэтьюза , информированность или каппа Коэна . [17]
F-оценка широко используется в литературе по обработке естественного языка [18] , например, при оценке распознавания именованных сущностей и сегментации слов .
Оценка F 1 представляет собой коэффициент Дайса для набора извлеченных элементов и набора соответствующих элементов. [19]
Дэвид Хэнд и другие критикуют широкое использование оценки F 1 , поскольку она придает одинаковое значение точности и отзыву. На практике разные типы ошибочных классификаций влекут за собой разные издержки. Другими словами, относительная важность точности и отзыва является аспектом проблемы. [22]
По мнению Давиде Чикко и Джузеппе Юрмана, оценка F 1 менее правдива и информативна, чем коэффициент корреляции Мэтьюза (MCC) в бинарной оценочной классификации. [23]
Дэвид М. В. Пауэрс указал на то, что F 1 игнорирует истинно отрицательные значения и, таким образом, вводит в заблуждение для несбалансированных классов, в то время как меры каппа и корреляции симметричны и оценивают оба направления предсказуемости — классификатор, предсказывающий истинный класс, и истинный класс, предсказывающий предсказание классификатора, предлагая отдельные многоклассовые меры информированности и маркированности для двух направлений, отмечая, что их геометрическое среднее является корреляцией. [24]
Другим источником критики F 1 является его отсутствие симметрии. Это означает, что он может изменить свое значение при изменении маркировки набора данных - "положительные" образцы называются "отрицательными" и наоборот. Эта критика встречается с определением метрики P4 , которое иногда указывается как симметричное расширение F 1 . [25]
В то время как F-мера представляет собой гармоническое среднее полноты и точности, индекс Фаулкса-Мэллоуза представляет собой их геометрическое среднее . [26]
F-оценка также используется для оценки проблем классификации с более чем двумя классами ( мультиклассовая классификация ). Распространенным методом является усреднение F-оценки по каждому классу с целью сбалансированного измерения производительности. [27]
Macro F1 — это макроусредненная оценка F1, нацеленная на сбалансированное измерение производительности. Для расчета macro F1 использовались две различные формулы усреднения: оценка F1 (арифметических) средних значений точности и полноты по классам или среднее арифметическое оценок F1 по классам, где последняя демонстрирует более желательные свойства. [28]
Micro F1 — это гармоническое среднее микроточности (количество правильных предсказаний, нормализованное по ложным положительным результатам) и микроотзыва (количество правильных предсказаний, нормализованное по ложным отрицательным результатам). Поскольку при многоклассовой оценке общее количество ложных положительных результатов равно количеству ложных отрицательных результатов, micro F1 эквивалентно Accuracy . [27]
{{cite book}}
: CS1 maint: местоположение ( ссылка )