Парадокс точности

Ошибка бинарной классификации

Парадокс точности — это парадоксальное открытие, что точность не является хорошей метрикой для предиктивных моделей при классификации в предиктивной аналитике . Это происходит потому, что простая модель может иметь высокий уровень точности, но быть слишком грубой, чтобы быть полезной. Например, если частота категории A является доминирующей, обнаруживаемой в 99% случаев, то предсказание того, что каждый случай относится к категории A, будет иметь точность 99%. Точность и полнота являются лучшими мерами в таких случаях. [1] [2] Основная проблема заключается в том, что существует дисбаланс классов между положительным классом и отрицательным классом. Априорные вероятности для этих классов должны учитываться при анализе ошибок. Точность и полнота помогают, но точность также может быть смещена очень несбалансированными априорными значениями классов в тестовых наборах. [ необходима цитата ]

Пример

Например, в городе с населением 1 миллион человек есть десять террористов. Система профилирования приводит к следующей матрице путаницы :

Предсказанный
класс
Фактический класс
НеудачаПроходитьСумма
Неудача10010
Проходить990999000999990
Сумма10009990001000000

Даже если точность 10 + 999000/1000000 ≈ 99,9%, 990 из 1000 положительных прогнозов неверны. Точность 10/10 + 990 = 1% показывает его плохую работу. Поскольку классы настолько несбалансированы, лучшей метрикой является оценка F1 = 2 × 0,01 × 1/0,01 + 1 ≈ 2% (отзыв 10 + 0/10 = 1).

Литература

  • Кубат, М. (2000). Решение проблемы несбалансированных обучающих наборов: односторонний отбор. Четырнадцатая международная конференция по машинному обучению.

Смотрите также

Ссылки

  1. ^ Abma, BJM (10 сентября 2009 г.), Оценка инструментов управления требованиями с поддержкой анализа влияния изменений на основе прослеживаемости (PDF) , Университет Твенте, стр. 86–87, архивировано из оригинала (PDF) 25 ноября 2018 г. , извлечено 24 ноября 2018 г.
  2. ^ Вальверде-Альбасете; Карильо-де-Альборнос; Пелаес-Морено (2013), «Предложение о новых оценочных метриках и методе визуализации результатов для задач анализа настроений», Оценка доступа к информации. Многоязычие, мультимодальность и визуализация , Springer, ISBN 9783642408021
Взято с "https://en.wikipedia.org/w/index.php?title=Парадокс_точности&oldid=1228326589"