Парадокс точности — это парадоксальное открытие, что точность не является хорошей метрикой для предиктивных моделей при классификации в предиктивной аналитике . Это происходит потому, что простая модель может иметь высокий уровень точности, но быть слишком грубой, чтобы быть полезной. Например, если частота категории A является доминирующей, обнаруживаемой в 99% случаев, то предсказание того, что каждый случай относится к категории A, будет иметь точность 99%. Точность и полнота являются лучшими мерами в таких случаях. [1] [2] Основная проблема заключается в том, что существует дисбаланс классов между положительным классом и отрицательным классом. Априорные вероятности для этих классов должны учитываться при анализе ошибок. Точность и полнота помогают, но точность также может быть смещена очень несбалансированными априорными значениями классов в тестовых наборах. [ необходима цитата ]
Например, в городе с населением 1 миллион человек есть десять террористов. Система профилирования приводит к следующей матрице путаницы :
Предсказанный класс Фактический класс | Неудача | Проходить | Сумма |
---|---|---|---|
Неудача | 10 | 0 | 10 |
Проходить | 990 | 999000 | 999990 |
Сумма | 1000 | 999000 | 1000000 |
Даже если точность 10 + 999000/1000000 ≈ 99,9%, 990 из 1000 положительных прогнозов неверны. Точность 10/10 + 990 = 1% показывает его плохую работу. Поскольку классы настолько несбалансированы, лучшей метрикой является оценка F1 = 2 × 0,01 × 1/0,01 + 1 ≈ 2% (отзыв 10 + 0/10 = 1).