В статистике валидация модели — это задача оценки того, является ли выбранная статистическая модель подходящей или нет. Часто в статистическом выводе выводы из моделей, которые, как кажется, соответствуют их данным , могут быть случайностями, что приводит к неправильному пониманию исследователями фактической релевантности их модели. Чтобы бороться с этим, валидация модели используется для проверки того, может ли статистическая модель выдерживать перестановки в данных. Эту тему не следует путать с тесно связанной задачей выбора модели , процессом различения между несколькими моделями-кандидатами: валидация модели не столько касается концептуального проектирования моделей, сколько проверяет только согласованность между выбранной моделью и ее заявленными выходами.
Существует множество способов проверки модели. Графики остатков отображают разницу между фактическими данными и прогнозами модели: корреляции на графиках остатков могут указывать на изъян в модели. Перекрестная проверка — это метод проверки модели, который итеративно переопределяет модель, каждый раз исключая лишь небольшую выборку и сравнивая, предсказаны ли исключенные выборки моделью: существует множество видов перекрестной проверки . Прогностическое моделирование используется для сравнения смоделированных данных с фактическими данными. Внешняя проверка подразумевает подгонку модели к новым данным. Информационный критерий Акаике оценивает качество модели.
Валидация модели осуществляется во многих формах, и конкретный метод валидации модели, используемый исследователем, часто является ограничением его исследовательского проекта. Подчеркнем, что это означает, что не существует универсального метода валидации модели. Например, если исследователь работает с очень ограниченным набором данных, но у него есть сильные априорные предположения относительно данных, он может рассмотреть возможность валидации соответствия своей модели с помощью байесовского фреймворка и проверки соответствия своей модели с использованием различных априорных распределений. Однако, если у исследователя много данных и он тестирует несколько вложенных моделей, эти условия могут подходить для перекрестной проверки и, возможно, для теста с исключением одного. Это два абстрактных примера, и любая фактическая валидация модели должна будет учитывать гораздо больше сложностей, чем описано здесь, но эти примеры иллюстрируют, что методы валидации модели всегда будут косвенными.
В целом, модели можно проверять с использованием существующих или новых данных, и оба метода более подробно обсуждаются в следующих подразделах, а также приводится предостережение.
Проверка на основе существующих данных включает анализ соответствия модели или анализ того, кажутся ли остатки случайными (т. е. остаточная диагностика). Этот метод включает использование анализа близости моделей к данным и попытку понять, насколько хорошо модель предсказывает свои собственные данные. Один из примеров этого метода представлен на рисунке 1, где показана полиномиальная функция, соответствующая некоторым данным. Мы видим, что полиномиальная функция не очень хорошо соответствует данным, которые кажутся линейными, и может сделать эту полиномиальную модель недействительной.
Обычно статистические модели на существующих данных проверяются с помощью набора проверки, который также может называться набором удержания. Набор проверки — это набор точек данных, которые пользователь исключает при подгонке статистической модели. После подгонки статистической модели набор проверки используется в качестве меры погрешности модели. Если модель хорошо подходит для исходных данных, но имеет большую погрешность на наборе проверки, это признак переобучения.
Если новые данные становятся доступными, существующая модель может быть проверена путем оценки того, предсказываются ли новые данные старой моделью. Если новые данные не предсказываются старой моделью, то модель может быть недействительной для целей исследователя.
Учитывая это, современный подход к проверке нейронной сети заключается в тестировании ее производительности на доменно-смещенных данных. Это позволяет установить, выучила ли модель доменно-инвариантные признаки. [1]
Модель может быть проверена только относительно некоторой области применения. [2] [3] Модель, которая действительна для одного приложения, может быть недействительной для некоторых других приложений. В качестве примера рассмотрим кривую на рисунке 1: если приложение использовало только входные данные из интервала [0, 2], то кривая вполне могла бы быть приемлемой моделью.
Согласно Энциклопедии статистических наук , при проведении валидации существуют три заметные причины потенциальных трудностей . [4] Эти три причины таковы: отсутствие данных; отсутствие контроля над входными переменными; неопределенность относительно базовых распределений вероятностей и корреляций. Обычные методы решения трудностей при валидации включают следующее: проверку предположений, сделанных при построении модели; изучение имеющихся данных и связанных с ними выходных данных модели; применение экспертной оценки. [2] Обратите внимание, что экспертная оценка обычно требует экспертных знаний в прикладной области. [2]
Экспертное суждение иногда может использоваться для оценки обоснованности прогноза без получения реальных данных: например, для кривой на рисунке 1 эксперт вполне может оценить, что существенная экстраполяция будет недействительной. Кроме того, экспертное суждение может использоваться в тестах типа Тьюринга , где экспертам представляют как реальные данные, так и соответствующие выходные данные модели, а затем просят различить их. [5]
Для некоторых классов статистических моделей доступны специализированные методы выполнения проверки. Например, если статистическая модель была получена с помощью регрессии , то существуют и обычно применяются специализированные анализы для проверки регрессионной модели .
Этот раздел нуждается в расширении . Вы можете помочь, дополнив его. ( Февраль 2019 ) |
Диагностика остатков включает анализ остатков для определения того, являются ли остатки фактически случайными. Такие анализы обычно требуют оценок распределений вероятностей для остатков. Оценки распределений остатков часто можно получить путем многократного запуска модели, т. е. с помощью повторных стохастических симуляций (используя генератор псевдослучайных чисел для случайных величин в модели).
Если статистическая модель получена с помощью регрессии, то существуют и могут быть использованы диагностики регрессионного остатка ; такие диагностики хорошо изучены.
Перекрестная проверка — это метод выборки, который подразумевает исключение некоторых частей данных из процесса подгонки, а затем проверку того, близки ли или далеки ли эти исключенные данные от того, где их предсказывает модель. На практике это означает, что методы перекрестной проверки подгоняют модель много-много раз с помощью части данных и сравнивают каждую модель подгонки с частью, которую она не использовала. Если модели очень редко описывают данные, на которых они не были обучены, то модель, вероятно, неверна.
{{citation}}
: CS1 maint: несколько имен: список авторов ( ссылка ).