Выбор модели

Задача выбора статистической модели из набора моделей-кандидатов

Выбор модели — это задача выбора модели из числа различных кандидатов на основе критерия производительности для выбора лучшей из них. [1] В контексте машинного обучения и более общего статистического анализа это может быть выбор статистической модели из набора моделей-кандидатов с учетом данных. В простейших случаях рассматривается уже существующий набор данных. Однако задача может также включать в себя разработку экспериментов таким образом, чтобы собранные данные хорошо подходили для проблемы выбора модели. При наличии моделей-кандидатов с аналогичной предсказательной или объяснительной силой наиболее простая модель, скорее всего, будет наилучшим выбором ( бритва Оккама ).

Кониси и Китагава (2008, стр. 75) утверждают: «Большинство проблем в статистическом выводе можно считать проблемами, связанными со статистическим моделированием». В связи с этим Кокс (2006, стр. 197) сказал: «То, как осуществляется перевод из предметной области в статистическую модель, часто является наиболее важной частью анализа».

Выбор модели может также относиться к проблеме выбора нескольких репрезентативных моделей из большого набора вычислительных моделей с целью принятия решений или оптимизации в условиях неопределенности. [2]

В машинном обучении алгоритмические подходы к выбору модели включают выбор признаков , оптимизацию гиперпараметров и статистическую теорию обучения .

Введение

Цикл научных наблюдений.

В своих самых основных формах выбор модели является одной из фундаментальных задач научного исследования . Определение принципа, объясняющего ряд наблюдений, часто напрямую связано с математической моделью, предсказывающей эти наблюдения. Например, когда Галилей проводил свои эксперименты с наклонной плоскостью , он продемонстрировал, что движение шаров соответствовало параболе, предсказанной его моделью [ требуется цитата ] .

Из бесчисленного количества возможных механизмов и процессов, которые могли бы произвести данные, как можно хотя бы начать выбирать лучшую модель? Математический подход, который обычно применяется, выбирает среди набора моделей-кандидатов; этот набор должен быть выбран исследователем. Часто используются простые модели, такие как полиномы , по крайней мере, изначально [ требуется ссылка ] . Бернхэм и Андерсон (2002) подчеркивают на протяжении всей своей книги важность выбора моделей, основанных на надежных научных принципах, таких как понимание феноменологических процессов или механизмов (например, химических реакций), лежащих в основе данных.

После того, как набор моделей-кандидатов выбран, статистический анализ позволяет нам выбрать лучшую из этих моделей. Что подразумевается под лучшей, является спорным. Хорошая методика выбора модели будет балансировать между добротностью и простотой. Более сложные модели смогут лучше адаптировать свою форму для соответствия данным (например, полином пятого порядка может точно соответствовать шести точкам), но дополнительные параметры могут не представлять ничего полезного. (Возможно, эти шесть точек на самом деле просто случайным образом распределены по прямой линии.) Добротность обычно определяется с использованием подхода отношения правдоподобия или его приближения, что приводит к критерию хи-квадрат . Сложность обычно измеряется путем подсчета количества параметров в модели.

Методы выбора модели можно рассматривать как оценщики некоторой физической величины, например, вероятности того, что модель произведет заданные данные. Смещение и дисперсия являются важными мерами качества этой оценки; эффективность также часто учитывается.

Стандартным примером выбора модели является подгонка кривой , когда, имея набор точек и другие базовые знания (например, точки являются результатом независимых выборок), мы должны выбрать кривую, описывающую функцию, которая сгенерировала точки.

Два направления выбора модели

Существует две основные цели вывода и обучения на основе данных. Одна из них — научное открытие, также называемое статистическим выводом, понимание базового механизма генерации данных и интерпретация природы данных. Другая цель обучения на основе данных — предсказание будущих или невидимых наблюдений, также называемое статистическим прогнозированием. Во второй цели специалист по данным не обязательно занимается точным вероятностным описанием данных. Конечно, можно также интересоваться обоими направлениями.

В соответствии с двумя различными целями, выбор модели также может иметь два направления: выбор модели для вывода и выбор модели для прогнозирования. [3] Первое направление заключается в определении лучшей модели для данных, которая предпочтительно обеспечит надежную характеристику источников неопределенности для научной интерпретации. Для этой цели существенно важно, чтобы выбранная модель не была слишком чувствительна к размеру выборки. Соответственно, подходящим понятием для оценки выбора модели является согласованность выбора, означающая, что наиболее надежный кандидат будет последовательно выбран при достаточно большом количестве выборок данных.

Второе направление — выбрать модель в качестве механизма, который обеспечит превосходную предсказательную производительность. В последнем случае, однако, выбранная модель может быть просто счастливым победителем среди нескольких близких конкурентов, но предсказательная производительность все равно может быть наилучшей из возможных. Если это так, то выбор модели подходит для второй цели (прогнозирование), но использование выбранной модели для понимания и интерпретации может быть крайне ненадежным и вводящим в заблуждение. [3] Более того, для очень сложных моделей, выбранных таким образом, даже прогнозы могут быть необоснованными для данных, лишь немного отличающихся от тех, на основе которых был сделан выбор. [4]

Методы, помогающие выбрать набор моделей-кандидатов

Критерии

Ниже приведен список критериев для выбора модели. Наиболее часто используемые информационные критерии: (i) информационный критерий Акаике и (ii) фактор Байеса и/или байесовский информационный критерий (который в некоторой степени приближается к фактору Байеса), см. обзор Stoica & Selen (2004).

Среди этих критериев перекрестная проверка обычно является наиболее точным и самым дорогим в вычислительном отношении для задач контролируемого обучения. [ необходима ссылка ]

Бернхэм и Андерсон (2002, §6.3) говорят следующее:

Существует множество методов выбора модели. Однако с точки зрения статистической производительности метода и предполагаемого контекста его использования существует только два различных класса методов: они были названы эффективными и последовательными . (...) В рамках частотной парадигмы выбора модели обычно существует три основных подхода: (I) оптимизация некоторых критериев выбора, (II) проверка гипотез и (III) специальные методы.

Смотрите также

Примечания

  1. ^ Хасти, Тибширани, Фридман (2009). Элементы статистического обучения . Springer. стр. 195. {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Ширанги, Мехрдад Г.; Дурлофски, Луис Дж. (2016). «Общий метод выбора репрезентативных моделей для принятия решений и оптимизации в условиях неопределенности». Компьютеры и науки о Земле . 96 : 109–123. Bibcode : 2016CG.....96..109S. doi : 10.1016/j.cageo.2016.08.002.
  3. ^ ab Ding, Jie; Tarokh, Vahid; Yang, Yuhong (2018). «Методы выбора модели: обзор». Журнал обработки сигналов IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Bibcode : 2018ISPM...35f..16D. doi : 10.1109/MSP.2018.2867638. ISSN  1053-5888. S2CID  53035396.
  4. ^ Su, J.; Vargas, DV; Sakurai, K. (2019). «Атака одним пикселем для обмана глубоких нейронных сетей». IEEE Transactions on Evolutionary Computation . 23 (5): 828–841. arXiv : 1710.08864 . doi : 10.1109/TEVC.2019.2890858. S2CID  2698863.
  5. ^ Ding, J.; Tarokh, V.; Yang, Y. (июнь 2018 г.). «Соединение AIC и BIC: новый критерий авторегрессии». IEEE Transactions on Information Theory . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN  1557-9654. S2CID  5189440.
  6. ^ Цао, Мин (2023). «Выбор модели регрессии с помощью логарифмического отношения правдоподобия и критерия ограниченного минимума». Канадский журнал статистики . 52 : 195–211. arXiv : 2107.08529 . doi : 10.1002/cjs.11756. S2CID  236087375.

Ссылки

  • Ахо, К.; Дерриберри, Д.; Петерсон, Т. (2014), «Выбор модели для экологов: мировоззрения AIC и BIC», Экология , 95 (3): 631–636, Bibcode : 2014Ecol...95..631A, doi : 10.1890/13-1452.1, PMID  24804445
  • Акаике, Х. (1994), «Влияние информационной точки зрения на развитие статистической науки», в Bozdogan, H. (ред.), Труды первой конференции США/ЯПОНИИ «Рубежи статистического моделирования: информационный подход» — том 3 , Kluwer Academic Publishers , стр. 27–38
  • Андерсон, DR (2008), Модельный вывод в науках о жизни, Springer, ISBN 9780387740751
  • Андо, Т. (2010), Выбор байесовской модели и статистическое моделирование, CRC Press , ISBN 9781439836156
  • Брейман, Л. (2001), «Статистическое моделирование: две культуры», Статистическая наука , 16 : 199–231, doi : 10.1214/ss/1009213726
  • Бернхэм, К. П.; Андерсон, Д. Р. (2002), Выбор модели и вывод на основе нескольких моделей: практический информационно-теоретический подход (2-е изд.), Springer-Verlag, ISBN 0-387-95364-7[на эту статью ссылаются более 38000 раз в Google Scholar ]
  • Чемберлин, TC (1890), «Метод множественных рабочих гипотез», Science , 15 (366): 92–6, Bibcode : 1890Sci....15R..92., doi : 10.1126/science.ns-15.366.92, PMID  17782687(переиздано в 1965 г., Science 148: 754–759 [1] doi :10.1126/science.148.3671.754)
  • Клаескенс, Г. (2016), «Выбор статистической модели» (PDF) , Ежегодный обзор статистики и ее применения , 3 (1): 233–256, Bibcode : 2016AnRSA...3..233C, doi : 10.1146/annurev-statistics-041715-033413[ постоянная мертвая ссылка ]
  • Клаескенс, Г.; Хьорт, Н.Л. (2008), Выбор модели и усреднение модели, Cambridge University Press, ISBN 9781139471800
  • Кокс, DR (2006), Принципы статистического вывода , Cambridge University Press
  • Дин, Дж.; Тарох, В.; Янг, Ю. (2018), «Методы выбора модели — обзор», Журнал обработки сигналов IEEE , 35 (6): 16–34, arXiv : 1810.09583 , Bibcode : 2018ISPM...35f..16D, doi : 10.1109/MSP.2018.2867638, S2CID  53035396
  • Кашьяп, Р. Л. (1982), «Оптимальный выбор частей AR и MA в моделях авторегрессионного скользящего среднего», Труды IEEE по анализу шаблонов и машинному интеллекту , PAMI-4 (2), IEEE: 99–104, doi : 10.1109/TPAMI.1982.4767213, PMID  21869012, S2CID  18484243
  • Кониси, С.; Китагава, Г. (2008), Информационные критерии и статистическое моделирование, Springer, Bibcode :2007icsm.book.....K, ISBN 9780387718866
  • Лахири, П. (2001), Выбор модели , Институт математической статистики
  • Leeb, H.; Pötscher, BM (2009), «Выбор модели», в Anderson, TG (ред.), Handbook of Financial Time Series , Springer, стр. 889–925, doi :10.1007/978-3-540-71297-8_39, ISBN 978-3-540-71296-1
  • Lukacs, PM; Thompson, WL; Kendall, WL; Gould, WR; Doherty, PF Jr.; Burnham, KP; Anderson, DR (2007), «Опасения относительно призыва к плюрализму теории информации и проверки гипотез», Journal of Applied Ecology , 44 (2): 456–460, Bibcode : 2007JApEc..44..456L, doi : 10.1111/j.1365-2664.2006.01267.x, S2CID  83816981
  • МакКуорри, Аллан DR; Цай, Чи-Линг (1998), Регрессия и выбор модели временного ряда , Сингапур: World Scientific, ISBN 981-02-3242-X
  • Массарт, П. (2007), Неравенства концентрации и выбор модели, Springer
  • Массарт, П. (2014), «Неасимптотическое блуждание в вероятности и статистике», в книге Линь, Сихун (ред.), Прошлое, настоящее и будущее статистической науки , Chapman & Hall , стр. 309–321, ISBN 9781482204988
  • Наварро, DJ (2019), «Между дьяволом и глубоким синим морем: напряжение между научным суждением и выбором статистической модели», Computational Brain & Behavior , 2 : 28–34, doi : 10.1007/s42113-018-0019-z
  • Резенде, Пауло Анджело Алвес; Дорея, Чанг Чунг Ю (2016), «Идентификация модели с использованием критерия эффективного определения», Журнал многомерного анализа , 150 : 229–244, arXiv : 1409.7441 , doi : 10.1016/j.jmva.2016.06.002, S2CID  5469654
  • Шмуэли, Г. (2010), «Объяснять или предсказывать?», Статистическая наука , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214/10-STS330, MR  2791669, S2CID  15900983
  • Stoica, P.; Selen, Y. (2004), «Выбор порядка модели: обзор правил информационного критерия» (PDF) , IEEE Signal Processing Magazine , 21 (4): 36–47, doi :10.1109/MSP.2004.1311138, S2CID  17338979
  • Вит, Э.; ван ден Хеувел, Э.; Ромейн, Ж.-В. (2012), «Все модели неверны...»: введение в неопределенность модели» (PDF) , Statistica Neerlandica , 66 (3): 217–236, doi :10.1111/j.1467-9574.2012.00530.x , S2CID  7793470
  • Вит, Э.; МакКаллах, П. (2001), Виана, М.А.Г.; Ричардс, Д. Ст.П. (ред.), «Расширяемость статистических моделей», Алгебраические методы в статистике и теории вероятностей , стр. 327–340
  • Войтович, Анна; Бигай, Томаш (2016), «Обоснование, подтверждение и проблема взаимоисключающих гипотез», в Кузняр, Адриан; Одровонж-Сыпневска, Джоанна (ред.), Раскрытие фактов и ценностей , Brill Publishers , стр. 122–143, doi :10.1163/9789004312654_009, ISBN 9789004312654
  • Овранг, Араш; Янссон, Магнус (2018), «Критерий выбора модели для многомерной линейной регрессии», IEEE Transactions on Signal Processing , 66 (13): 3436–3446, Bibcode : 2018ITSP...66.3436O, doi : 10.1109/TSP.2018.2821628, ISSN  1941-0476, S2CID  46931136
  • B. Gohain, Prakash; Jansson, Magnus (2022), "Инвариантный к масштабу и последовательный байесовский информационный критерий для выбора порядка в моделях линейной регрессии", Обработка сигналов , 196 : 108499, Bibcode : 2022SigPr.19608499G, doi : 10.1016/j.sigpro.2022.108499 , ISSN  0165-1684, S2CID  246759677
Взято с "https://en.wikipedia.org/w/index.php?title=Выбор_модели&oldid=1249012742"