В этой статье есть несколько проблем. Помогите улучшить ее или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалять эти сообщения )
|
В (контролируемом) машинном обучении , особенно при обучении на основе данных, существуют ситуации, когда значения данных не могут быть смоделированы. Это может возникнуть, если в данных есть случайные колебания или ошибки измерения, которые не моделируются и могут быть соответственно названы стохастическим шумом ; или когда моделируемое (или изучаемое) явление слишком сложное, и поэтому данные содержат эту дополнительную сложность, которая не моделируется. Эта дополнительная сложность в данных была названа детерминированным шумом . [1] Хотя эти два типа шума возникают по разным причинам, их неблагоприятное воздействие на обучение схоже. Переобучение происходит из-за того, что модель пытается подогнать (стохастический или детерминированный) шум (ту часть данных, которую она не может смоделировать) за счет подгонки той части данных, которую она может смоделировать. Когда присутствует любой из типов шума, обычно рекомендуется регуляризировать алгоритм обучения, чтобы предотвратить переобучение модели под данные и получение худшей производительности. Регуляризация обычно приводит к модели с более низкой дисперсией за счет смещения .
Можно также попытаться смягчить влияние шума, обнаружив и удалив шумные обучающие примеры до обучения контролируемого алгоритма обучения. Существует несколько алгоритмов, которые идентифицируют шумные обучающие примеры, и удаление предполагаемых шумных обучающих примеров до обучения обычно улучшает производительность. [2] [3]