В машинном обучении усреднение ансамбля — это процесс создания нескольких моделей (обычно искусственных нейронных сетей ) и их объединения для получения желаемого результата, в отличие от создания только одной модели. Ансамбли моделей часто превосходят индивидуальные модели, поскольку различные ошибки составляющих ансамбля «усредняются». [ необходима цитата ]
Усреднение ансамбля является одним из простейших типов комитетных машин . Наряду с бустингом , это один из двух основных типов статических комитетных машин. [1] В отличие от стандартного проектирования нейронных сетей, в котором генерируется много сетей, но сохраняется только одна, усреднение ансамбля сохраняет менее удовлетворительные сети, но с меньшим весом, назначенным их выходам. [2] Теория усреднения ансамбля опирается на два свойства искусственных нейронных сетей: [3]
Это известно как компромисс смещения-дисперсии . Усреднение ансамбля создает группу сетей, каждая с низким смещением и высокой дисперсией, и объединяет их, чтобы сформировать новую сеть, которая теоретически должна демонстрировать низкое смещение и низкую дисперсию. Следовательно, это можно рассматривать как разрешение компромисса смещения-дисперсии. [4] Идея объединения экспертов восходит к Пьеру-Симону Лапласу . [5]
Теория, упомянутая выше, дает очевидную стратегию: создать набор экспертов с низким смещением и высокой дисперсией и усреднить их. Как правило, это означает создание набора экспертов с различными параметрами; часто это начальные синаптические веса нейронной сети, хотя другие факторы (такие как скорость обучения, импульс и т. д.) также могут варьироваться. Некоторые авторы рекомендуют не использовать затухание изменяющегося веса и раннюю остановку. [3] Поэтому шаги следующие:
В качестве альтернативы, знания предметной области могут быть использованы для создания нескольких классов экспертов. Эксперт из каждого класса обучается, а затем объединяется.
Более сложная версия ансамблевого среднего рассматривает конечный результат не как просто среднее всех экспертов, а как взвешенную сумму. Если каждый эксперт , то общий результат можно определить как:
где — набор весов. Задача оптимизации поиска альфы легко решается с помощью нейронных сетей, поэтому можно обучить «мета-сеть», где каждый «нейрон» на самом деле является целой нейронной сетью, а синаптические веса конечной сети — это вес, применяемый к каждому эксперту. Это известно как линейная комбинация экспертов . [2]
Можно увидеть, что большинство форм нейронной сети являются некоторым подмножеством линейной комбинации: стандартная нейронная сеть (где используется только один эксперт) является просто линейной комбинацией со всеми и одним . Сырое среднее значение — это когда все равны некоторому постоянному значению, а именно единице, деленной на общее число экспертов. [2]
Более поздний метод усреднения ансамбля — это метод обучения с отрицательной корреляцией, [6] предложенный Y. Liu и X. Yao. Этот метод широко используется в эволюционных вычислениях .
Этот раздел " Дополнительное чтение " может нуждаться в очистке . ( Октябрь 2014 ) |