Усреднение ансамбля (машинное обучение)

Метод машинного обучения

В машинном обучении усреднение ансамбля — это процесс создания нескольких моделей (обычно искусственных нейронных сетей ) и их объединения для получения желаемого результата, в отличие от создания только одной модели. Ансамбли моделей часто превосходят индивидуальные модели, поскольку различные ошибки составляющих ансамбля «усредняются». [ необходима цитата ]

Обзор

Усреднение ансамбля является одним из простейших типов комитетных машин . Наряду с бустингом , это один из двух основных типов статических комитетных машин. [1] В отличие от стандартного проектирования нейронных сетей, в котором генерируется много сетей, но сохраняется только одна, усреднение ансамбля сохраняет менее удовлетворительные сети, но с меньшим весом, назначенным их выходам. [2] Теория усреднения ансамбля опирается на два свойства искусственных нейронных сетей: [3]

  1. В любой сети смещение можно уменьшить за счет увеличения дисперсии.
  2. В группе сетей дисперсию можно уменьшить без потери смещения.

Это известно как компромисс смещения-дисперсии . Усреднение ансамбля создает группу сетей, каждая с низким смещением и высокой дисперсией, и объединяет их, чтобы сформировать новую сеть, которая теоретически должна демонстрировать низкое смещение и низкую дисперсию. Следовательно, это можно рассматривать как разрешение компромисса смещения-дисперсии. [4] Идея объединения экспертов восходит к Пьеру-Симону Лапласу . [5]

Метод

Теория, упомянутая выше, дает очевидную стратегию: создать набор экспертов с низким смещением и высокой дисперсией и усреднить их. Как правило, это означает создание набора экспертов с различными параметрами; часто это начальные синаптические веса нейронной сети, хотя другие факторы (такие как скорость обучения, импульс и т. д.) также могут варьироваться. Некоторые авторы рекомендуют не использовать затухание изменяющегося веса и раннюю остановку. [3] Поэтому шаги следующие:

  1. Сгенерировать N экспертов, каждого со своими собственными начальными параметрами (эти значения обычно выбираются случайным образом из распределения)
  2. Обучайте каждого эксперта отдельно
  3. Объедините экспертов и усредните их значения.

В качестве альтернативы, знания предметной области могут быть использованы для создания нескольких классов экспертов. Эксперт из каждого класса обучается, а затем объединяется.

Более сложная версия ансамблевого среднего рассматривает конечный результат не как просто среднее всех экспертов, а как взвешенную сумму. Если каждый эксперт , то общий результат можно определить как: у я {\displaystyle y_{i}} у ~ {\displaystyle {\тильда {y}}}

у ~ ( х ; α ) = дж = 1 п α дж у дж ( х ) {\displaystyle {\tilde {y}}(\mathbf {x};\mathbf {\alpha} )=\sum _{j=1}^{p}\alpha _{j}y_{j}(\mathbf {х} )}

где — набор весов. Задача оптимизации поиска альфы легко решается с помощью нейронных сетей, поэтому можно обучить «мета-сеть», где каждый «нейрон» на самом деле является целой нейронной сетью, а синаптические веса конечной сети — это вес, применяемый к каждому эксперту. Это известно как линейная комбинация экспертов . [2] α {\displaystyle \mathbf {\альфа} }

Можно увидеть, что большинство форм нейронной сети являются некоторым подмножеством линейной комбинации: стандартная нейронная сеть (где используется только один эксперт) является просто линейной комбинацией со всеми и одним . Сырое среднее значение — это когда все равны некоторому постоянному значению, а именно единице, деленной на общее число экспертов. [2] α дж = 0 {\displaystyle \альфа _{j}=0} α к = 1 {\displaystyle \альфа _{k}=1} α дж {\displaystyle \альфа _{j}}

Более поздний метод усреднения ансамбля — это метод обучения с отрицательной корреляцией, [6] предложенный Y. Liu и X. Yao. Этот метод широко используется в эволюционных вычислениях .

Преимущества

  • Полученный комитет почти всегда менее сложен, чем отдельная сеть, которая могла бы достичь того же уровня производительности [7]
  • Полученный комитет легче обучать на меньших наборах данных [1]
  • Полученный комитет часто имеет более высокую производительность по сравнению с любой отдельной моделью [2]
  • Риск переобучения снижается, поскольку требуется задать меньше параметров (например, весов нейронной сети). [1]

Смотрите также

Ссылки

  1. ^ abc Хайкин, Саймон. Нейронные сети: всеобъемлющая основа. 2-е изд. Upper Saddle River NJ: Prentice Hall, 1999.
  2. ^ abcd Хашем, С. «Оптимальные линейные комбинации нейронных сетей». Neural Networks 10, № 4 (1997): 599–614.
  3. ^ ab Naftaly, U., N. Intrator и D. Horn. «Оптимальное усреднение ансамбля нейронных сетей». Network: Computation in Neural Systems 8, № 3 (1997): 283–296.
  4. ^ Geman, S., E. Bienenstock и R. Doursat. «Нейронные сети и дилемма смещения/дисперсии». Neural computing 4, № 1 (1992): 1–58.
  5. ^ Клемен, РТ «Объединение прогнозов: обзор и аннотированная библиография». Международный журнал прогнозирования 5, № 4 (1989): 559–583.
  6. ^ Y. Liu и X. Yao, Обучение ансамбля с помощью нейронных сетей с отрицательной корреляцией, том 12, выпуск 10, декабрь 1999 г., стр. 1399-1404. doi :10.1016/S0893-6080(99)00073-8
  7. ^ Pearlmutter, BA, и R. Rosenfeld. «Сложность Чайтина–Колмогорова и обобщение в нейронных сетях». В трудах конференции 1990 года по достижениям в области нейронных систем обработки информации 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Дальнейшее чтение

  • Перроне, МП (1993), Улучшение оценки регрессии: методы усреднения для снижения дисперсии с расширениями для общей выпуклой оптимизации меры
  • Вулперт, Д. Х. (1992), «Сложенное обобщение», Нейронные сети , 5 (2): 241– 259, CiteSeerX  10.1.1.133.8090 , doi :10.1016/S0893-6080(05)80023-1
  • Хашем, С. (1997), «Оптимальные линейные комбинации нейронных сетей», Neural Networks , 10 (4): 599– 614, doi :10.1016/S0893-6080(96)00098-6, PMID  12662858
  • Хашем, С. и Б. Шмейсер (1993), «Аппроксимация функции и ее производных с использованием оптимальных по среднеквадратичной ошибке линейных комбинаций обученных нейронных сетей прямого распространения», Труды Объединенной конференции по нейронным сетям , 87 : 617–620
Взято с "https://en.wikipedia.org/w/index.php?title=Усреднение_ансамбля_(машинное_обучение)&oldid=1258175676"