Выбор на основе вознаграждения

Отбор на основе вознаграждения — это метод, используемый в эволюционных алгоритмах для отбора потенциально полезных решений для рекомбинации. Вероятность быть выбранным для особи пропорциональна кумулятивному вознаграждению, полученному особью. Кумулятивное вознаграждение может быть вычислено как сумма индивидуального вознаграждения и вознаграждения, унаследованного от родителей.

Описание

Отбор на основе вознаграждения может использоваться в рамках модели многорукого бандита для многокритериальной оптимизации с целью получения лучшего приближения к фронту Парето . [1]

Новорожденный и его родители получают вознаграждение , если были выбраны для новой популяции , в противном случае вознаграждение равно нулю. Возможны несколько определений вознаграждения: а ( г + 1 ) {\displaystyle а'^{(г+1)}} г ( г ) {\displaystyle r^{(г)}} а ( г + 1 ) {\displaystyle а'^{(г+1)}} В ( г + 1 ) {\displaystyle Q^{(g+1)}}

  • 1. , если новорожденная особь была отобрана для новой популяции . г ( г ) = 1 {\displaystyle r^{(г)}=1} а ( г + 1 ) {\displaystyle а'^{(г+1)}} В ( г + 1 ) {\displaystyle Q^{(g+1)}}
  • 2. , где - ранг вновь вставленной особи в популяции особей. Ранг можно вычислить с помощью хорошо известной процедуры недоминируемой сортировки. [2] г ( г ) = 1 г а н к ( а ( г + 1 ) ) μ  если  а ( г + 1 ) В ( г + 1 ) {\displaystyle r^{(g)}=1-{\frac {rank(a'^{(g+1)})}{\mu }}{\mbox{ если }}a'^{(g+1)}\in Q^{(g+1)}} г а н к ( а ( г + 1 ) ) {\displaystyle ранг(a'^{(g+1)})} μ {\displaystyle \мю}
  • 3. , где - показатель гиперобъема вклада особи в популяцию . Вознаграждение, если вновь введенная особь улучшает качество популяции, которое измеряется как ее гиперобъемный вклад в объективном пространстве. г ( г ) = а В ( г + 1 ) Δ ЧАС ( а , В ( г + 1 ) ) а В ( г ) Δ ЧАС ( а , В ( г ) ) {\displaystyle r^{(g)}=\sum _{a\in Q^{(g+1)}}\Delta {H}(a,Q^{(g+1)})-\sum _{a\in Q^{(g)}}\Delta {H}(a,Q^{(g)})} Δ ЧАС ( а , В ( г ) ) {\displaystyle \Delta {H}(a,Q^{(g)})} а {\displaystyle а} В ( г ) {\displaystyle Q^{(г)}} г ( г ) > 0 {\displaystyle r^{(г)}>0}
  • 4. Ослабление вышеуказанного вознаграждения, включающее штрафные санкции на основе ранга за баллы за -й доминируемый фронт Парето: к {\displaystyle к} г ( г ) = 1 2 к 1 ( н г о м к ( В ( г + 1 ) ) Δ ЧАС ( а , н г о м к ( В ( г + 1 ) ) ) н г о м к ( В ( г ) ) Δ ЧАС ( а , н г о м к ( В ( г ) ) ) ) {\displaystyle r^{(g)}={\frac {1}{2^{k-1}}}\left(\sum _{ndom_{k}(Q^{(g+1)})}\Delta {H}(a,ndom_{k}(Q^{(g+1)}))-\sum _{ndom_{k}(Q^{(g)})}\Delta {H}(a,ndom_{k}(Q^{(g)}))\right)}

Отбор на основе вознаграждения позволяет быстро определить наиболее плодотворные направления поиска, максимизируя совокупное вознаграждение отдельных лиц.

Смотрите также

Ссылки

  1. ^ Лощилов, И.; М. Шенауер; М. Себаг (2011). «Не все родители равны для MO-CMA-ES» (PDF) . Evolutionary Multi-Criterion Optimization 2011 (EMO 2011) . Springer Verlag, LNCS 6576. стр.  31–45 . Архивировано из оригинала (PDF) 2012-06-04.
  2. ^ Деб, К.; Пратап, А.; Агарвал, С.; Мейариван, Т. (2002). «Быстрый и элитарный многоцелевой генетический алгоритм: NSGA-II». Труды IEEE по эволюционным вычислениям . 6 (2): 182– 197. CiteSeerX 10.1.1.17.7771 . doi :10.1109/4235.996017. 
Взято с "https://en.wikipedia.org/w/index.php?title=Выбор_на_основе_на_вознаграждении&oldid=1266440507"