Эта статья нуждается в дополнительных цитатах для проверки . ( август 2022 г. ) |
Теория двойного управления — это раздел теории управления , который занимается управлением системами, характеристики которых изначально неизвестны. [1] [2] Она называется двойной , потому что при управлении такой системой цели контроллера двояки:
Эти две цели могут частично конфликтовать. В контексте обучения с подкреплением это известно как компромисс между исследованием и эксплуатацией (например, Многорукий бандит#Эмпирическая мотивация ).
Теория дуального управления была разработана Александром Ароновичем Фельдбаумом в 1960 году. Он показал, что в принципе оптимальное решение может быть найдено с помощью динамического программирования , однако это часто нецелесообразно; в результате был разработан ряд методов проектирования неоптимальных дуальных регуляторов.
Используя аналогию : если вы ведете новую машину, вы хотите добраться до места назначения дешево и плавно, но вы также хотите увидеть, насколько хорошо машина разгоняется, тормозит и рулится, чтобы лучше почувствовать, как ею управлять, поэтому вы выполните несколько тестовых маневров для этой цели. Аналогично двойной контроллер введет так называемый зондирующий (или разведывательный) сигнал в систему, который может ухудшить краткосрочную производительность, но улучшит управление в будущем.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )