принцип максимума Понтрягина

Принцип в теории оптимального управления для наилучшего способа изменения состояния в динамической системе

Максимальный принцип Понтрягина используется в теории оптимального управления для поиска наилучшего возможного управления для перевода динамической системы из одного состояния в другое, особенно при наличии ограничений для управления состоянием или входными параметрами. Он утверждает, что для любого оптимального управления вместе с оптимальной траекторией состояния необходимо решить так называемую гамильтонову систему, которая представляет собой двухточечную граничную задачу , плюс условие максимума гамильтониана управления . [a] Эти необходимые условия становятся достаточными при определенных условиях выпуклости на функции цели и ограничения. [1] [2]

Принцип максимума был сформулирован в 1956 году русским математиком Львом Понтрягиным и его учениками [3] [4] , и его первоначальное применение было направлено на максимизацию конечной скорости ракеты. [5] Результат был получен с использованием идей классического вариационного исчисления . [6] После небольшого возмущения оптимального управления рассматривается член первого порядка разложения Тейлора относительно возмущения; устремление возмущения к нулю приводит к вариационному неравенству, из которого следует принцип максимума. [7]

Широко рассматриваемый как веха в теории оптимального управления, принцип максимума имеет значение в том, что максимизация гамильтониана намного проще, чем исходная бесконечномерная задача управления; вместо максимизации по функциональному пространству , задача преобразуется в поточечную оптимизацию. [8] Похожая логика приводит к принципу оптимальности Беллмана , связанному подходу к задачам оптимального управления, который утверждает, что оптимальная траектория остается оптимальной в промежуточные моменты времени. [9] Полученное уравнение Гамильтона–Якоби–Беллмана обеспечивает необходимое и достаточное условие для оптимума и допускает прямое расширение на стохастические задачи оптимального управления, тогда как принцип максимума этого не делает. [7] Однако, в отличие от уравнения Гамильтона–Якоби–Беллмана, которое должно выполняться во всем пространстве состояний, чтобы быть действительным, принцип максимума Понтрягина потенциально более эффективен с вычислительной точки зрения, поскольку условия, которые он определяет, должны выполняться только по конкретной траектории.

Обозначение

Для набора и функций У {\displaystyle {\mathcal {U}}}

Ψ : Р н Р {\displaystyle \Psi :\mathbb {R} ^{n}\to \mathbb {R} } ,
ЧАС : Р н × У × Р н × Р Р {\displaystyle H:\mathbb {R} ^{n}\times {\mathcal {U}}\times \mathbb {R} ^{n}\times \mathbb {R} \to \mathbb {R} } ,
Л : Р н × У Р {\displaystyle L:\mathbb {R} ^{n}\times {\mathcal {U}}\to \mathbb {R} } ,
f : R n × U R n {\displaystyle f:\mathbb {R} ^{n}\times {\mathcal {U}}\to \mathbb {R} ^{n}} ,

мы используем следующие обозначения:

Ψ T ( x ( T ) ) = Ψ ( x ) T | x = x ( T ) {\displaystyle \Psi _{T}(x(T))=\left.{\frac {\partial \Psi (x)}{\partial T}}\right|_{x=x(T)}\,} ,
Ψ x ( x ( T ) ) = [ Ψ ( x ) x 1 | x = x ( T ) Ψ ( x ) x n | x = x ( T ) ] {\displaystyle \Psi _{x}(x(T))={\begin{bmatrix}\left.{\frac {\partial \Psi (x)}{\partial x_{1}}}\right|_{x=x(T)}&\cdots &\left.{\frac {\partial \Psi (x)}{\partial x_{n}}}\right|_{x=x(T)}\end{bmatrix}}} ,
H x ( x , u , λ , t ) = [ H x 1 | x = x , u = u , λ = λ H x n | x = x , u = u , λ = λ ] {\displaystyle H_{x}(x^{*},u^{*},\lambda ^{*},t)={\begin{bmatrix}\left.{\frac {\partial H}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*},\lambda =\lambda ^{*}}&\cdots &\left.{\frac {\partial H}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*},\lambda =\lambda ^{*}}\end{bmatrix}}} ,
L x ( x , u ) = [ L x 1 | x = x , u = u L x n | x = x , u = u ] {\displaystyle L_{x}(x^{*},u^{*})={\begin{bmatrix}\left.{\frac {\partial L}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\cdots &\left.{\frac {\partial L}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\end{bmatrix}}} ,
f x ( x , u ) = [ f 1 x 1 | x = x , u = u f 1 x n | x = x , u = u f n x 1 | x = x , u = u f n x n | x = x , u = u ] {\displaystyle f_{x}(x^{*},u^{*})={\begin{bmatrix}\left.{\frac {\partial f_{1}}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\cdots &\left.{\frac {\partial f_{1}}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\\\vdots &\ddots &\vdots \\\left.{\frac {\partial f_{n}}{\partial x_{1}}}\right|_{x=x^{*},u=u^{*}}&\ldots &\left.{\frac {\partial f_{n}}{\partial x_{n}}}\right|_{x=x^{*},u=u^{*}}\end{bmatrix}}} .

Формальная формулировка необходимых условий для задач минимизации

Здесь показаны необходимые условия минимизации функционала.

Рассмотрим n-мерную динамическую систему с переменной состояния и переменной управления , где — множество допустимых управлений. Эволюция системы определяется состоянием и управлением согласно дифференциальному уравнению . Пусть начальное состояние системы равно и пусть эволюция системы контролируется в течение периода времени со значениями . Последнее определяется следующим дифференциальным уравнением: x R n {\displaystyle x\in \mathbb {R} ^{n}} u U {\displaystyle u\in {\mathcal {U}}} U {\displaystyle {\mathcal {U}}} x ˙ = f ( x , u ) {\displaystyle {\dot {x}}=f(x,u)} x 0 {\displaystyle x_{0}} t [ 0 , T ] {\displaystyle t\in [0,T]}

x ˙ = f ( x , u ) , x ( 0 ) = x 0 , u ( t ) U , t [ 0 , T ] {\displaystyle {\dot {x}}=f(x,u),\quad x(0)=x_{0},\quad u(t)\in {\mathcal {U}},\quad t\in [0,T]}

Траектория управления выбирается в соответствии с целью. Цель — это функционал, определяемый u : [ 0 , T ] U {\displaystyle u:[0,T]\to {\mathcal {U}}} J {\displaystyle J}

J = Ψ ( x ( T ) ) + 0 T L ( x ( t ) , u ( t ) ) d t {\displaystyle J=\Psi (x(T))+\int _{0}^{T}L{\big (}x(t),u(t){\big )}\,dt} ,

где можно интерпретировать как ставку затрат на осуществление контроля в состоянии , а можно интерпретировать как затраты на попадание в состояние . Конкретный выбор зависит от приложения. L ( x , u ) {\displaystyle L(x,u)} u {\displaystyle u} x {\displaystyle x} Ψ ( x ) {\displaystyle \Psi (x)} x {\displaystyle x} L , Ψ {\displaystyle L,\Psi }

Ограничения на динамику системы можно присоединить к лагранжиану , введя изменяющийся во времени вектор множителей Лагранжа , элементы которого называются статами системы. Это мотивирует построение гамильтониана , определяемого для всех как: L {\displaystyle L} λ {\displaystyle \lambda } H {\displaystyle H} t [ 0 , T ] {\displaystyle t\in [0,T]}

H ( x ( t ) , u ( t ) , λ ( t ) , t ) = λ T ( t ) f ( x ( t ) , u ( t ) ) + L ( x ( t ) , u ( t ) ) {\displaystyle H{\big (}x(t),u(t),\lambda (t),t{\big )}=\lambda ^{\rm {T}}(t)\cdot f{\big (}x(t),u(t){\big )}+L{\big (}x(t),u(t){\big )}}

где транспонировано . λ T {\displaystyle \lambda ^{\rm {T}}} λ {\displaystyle \lambda }

Минимальный принцип Понтрягина утверждает, что оптимальная траектория состояния , оптимальное управление и соответствующий вектор множителей Лагранжа должны минимизировать гамильтониан так, чтобы x {\displaystyle x^{*}} u {\displaystyle u^{*}} λ {\displaystyle \lambda ^{*}} H {\displaystyle H}

H ( x ( t ) , u ( t ) , λ ( t ) , t ) H ( x ( t ) , u , λ ( t ) , t ) {\displaystyle H{\big (}x^{*}(t),u^{*}(t),\lambda ^{*}(t),t{\big )}\leq H{\big (}x(t),u,\lambda (t),t{\big )}} ( 1 )

для всех времен и для всех допустимых входных сигналов управления . Здесь траектория вектора множителей Лагранжа является решением уравнения состояния и его конечных условий: t [ 0 , T ] {\displaystyle t\in [0,T]} u U {\displaystyle u\in {\mathcal {U}}} λ {\displaystyle \lambda }

λ ˙ T ( t ) = H x ( x ( t ) , u ( t ) , λ ( t ) , t ) = λ T ( t ) f x ( x ( t ) , u ( t ) ) + L x ( x ( t ) , u ( t ) ) {\displaystyle -{\dot {\lambda }}^{\rm {T}}(t)=H_{x}{\big (}x^{*}(t),u^{*}(t),\lambda (t),t{\big )}=\lambda ^{\rm {T}}(t)\cdot f_{x}{\big (}x^{*}(t),u^{*}(t){\big )}+L_{x}{\big (}x^{*}(t),u^{*}(t){\big )}} ( 2 )
λ T ( T ) = Ψ x ( x ( T ) ) {\displaystyle \lambda ^{\rm {T}}(T)=\Psi _{x}(x(T))} ( 3 )

Если фиксировано, то эти три условия в (1)-(3) являются необходимыми условиями для оптимального управления. x ( T ) {\displaystyle x(T)}

Если конечное состояние не фиксировано (т.е. его дифференциальное изменение не равно нулю), то существует дополнительное условие x ( T ) {\displaystyle x(T)}

Ψ T ( x ( T ) ) + H ( T ) = 0 {\displaystyle \Psi _{T}(x(T))+H(T)=0} ( 4 )

Эти четыре условия (1)-(4) являются необходимыми условиями оптимального управления.

Смотрите также

Примечания

  1. ^ Является ли экстремальное значение максимальным или минимальным, зависит от соглашения о знаках, используемого для определения гамильтониана. Историческое соглашение приводит к максимуму, следовательно, к принципу максимума. В последние годы его чаще называют просто принципом Понтрягина, без использования прилагательных «максимальный» или «минимальный».

Ссылки

  1. ^ Мангасарян, О. Л. (1966). «Достаточные условия оптимального управления нелинейными системами». Журнал SIAM по управлению . 4 (1): 139–152. doi :10.1137/0304013.
  2. ^ Камьен, Мортон И.; Шварц, Нэнси Л. (1971). «Достаточные условия в теории оптимального управления». Журнал экономической теории . 3 (2): 207–214. doi :10.1016/0022-0531(71)90018-4.
  3. ^ Болтянски, В.; Мартини, Х.; Солтан, В. (1998). «Принцип максимума – как он появился?». Геометрические методы и проблемы оптимизации . Нью-Йорк: Springer. С. 204–227. ISBN 0-7923-5454-0.
  4. ^ Гамкрелидзе, Р. В. (1999). «Открытие принципа максимума». Журнал динамических и управляющих систем . 5 (4): 437–451. doi :10.1023/A:1021783020548. S2CID  122690986.Перепечатано в Bolibruch, AA ; et al., eds. (2006). Математические события двадцатого века . Берлин: Springer. стр. 85–99. ISBN 3-540-23235-4.
  5. Для первых опубликованных работ см. ссылки в Fuller, AT (1963). «Библиография принципа максимума Понтрягина». J. Electronics & Control . 15 (5): 513–517. doi :10.1080/00207216308937602.
  6. ^ МакШейн, Э. Дж. (1989). «Исчисление вариаций от начала до теории оптимального управления». SIAM J. Control Optim . 27 (5): 916–939. doi :10.1137/0327049.
  7. ^ ab Yong, J.; Zhou, XY (1999). "Принцип максимума и стохастические гамильтоновы системы". Стохастическое управление: гамильтоновы системы и уравнения HJB . Нью-Йорк: Springer. С. 101–156. ISBN 0-387-98723-1.
  8. ^ Шастри, Шанкар (29 марта 2009 г.). «Конспект лекций 8. Оптимальное управление и динамические игры» (PDF) .
  9. ^ Чжоу, XY (1990). «Принцип максимума, динамическое программирование и их связь в детерминированном управлении». Журнал теории оптимизации и приложений . 65 (2): 363–373. doi :10.1007/BF01102352. S2CID  122333807.

Дальнейшее чтение

  • Geering, HP (2007). Оптимальное управление с инженерными приложениями . Springer. ISBN 978-3-540-69437-3.
  • Кирк, Д.Э. (1970). Оптимальная теория управления: Введение . Prentice Hall. ISBN 0-486-43484-2.
  • Ли, Э. Б.; Маркус, Л. (1967). Основы теории оптимального управления . Нью-Йорк: Wiley.
  • Seierstad, Atle; Sydsæter, Knut (1987). Оптимальная теория управления с экономическими приложениями . Амстердам: Северная Голландия. ISBN 0-444-87923-4.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Pontryagin%27s_maximum_principle&oldid=1186654512"