Гамильтониан (теория управления)

Функция, используемая в теории оптимального управления

Гамильтониан — это функция, используемая для решения задачи оптимального управления для динамической системы . Его можно понимать как мгновенное приращение лагранжева выражения задачи, которая должна быть оптимизирована за определенный период времени. [1] Вдохновленный гамильтонианом классической механики, но отличающийся от него , гамильтониан теории оптимального управления был разработан Львом Понтрягиным как часть его принципа максимума . [2] Понтрягин доказал, что необходимым условием решения задачи оптимального управления является то, что управление должно быть выбрано таким образом, чтобы оптимизировать гамильтониан. [3]

Постановка задачи и определение гамильтониана

Рассмотрим динамическую систему дифференциальных уравнений первого порядка н {\displaystyle n}

х ˙ ( т ) = ф ( х ( т ) , ты ( т ) , т ) {\displaystyle {\dot {\mathbf {x} }}(t)=\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)}

где обозначает вектор переменных состояния, а вектор переменных управления. После того, как начальные условия и элементы управления заданы, можно найти решение дифференциальных уравнений, называемое траекторией . Задача оптимального управления состоит в выборе (из некоторого набора ) так, чтобы максимизировать или минимизировать определенную целевую функцию между начальным временем и конечным временем (где может быть бесконечность ). В частности, цель состоит в оптимизации по индексу производительности, определенному в каждый момент времени, х ( т ) = [ х 1 ( т ) , х 2 ( т ) , , х н ( т ) ] Т {\displaystyle \mathbf {x} (t)=\left[x_{1}(t),x_{2}(t),\ldots ,x_{n}(t)\right]^{\mathsf {T}}} u ( t ) = [ u 1 ( t ) , u 2 ( t ) , , u r ( t ) ] T {\displaystyle \mathbf {u} (t)=\left[u_{1}(t),u_{2}(t),\ldots ,u_{r}(t)\right]^{\mathsf {T}}} x ( t 0 ) = x 0 {\displaystyle \mathbf {x} (t_{0})=\mathbf {x} _{0}} u ( t ) {\displaystyle \mathbf {u} (t)} x ( t ; x 0 , t 0 ) {\displaystyle \mathbf {x} (t;\mathbf {x} _{0},t_{0})} u ( t ) {\displaystyle \mathbf {u} (t)} U R r {\displaystyle {\mathcal {U}}\subseteq \mathbb {R} ^{r}} x ( t ) {\displaystyle \mathbf {x} (t)} t = t 0 {\displaystyle t=t_{0}} t = t 1 {\displaystyle t=t_{1}} t 1 {\displaystyle t_{1}} I ( x ( t ) , u ( t ) , t ) {\displaystyle I(\mathbf {x} (t),\mathbf {u} (t),t)}

max u ( t ) J {\displaystyle \max _{\mathbf {u} (t)}J} , с J = t 0 t 1 I [ x ( t ) , u ( t ) , t ] d t {\displaystyle J=\int _{t_{0}}^{t_{1}}I[\mathbf {x} (t),\mathbf {u} (t),t]\,\mathrm {d} t}

в соответствии с приведенными выше уравнениями движения переменных состояния. Метод решения включает определение вспомогательной функции, известной как гамильтониан управления

H ( x ( t ) , u ( t ) , λ ( t ) , t ) I ( x ( t ) , u ( t ) , t ) + λ T ( t ) f ( x ( t ) , u ( t ) , t ) {\displaystyle H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)\equiv I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)}

который объединяет целевую функцию и уравнения состояния подобно лагранжиану в статической задаче оптимизации, за исключением того, что множители, называемые переменными состояния , являются функциями времени, а не константами. λ ( t ) {\displaystyle \mathbf {\lambda } (t)}

Цель состоит в том, чтобы найти оптимальную функцию политики управления и, вместе с ней, оптимальную траекторию переменной состояния , которые по принципу максимума Понтрягина являются аргументами, максимизирующими гамильтониан, u ( t ) {\displaystyle \mathbf {u} ^{\ast }(t)} x ( t ) {\displaystyle \mathbf {x} ^{\ast }(t)}

H ( x ( t ) , u ( t ) , λ ( t ) , t ) H ( x ( t ) , u ( t ) , λ ( t ) , t ) {\displaystyle H(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\geq H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)} для всех u ( t ) U {\displaystyle \mathbf {u} (t)\in {\mathcal {U}}}

Необходимые условия первого порядка для максимума задаются формулой

H ( x ( t ) , u ( t ) , λ ( t ) , t ) u = 0 {\displaystyle {\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}=0\quad } что является принципом максимума,
H ( x ( t ) , u ( t ) , λ ( t ) , t ) λ = x ˙ ( t ) {\displaystyle {\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {\lambda } }}={\dot {\mathbf {x} }}(t)\quad } которая генерирует функцию перехода состояния , f ( x ( t ) , u ( t ) , t ) = x ˙ ( t ) {\displaystyle \,\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)={\dot {\mathbf {x} }}(t)}
H ( x ( t ) , u ( t ) , λ ( t ) , t ) x = λ ˙ ( t ) {\displaystyle {\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}=-{\dot {\mathbf {\lambda } }}(t)\quad } который генерирует уравнения состояния λ ˙ ( t ) = [ I x ( x ( t ) , u ( t ) , t ) + λ T ( t ) f x ( x ( t ) , u ( t ) , t ) ] {\displaystyle \,{\dot {\mathbf {\lambda } }}(t)=-\left[I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)\right]}

Вместе уравнения состояния и состояния описывают динамическую систему Гамильтона (опять же аналогичную, но отличную от гамильтоновой системы в физике), решение которой включает двухточечную граничную задачу , учитывая, что существуют граничные условия, включающие две различные точки во времени, начальное время ( дифференциальные уравнения для переменных состояния) и конечное время ( дифференциальные уравнения для переменных состояния; если не указана конечная функция, граничные условия имеют вид , или для бесконечных временных горизонтов). [4] 2 n {\displaystyle 2n} n {\displaystyle n} n {\displaystyle n} λ ( t 1 ) = 0 {\displaystyle \mathbf {\lambda } (t_{1})=0} lim t 1 λ ( t 1 ) = 0 {\displaystyle \lim _{t_{1}\to \infty }\mathbf {\lambda } (t_{1})=0}

Достаточным условием максимума является вогнутость гамильтониана, вычисленного в решении, т.е.

H u u ( x ( t ) , u ( t ) , λ ( t ) , t ) 0 {\displaystyle H_{\mathbf {uu} }(\mathbf {x} ^{\ast }(t),\mathbf {u} ^{\ast }(t),\mathbf {\lambda } (t),t)\leq 0}

где — оптимальное управление, а — результирующая оптимальная траектория для переменной состояния. [5] В качестве альтернативы, согласно результату Олви Л. Мангасаряна , необходимые условия достаточны, если функции и являются вогнутыми по и . [6] u ( t ) {\displaystyle \mathbf {u} ^{\ast }(t)} x ( t ) {\displaystyle \mathbf {x} ^{\ast }(t)} I ( x ( t ) , u ( t ) , t ) {\displaystyle I(\mathbf {x} (t),\mathbf {u} (t),t)} f ( x ( t ) , u ( t ) , t ) {\displaystyle \mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)} x ( t ) {\displaystyle \mathbf {x} (t)} u ( t ) {\displaystyle \mathbf {u} (t)}

Вывод из лагранжиана

Задача ограниченной оптимизации , подобная той, что изложена выше, обычно предполагает выражение Лагранжа, а именно:

L = t 0 t 1 I ( x ( t ) , u ( t ) , t ) + λ T ( t ) [ f ( x ( t ) , u ( t ) , t ) x ˙ ( t ) ] d t {\displaystyle L=\int _{t_{0}}^{t_{1}}I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\left[\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)-{\dot {\mathbf {x} }}(t)\right]\,\mathrm {d} t}

где сравнивается с множителем Лагранжа в статической задаче оптимизации, но теперь, как отмечено выше, является функцией времени. Чтобы исключить , последний член в правой части можно переписать с использованием интегрирования по частям , так что λ ( t ) {\displaystyle \mathbf {\lambda } (t)} x ˙ ( t ) {\displaystyle {\dot {\mathbf {x} }}(t)}

t 0 t 1 λ T ( t ) x ˙ ( t ) d t = λ T ( t 1 ) x ( t 1 ) + λ T ( t 0 ) x ( t 0 ) + t 0 t 1 λ ˙ T ( t ) x ( t ) d t {\displaystyle -\int _{t_{0}}^{t_{1}}\mathbf {\lambda } ^{\mathsf {T}}(t){\dot {\mathbf {x} }}(t)\,\mathrm {d} t=-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})+\int _{t_{0}}^{t_{1}}{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\,\mathrm {d} t}

которое можно подставить обратно в выражение Лагранжа, чтобы получить

L = t 0 t 1 [ I ( x ( t ) , u ( t ) , t ) + λ T ( t ) f ( x ( t ) , u ( t ) , t ) + λ ˙ T ( t ) x ( t ) ] d t λ T ( t 1 ) x ( t 1 ) + λ T ( t 0 ) x ( t 0 ) {\displaystyle L=\int _{t_{0}}^{t_{1}}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}^{\mathsf {T}}(t)\mathbf {x} (t)\right]\,\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathbf {x} (t_{0})}

Чтобы вывести условия первого порядка для оптимума, предположим, что решение найдено и лагранжиан максимизирован. Тогда любое возмущение или должно привести к снижению значения лагранжиана. В частности, полная производная подчиняется x ( t ) {\displaystyle \mathbf {x} (t)} u ( t ) {\displaystyle \mathbf {u} (t)} L {\displaystyle L}

d L = t 0 t 1 [ ( I u ( x ( t ) , u ( t ) , t ) + λ T ( t ) f u ( x ( t ) , u ( t ) , t ) ) d u ( t ) + ( I x ( x ( t ) , u ( t ) , t ) + λ T ( t ) f x ( x ( t ) , u ( t ) , t ) + λ ˙ ( t ) ) d x ( t ) ] d t λ T ( t 1 ) d x ( t 1 ) + λ T ( t 0 ) d x ( t 0 ) 0 {\displaystyle \mathrm {d} L=\int _{t_{0}}^{t_{1}}\left[\left(I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)\right)\mathrm {d} \mathbf {u} (t)+\left(I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+{\dot {\mathbf {\lambda } }}(t)\right)\mathrm {d} \mathbf {x} (t)\right]\mathrm {d} t-\mathbf {\lambda } ^{\mathsf {T}}(t_{1})\mathrm {d} \mathbf {x} (t_{1})+\mathbf {\lambda } ^{\mathsf {T}}(t_{0})\mathrm {d} \mathbf {x} (t_{0})\leq 0}

Для того чтобы это выражение было равно нулю, необходимы следующие условия оптимальности:

I u ( x ( t ) , u ( t ) , t ) + λ T ( t ) f u ( x ( t ) , u ( t ) , t ) = H ( x ( t ) , u ( t ) , λ ( t ) , t ) u = 0 I x ( x ( t ) , u ( t ) , t ) + λ T ( t ) f x ( x ( t ) , u ( t ) , t ) = H ( x ( t ) , u ( t ) , λ ( t ) , t ) x + λ ˙ ( t ) = 0 {\displaystyle {\begin{aligned}\underbrace {I_{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {u} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {u} }}}&=0\\\underbrace {I_{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} _{\mathbf {x} }(\mathbf {x} (t),\mathbf {u} (t),t)} _{={\frac {\partial H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)}{\partial \mathbf {x} }}}+{\dot {\mathbf {\lambda } }}(t)&=0\end{aligned}}}

Если и начальное значение , и конечное значение фиксированы, т. е . , то не требуется никаких условий на и . Если конечное значение свободно, как это часто бывает, то дополнительное условие необходимо для оптимальности. Последнее называется условием трансверсальности для задачи с фиксированным горизонтом. [7] x ( t 0 ) {\displaystyle \mathbf {x} (t_{0})} x ( t 1 ) {\displaystyle \mathbf {x} (t_{1})} d x ( t 0 ) = d x ( t 1 ) = 0 {\displaystyle \mathrm {d} \mathbf {x} (t_{0})=\mathrm {d} \mathbf {x} (t_{1})=0} λ ( t 0 ) {\displaystyle \mathbf {\lambda } (t_{0})} λ ( t 1 ) {\displaystyle \mathbf {\lambda } (t_{1})} λ ( t 1 ) = 0 {\displaystyle \mathbf {\lambda } (t_{1})=0}

Видно, что необходимые условия идентичны указанным выше для гамильтониана. Таким образом, гамильтониан можно понимать как устройство для генерации необходимых условий первого порядка. [8]

Гамильтониан в дискретном времени

Когда задача формулируется в дискретном времени, гамильтониан определяется как:

H ( x t , u t , λ t + 1 , t ) = λ t + 1 f ( x t , u t , t ) + I ( x t , u t , t ) {\displaystyle H(x_{t},u_{t},\lambda _{t+1},t)=\lambda _{t+1}^{\top }f(x_{t},u_{t},t)+I(x_{t},u_{t},t)\,}

и уравнения состояния являются

λ t = H x t {\displaystyle \lambda _{t}={\frac {\partial H}{\partial x_{t}}}}

(Обратите внимание, что дискретный по времени гамильтониан во времени включает в себя переменную регрессии во времени [9]. Эта небольшая деталь имеет важное значение, так как при дифференцировании по мы получаем член, включающий в правой части уравнений регрессии. Использование неправильного соглашения здесь может привести к неверным результатам, т. е. уравнению регрессии, которое не является обратным разностным уравнением). t {\displaystyle t} t + 1. {\displaystyle t+1.} x {\displaystyle x} λ t + 1 {\displaystyle \lambda _{t+1}}

Поведение гамильтониана с течением времени

Из принципа максимума Понтрягина можно вывести специальные условия для гамильтониана. [10] Когда конечное время фиксировано и гамильтониан не зависит явно от времени , тогда: [11] t 1 {\displaystyle t_{1}} ( H t = 0 ) {\displaystyle \left({\tfrac {\partial H}{\partial t}}=0\right)}

H ( x ( t ) , u ( t ) , λ ( t ) ) = c o n s t a n t {\displaystyle H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=\mathrm {constant} \,}

или если терминальное время свободно, то:

H ( x ( t ) , u ( t ) , λ ( t ) ) = 0. {\displaystyle H(x^{*}(t),u^{*}(t),\lambda ^{*}(t))=0.\,}

Далее, если конечное время стремится к бесконечности , то применяется условие трансверсальности гамильтониана. [12]

lim t H ( t ) = 0 {\displaystyle \lim _{t\to \infty }H(t)=0}

Гамильтониан управления в сравнении с гамильтонианом механики

Уильям Роуэн Гамильтон определил гамильтониан для описания механики системы. Это функция трех переменных, связанная с лагранжианом как

H ( p , q , t ) = p , q ˙ L ( q , q ˙ , t ) {\displaystyle {\mathcal {H}}(p,q,t)=\langle p,{\dot {q}}\rangle -L(q,{\dot {q}},t)}

где - лагранжиан , экстремум которого определяет динамику ( не лагранжиан, определенный выше), а - переменная состояния. Лагранжиан оценивается с представлением производной по времени эволюции состояния и , так называемый " сопряженный импульс ", относится к нему как L {\displaystyle L} q {\displaystyle q} q ˙ {\displaystyle {\dot {q}}} p {\displaystyle p}

p = L q ˙ {\displaystyle p={\frac {\partial L}{\partial {\dot {q}}}}} .

Затем Гамильтон сформулировал свои уравнения, описывающие динамику системы следующим образом:

d d t p ( t ) = q H {\displaystyle {\frac {d}{dt}}p(t)=-{\frac {\partial }{\partial q}}{\mathcal {H}}}
d d t q ( t ) =     p H {\displaystyle {\frac {d}{dt}}q(t)=~~{\frac {\partial }{\partial p}}{\mathcal {H}}}

Гамильтониан теории управления описывает не динамику системы, а условия экстремизации некоторой ее скалярной функции (лагранжиана) относительно управляющей переменной . Как обычно определяется, это функция 4 переменных u {\displaystyle u}

H ( q , u , p , t ) = p , q ˙ L ( q , u , t ) {\displaystyle H(q,u,p,t)=\langle p,{\dot {q}}\rangle -L(q,u,t)}

где — переменная состояния, а — управляющая переменная по отношению к той, которую мы экстремизируем. q {\displaystyle q} u {\displaystyle u}

Соответствующие условия для максимума:

d p d t = H q {\displaystyle {\frac {dp}{dt}}=-{\frac {\partial H}{\partial q}}}
d q d t =     H p {\displaystyle {\frac {dq}{dt}}=~~{\frac {\partial H}{\partial p}}}
H u = 0 {\displaystyle {\frac {\partial H}{\partial u}}=0}

Это определение согласуется с определением, данным в статье Сассмана и Виллемса. [13] (см. стр. 39, уравнение 14). Сассман и Виллемс показывают, как можно использовать гамильтониан управления в динамике, например, для задачи брахистохроны , но не упоминают предыдущую работу Каратеодори по этому подходу. [14]

Текущее значение и текущая стоимость Гамильтона

В экономике целевая функция в задачах динамической оптимизации часто напрямую зависит от времени только через экспоненциальное дисконтирование , так что она принимает вид

I ( x ( t ) , u ( t ) , t ) = e ρ t ν ( x ( t ) , u ( t ) ) {\displaystyle I(\mathbf {x} (t),\mathbf {u} (t),t)=e^{-\rho t}\nu (\mathbf {x} (t),\mathbf {u} (t))}

где называется функцией мгновенной полезности или функцией удачи. [15] Это позволяет переопределить гамильтониан как где ν ( x ( t ) , u ( t ) ) {\displaystyle \nu (\mathbf {x} (t),\mathbf {u} (t))} H ( x ( t ) , u ( t ) , λ ( t ) , t ) = e ρ t H ¯ ( x ( t ) , u ( t ) , λ ( t ) ) {\displaystyle H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)=e^{-\rho t}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}

H ¯ ( x ( t ) , u ( t ) , λ ( t ) ) e ρ t [ I ( x ( t ) , u ( t ) , t ) + λ T ( t ) f ( x ( t ) , u ( t ) , t ) ] = ν ( x ( t ) , u ( t ) , t ) + μ T ( t ) f ( x ( t ) , u ( t ) , t ) {\displaystyle {\begin{aligned}{\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))\equiv &\,e^{\rho t}\left[I(\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\lambda } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\right]\\=&\,\nu (\mathbf {x} (t),\mathbf {u} (t),t)+\mathbf {\mu } ^{\mathsf {T}}(t)\mathbf {f} (\mathbf {x} (t),\mathbf {u} (t),t)\end{aligned}}}

который называется текущим значением Гамильтона, в отличие от текущего значения Гамильтона, определенного в первом разделе. Наиболее примечательно, что переменные costate переопределяются как , что приводит к измененным условиям первого порядка. H ( x ( t ) , u ( t ) , λ ( t ) , t ) {\displaystyle H(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t),t)} μ ( t ) = e ρ t λ ( t ) {\displaystyle \mathbf {\mu } (t)=e^{\rho t}\mathbf {\lambda } (t)}

H ¯ ( x ( t ) , u ( t ) , λ ( t ) ) u = 0 {\displaystyle {\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {u} }}=0} ,
H ¯ ( x ( t ) , u ( t ) , λ ( t ) ) x = μ ˙ ( t ) + ρ μ ( t ) {\displaystyle {\frac {\partial {\bar {H}}(\mathbf {x} (t),\mathbf {u} (t),\mathbf {\lambda } (t))}{\partial \mathbf {x} }}=-{\dot {\mathbf {\mu } }}(t)+\rho \mathbf {\mu } (t)}

что следует непосредственно из правила продукта . С экономической точки зрения представляют собой текущие теневые цены на капитальные блага . μ ( t ) {\displaystyle \mathbf {\mu } (t)} x ( t ) {\displaystyle \mathbf {x} (t)}

Пример: модель Рэмси–Касса–Купманса

В экономике модель Рэмси –Касса–Купманса используется для определения оптимального поведения сбережений для экономики. Целевая функция – это функция общественного благосостояния , J ( c ) {\displaystyle J(c)}

J ( c ) = 0 T e ρ t u ( c ( t ) ) d t {\displaystyle J(c)=\int _{0}^{T}e^{-\rho t}u(c(t))dt}

максимизироваться путем выбора оптимального пути потребления . Функция указывает полезность репрезентативного агента потребления в любой заданный момент времени. Фактор представляет собой дисконтирование . Задача максимизации подчиняется следующему дифференциальному уравнению для интенсивности капитала , описывающему временную эволюцию капитала на эффективного работника: c ( t ) {\displaystyle c(t)} u ( c ( t ) ) {\displaystyle u(c(t))} c {\displaystyle c} e ρ t {\displaystyle e^{-\rho t}}

k ˙ = k t = f ( k ( t ) ) ( n + δ ) k ( t ) c ( t ) {\displaystyle {\dot {k}}={\frac {\partial k}{\partial t}}=f(k(t))-(n+\delta )k(t)-c(t)}

где - потребление периода t, - капитал периода t на одного работника (при ), - производство периода t, - темп прироста населения, - норма амортизации капитала, агент дисконтирует будущую полезность по ставке , при и . c ( t ) {\displaystyle c(t)} k ( t ) {\displaystyle k(t)} k ( 0 ) = k 0 > 0 {\displaystyle k(0)=k_{0}>0} f ( k ( t ) ) {\displaystyle f(k(t))} n {\displaystyle n} δ {\displaystyle \delta } ρ {\displaystyle \rho } u > 0 {\displaystyle u'>0} u < 0 {\displaystyle u''<0}

Здесь, — переменная состояния, которая развивается согласно приведенному выше уравнению, а — управляющая переменная. Гамильтониан становится k ( t ) {\displaystyle k(t)} c ( t ) {\displaystyle c(t)}

H ( k , c , μ , t ) = e ρ t u ( c ( t ) ) + μ ( t ) k ˙ = e ρ t u ( c ( t ) ) + μ ( t ) [ f ( k ( t ) ) ( n + δ ) k ( t ) c ( t ) ] {\displaystyle H(k,c,\mu ,t)=e^{-\rho t}u(c(t))+\mu (t){\dot {k}}=e^{-\rho t}u(c(t))+\mu (t)[f(k(t))-(n+\delta )k(t)-c(t)]}

Условия оптимальности:

H c = 0 e ρ t u ( c ) = μ ( t ) {\displaystyle {\frac {\partial H}{\partial c}}=0\Rightarrow e^{-\rho t}u'(c)=\mu (t)}
H k = μ t = μ ˙ μ ( t ) [ f ( k ) ( n + δ ) ] = μ ˙ {\displaystyle {\frac {\partial H}{\partial k}}=-{\frac {\partial \mu }{\partial t}}=-{\dot {\mu }}\Rightarrow \mu (t)[f'(k)-(n+\delta )]=-{\dot {\mu }}}

в дополнение к условию трансверсальности . Если мы допустим , то логарифмическое дифференцирование первого условия оптимальности относительно дает μ ( T ) k ( T ) = 0 {\displaystyle \mu (T)k(T)=0} u ( c ) = log ( c ) {\displaystyle u(c)=\log(c)} t {\displaystyle t}

ρ c ˙ c ( t ) = μ ˙ μ ( t ) {\displaystyle -\rho -{\frac {\dot {c}}{c(t)}}={\frac {\dot {\mu }}{\mu (t)}}}

Подставляя это уравнение во второе условие оптимальности, получаем

ρ + c ˙ c ( t ) = f ( k ) ( n + δ ) {\displaystyle \rho +{\frac {\dot {c}}{c(t)}}=f'(k)-(n+\delta )}

которое известно как правило Кейнса-Рэмси , устанавливающее условие потребления в каждом периоде, соблюдение которого обеспечивает максимальную полезность в течение жизни.

Ссылки

  1. ^ Фергюсон, Брайан С.; Лим, GC (1998). Введение в динамические экономические проблемы . Манчестер: Manchester University Press. стр. 166–167. ISBN 0-7190-4996-2.
  2. ^ Диксит, Авинаш К. (1990). Оптимизация в экономической теории. Нью-Йорк: Oxford University Press. С. 145–161. ISBN 978-0-19-877210-1.
  3. ^ Кирк, Дональд Э. (1970). Оптимальная теория управления: Введение . Englewood Cliffs: Prentice Hall. стр. 232. ISBN 0-13-638098-0.
  4. ^ Гандольфо, Джанкарло (1996). Экономическая динамика (третье изд.). Берлин: Springer. С. 375–376. ISBN 3-540-60988-1.
  5. ^ Seierstad, Atle; Sydsæter, Knut (1987). Оптимальная теория управления с экономическими приложениями . Амстердам: Северная Голландия. С. 107–110. ISBN 0-444-87923-4.
  6. ^ Мангасарян, О. Л. (1966). «Достаточные условия оптимального управления нелинейными системами». Журнал SIAM по управлению . 4 (1): 139–152. doi :10.1137/0304013.
  7. ^ Леонард, Даниэль; Лонг, Нго Ван (1992). «Ограничения конечной точки и условия трансверсальности». Оптимальная теория управления и статическая оптимизация в экономике . Нью-Йорк: Cambridge University Press. стр. 222 [Теорема 7.1.1]. ISBN 0-521-33158-7.
  8. ^ Камьен, Мортон И.; Шварц, Нэнси Л. (1991). Динамическая оптимизация: дисперсионное исчисление и оптимальное управление в экономике и менеджменте (второе изд.). Амстердам: Северная Голландия. С. 126–127. ISBN 0-444-01609-0.
  9. ^ Йонссон, У. (2005). «ДИСКРЕТНАЯ ВЕРСИЯ PMP» (PDF) . стр. 25. Архивировано из оригинала (PDF) 22 января 2023 г.
  10. ^ Найду, Десинени С. (2003). Оптимальные системы управления . Бока-Ратон: CRC Press. стр. 259–260. ISBN 0-8493-0892-5.
  11. ^ Torres, Delfim FM (2002). "Замечательное свойство экстремалей динамической оптимизации". Investigacao Operacional . 22 (2): 253–263. arXiv : math/0212102 . Bibcode :2002math.....12102T.
  12. ^ Мишель, Филипп (1982). «Об условии трансверсальности в оптимальных задачах с бесконечным горизонтом». Econometrica . 50 (4): 975–985. doi :10.2307/1912772. JSTOR  1912772. S2CID  16503488.
  13. ^ Sussmann; Willems (июнь 1997 г.). "300 лет оптимального управления" (PDF) . Журнал IEEE Control Systems . doi :10.1109/37.588098. Архивировано из оригинала (PDF) 30 июля 2010 г.
  14. ^ См. Pesch, HJ; Bulirsch, R. (1994). «Принцип максимума, уравнение Беллмана и работа Каратеодори». Журнал теории оптимизации и приложений . 80 (2): 199–225. doi :10.1007/BF02192933. S2CID  121749702.
  15. ^ Бевр, Коре (весна 2005 г.). «Экономика 4350: Рост и инвестиции: конспект лекций 7» (PDF) . Факультет экономики Университета Осло.

Дальнейшее чтение

  • Леонард, Даниэль; Лонг, Нго Ван (1992). «Принцип максимума». Оптимальная теория управления и статическая оптимизация в экономике . Нью-Йорк: Cambridge University Press. С. 127–168. ISBN 0-521-33158-7.
  • Такаяма, Акира (1985). «Развитие теории оптимального управления и ее применения». Математическая экономика (2-е изд.). Нью-Йорк: Cambridge University Press. С. 600–719. ISBN 0-521-31498-4.
  • Wulwick, Nancy (1995). "Гамильтонов формализм и теория оптимального роста". В Rima, IH (ред.). Измерение, квантификация и экономический анализ . Лондон: Routledge. ISBN 978-0-415-08915-9.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Hamiltonian_(control_theory)&oldid=1239439864"