função de valor

Introdução

Em geral

A função valor de um problema de otimização fornece o valor "Valor (matemática)") alcançado pela função perda de uma solução, desde que dependa apenas dos parâmetros do problema.[1][2].

Propriedades

Em um sistema dinâmico controlado, a função de valor representa o resultado ótimo do sistema no intervalo [t, t] quando a variável de estado "variável de estado (sistema dinâmico)") é iniciada no tempo t x(t)=x.[3] Se a função objetivo representa algum custo que deve ser minimizado, a função de valor pode ser interpretada como o custo para terminar o programa ótimo e é, portanto, chamada de "função de custo inclinado".[4][5] Em um contexto econômico, onde a função objetivo geralmente representa a utilidade obtida "Utilidade (economia)"), a função de valor é conceitualmente equivalente à função de utilidade indireta.[6][7].

Num problema de controle ótimo, a função valor é definida como o elemento supremo e mínimo da função objetivo assumido sobre o conjunto de controles admissíveis. Dado, um problema típico de controle ótimo é:.

sujeito a.

com variável de estado inicial.[8] A função objetivo deve ser maximizada sobre todos os controles admissíveis, onde é uma função de Lebesgue mensurável dependente de algum conjunto arbitrário prescrito em . A função de valor é então definida como:

com , onde está o "valor residual". Se o par ideal de trajetórias de controle e estado for, então. A função que fornece controle ideal com base no estado atual é chamada de política de controle de feedback,[4] ou simplesmente função de política.[9].

O princípio de otimização de Bellman afirma aproximadamente que qualquer política ótima no momento, tomando o estado atual tratado como a "nova" condição inicial, deve ser ótima para o problema restante. Se a função de valor for continuamente diferenciável,[10] isso dá origem a uma importante equação diferencial parcial, conhecida como equação de Hamilton-Jacobi-Bellman.

onde o maximizador no lado direito da equação também pode ser reescrito como um hamiltoniano "Hamiltoniano (teoria de controle)"), , como.

com o desempenho do papel das variáveis de custo").[11] Dada esta definição, também temos que, e depois de diferenciar ambos os lados da equação de Hamilton-Jacobi-Bellman em relação a,.

que, após substituir os termos apropriados, recupera a equação de custo").

onde é expresso de acordo com a notação de Newton da derivada em relação ao tempo.[12].

A função valor é a solução única de viscosidade da equação de Hamilton-Jacobi-Bellman.

Referências

[1] ↑ Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. pp. 81-83. ISBN 0-387-90155-8.: https://books.google.com/books?id=qJDbBwAAQBAJ&pg=PA81
[2] ↑ Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.: https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA185
[3] ↑ Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.
[4] ↑ a b Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.
[5] ↑ «EE365: Dynamic Programming».: https://stanford.edu/class/ee365/lectures/dp.pdf#page=3
[6] ↑ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.: https://archive.org/details/microeconomicthe0000masc
[7] ↑ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.: https://books.google.com/books?id=j5P83LtzVO8C&pg=PA145

função de valor

Introdução

Em geral

Propriedades

sujeito a.

onde o maximizador no lado direito da equação também pode ser reescrito como um hamiltoniano "Hamiltoniano (teoria de controle)"), , como.

Referências

[1] ↑ Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. pp. 81-83. ISBN 0-387-90155-8.: https://books.google.com/books?id=qJDbBwAAQBAJ&pg=PA81

[2] ↑ Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.: https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA185

[3] ↑ Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.

[4] ↑ a b Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.

[5] ↑ «EE365: Dynamic Programming».: https://stanford.edu/class/ee365/lectures/dp.pdf#page=3

[6] ↑ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.: https://archive.org/details/microeconomicthe0000masc

[7] ↑ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.: https://books.google.com/books?id=j5P83LtzVO8C&pg=PA145

[8] ↑ Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (2nd edición). Amsterdam: North-Holland. p. 259. ISBN 0-444-01609-0.

[9] ↑ Ljungqvist, Lars; Sargent, Thomas J. (2018). Recursive Macroeconomic Theory (Fourth edición). Cambridge: MIT Press. p. 106. ISBN 978-0-262-03866-9.: https://books.google.com/books?id=Jm1qDwAAQBAJ&pg=PA106

[10] ↑ Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, que a su vez permite una aplicación del teorema de la envolvente, véase Benveniste, L. M.; Scheinkman, J. A. (1979). «On the Differentiability of the Value Function in Dynamic Models of Economics». Econometrica 47 (3): 727-732. JSTOR 1910417. doi:10.2307/1910417. Ver también Seierstad, Atle (1982). «Differentiability Properties of the Optimal Value Function in Control Theory». Journal of Economic Dynamics and Control 4: 303-310. doi:10.1016/0165-1889(82)90019-7.: https://es.wikipedia.org//www.jstor.org/stable/1910417

[11] ↑ Kirk, Donald E. (1970). Optimal Control Theory. Englewood Cliffs, NJ: Prentice-Hall. p. 88. ISBN 0-13-638098-0.

[12] ↑ Zhou, X. Y. (1990). «Maximum Principle, Dynamic Programming, and their Connection in Deterministic Control». Journal of Optimization Theory and Applications 65 (2): 363-373. S2CID 122333807. doi:10.1007/BF01102352.: https://api.semanticscholar.org/CorpusID:122333807

[13] ↑ Theorem 10.1 in Bressan, Alberto (2019). «Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems». Lecture Notes.: http://personal.psu.edu/axb62/PSPDF/HJlnotes19.pdf#page=54

[14] ↑ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). «Optimal Control and Lyapunov Stability». Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. pp. 26-27. ISBN 978-3-319-78383-3.: https://books.google.com/books?id=R3haDwAAQBAJ&pg=PA27

Navegación

função de valor

Introdução

Em geral

Propriedades

Referências

função de valor

Introdução

Em geral

Propriedades

Referências