função de valor
Introdução
Em geral
A função valor de um problema de otimização fornece o valor "Valor (matemática)") alcançado pela função perda de uma solução, desde que dependa apenas dos parâmetros do problema.[1][2].
Propriedades
Em um sistema dinâmico controlado, a função de valor representa o resultado ótimo do sistema no intervalo [t, t] quando a variável de estado "variável de estado (sistema dinâmico)") é iniciada no tempo t x(t)=x.[3] Se a função objetivo representa algum custo que deve ser minimizado, a função de valor pode ser interpretada como o custo para terminar o programa ótimo e é, portanto, chamada de "função de custo inclinado".[4][5] Em um contexto econômico, onde a função objetivo geralmente representa a utilidade obtida "Utilidade (economia)"), a função de valor é conceitualmente equivalente à função de utilidade indireta.[6][7].
Num problema de controle ótimo, a função valor é definida como o elemento supremo e mínimo da função objetivo assumido sobre o conjunto de controles admissíveis. Dado, um problema típico de controle ótimo é:.
sujeito a.
com variável de estado inicial.[8] A função objetivo deve ser maximizada sobre todos os controles admissíveis, onde é uma função de Lebesgue mensurável dependente de algum conjunto arbitrário prescrito em . A função de valor é então definida como:
com , onde está o "valor residual". Se o par ideal de trajetórias de controle e estado for, então. A função que fornece controle ideal com base no estado atual é chamada de política de controle de feedback,[4] ou simplesmente função de política.[9].
O princípio de otimização de Bellman afirma aproximadamente que qualquer política ótima no momento, tomando o estado atual tratado como a "nova" condição inicial, deve ser ótima para o problema restante. Se a função de valor for continuamente diferenciável,[10] isso dá origem a uma importante equação diferencial parcial, conhecida como equação de Hamilton-Jacobi-Bellman.
onde o maximizador no lado direito da equação também pode ser reescrito como um hamiltoniano "Hamiltoniano (teoria de controle)"), , como.
com o desempenho do papel das variáveis de custo").[11] Dada esta definição, também temos que, e depois de diferenciar ambos os lados da equação de Hamilton-Jacobi-Bellman em relação a,.
que, após substituir os termos apropriados, recupera a equação de custo").
onde é expresso de acordo com a notação de Newton da derivada em relação ao tempo.[12].
A função valor é a solução única de viscosidade da equação de Hamilton-Jacobi-Bellman.
Referências
- [1] ↑ Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. pp. 81-83. ISBN 0-387-90155-8.: https://books.google.com/books?id=qJDbBwAAQBAJ&pg=PA81
- [2] ↑ Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.: https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA185
- [3] ↑ Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.
- [4] ↑ a b Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.
- [5] ↑ «EE365: Dynamic Programming».: https://stanford.edu/class/ee365/lectures/dp.pdf#page=3
- [6] ↑ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.: https://archive.org/details/microeconomicthe0000masc
- [7] ↑ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.: https://books.google.com/books?id=j5P83LtzVO8C&pg=PA145