Función de valor
Introducción
La función de valor de un problema de optimización proporciona el valor "Valor (matemáticas)") alcanzado por la función de pérdida de una solución, siempre y cuando solo dependa de los parámetros del problema.[1][2].
Propiedades
En un sistema dinámico controlado, la función de valor representa el resultado óptimo del sistema en el intervalo [t, t] cuando se inicia la variable de estado "Variable de estado (sistema dinámico)") en el momento t x(t)=x.[3] Si la función objetivo representa algún costo que debe minimizarse, la función de valor puede interpretarse como el costo para terminar el programa óptimo y, por lo tanto, se la denomina "función de costo pendiente".[4][5] En un contexto económico, donde la función objetivo generalmente representa la utilidad obtenida "Utilidad (economía)"), la función de valor es conceptualmente equivalente a la función de utilidad indirecta.[6][7].
En un problema de control óptimo, la función de valor se define como el elemento supremo e ínfimo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema típico de control óptimo es:.
sujeto a.
con variable de estado inicial .[8] La función objetivo debe maximizarse sobre todos los controles admisibles , donde es una función medible de Lebesgue dependiente de sobre algún conjunto arbitrario prescrito en . La función de valor se define entonces como:.
con , donde es el "valor residual". Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación,[4] o simplemente función de política.[9].
El principio de optimización de Bellman establece aproximadamente que cualquier política óptima en el momento , tomando como el estado actual tratado como condición inicial "nueva" debe ser óptima para el problema restante. Si la función de valor resulta ser continuamente diferenciable,[10] esto da lugar a una ecuación en derivadas parciales importante, conocida como ecuación de Hamilton-Jacobi-Bellman.
donde el maximizador en el lado derecho de la ecuación también se puede reescribir como un hamiltoniano "Hamiltoniano (teoría de control)"), , como.
con desempeñando el papel de las variables de costo").[11] Dada esta definición, se tiene además que , y después de diferenciar ambos lados de la ecuación de Hamilton-Jacobi-Bellman con respecto a ,.