Функція цінності

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Функція цінності оптимізаційної задачі дає значення, отримане виконанням цільової функції, але тільки в залежності від параметрів задачі.[1][2] У керованій динамічній системі функція цінності представляє оптимальний винагороду системи на інтервалі [t, t1] при старті в момент часу t стану x(t)=x.[3] Якщо цільова функція представляє деяку вартість, яку потрібно мінімізувати, функцію цінності можна інтерпретувати як собівартість завершення оптимальної програми, і тому її називають «функцією собівартості».[4][5] В економічному контексті, де цільова функція зазвичай представляє корисність, функція цінності концептуально еквівалентна функції непрямої корисності.[6][7]

У задачі оптимального керування функція цінності визначається як супремум цільової функції, взятий на множині допустимих дій. При , типова задача оптимального керування полягає в

за умови, що

з початковим станом .[8] Цільова функція має бути максимізовано за всіма допустимими діями , де є функцією вимірною за мірою Лебега, яка відображає інтервал у визначену підмножину . Тоді функція цінності має вигляд

з , де  — це «втрати». Якщо  — це оптимальна пара векторів дій та станів, то . Функція , яка повертає оптимальний вектор дій для стану називається функцією стратегії.[9]

Принцип оптимальності Беллмана стверджує, що будь-яка оптимальна стратегія в часі , приймаючи поточний стан за «новий» початковий стан буде оптимальною і для решти задачі. Якщо функція цінності є безперервно диференційованою[10], то вона зводиться до диференціального рівняння в частинних похідних, відомого як рівняння Гамільтона–Якобі–Беллмана,

де максимум у правій частині також можна переписати як Гамільтоніан[en],

, як

з відіграють роль спряжених змінних[en].[11] Враховуючи це, маємо , і після диференціювання обох сторін рівняння Гамільтона–Якобі–Беллмана відносно рівняння має вигляд

яке після заміни відповідних членів відновлює спряжене рівняння[en]

де це нотація Ньютона для похідної за часом.[12]

Функція цінності є унікальним в'язкісним рішенням[en] рівняння Гамільтона–Якобі–Беллмана.[13] У замкненій онлайн системі з наближено-оптимальним управлінням функція цінності також є функцією Ляпунова, яка встановлює глобальну асимптотичну стійкість замкнутої системи.[14]

Примітки[ред. | ред. код]

  1. Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. с. 81—83. ISBN 0-387-90155-8.
  2. Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. с. 185. ISBN 0-521-60368-4.
  3. Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. с. 82. ISBN 978-0-262-01573-8.
  4. Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. с. 2. ISBN 1-886529-10-8.
  5. EE365: Dynamic Programming (PDF).
  6. Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. с. 964. ISBN 0-19-507340-1.
  7. Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. с. 145. ISBN 978-0-691-11867-3.
  8. Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (вид. 2nd). Amsterdam: North-Holland. с. 259. ISBN 0-444-01609-0.
  9. Ljungqvist, Lars; Sargent, Thomas J. (2018). Recursive Macroeconomic Theory (вид. Fourth). Cambridge: MIT Press. с. 106. ISBN 978-0-262-03866-9.
  10. Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows an application of the envelope theorem, see Benveniste, L. M.; Scheinkman, J. A. (1979). On the Differentiability of the Value Function in Dynamic Models of Economics. Econometrica. 47 (3): 727—732. doi:10.2307/1910417. JSTOR 1910417. Also see Seierstad, Atle (1982). Differentiability Properties of the Optimal Value Function in Control Theory. Journal of Economic Dynamics and Control. 4: 303—310. doi:10.1016/0165-1889(82)90019-7.
  11. Kirk, Donald E. (1970). Optimal Control Theory. Englewood Cliffs, NJ: Prentice-Hall. с. 88. ISBN 0-13-638098-0.
  12. Zhou, X. Y. (1990). Maximum Principle, Dynamic Programming, and their Connection in Deterministic Control. Journal of Optimization Theory and Applications. 65 (2): 363—373. doi:10.1007/BF01102352.
  13. Theorem 10.1 in Bressan, Alberto (2019). Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems (PDF). Lecture Notes.
  14. Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). Optimal Control and Lyapunov Stability. Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. с. 26—27. ISBN 978-3-319-78383-3.

Подальше читання[ред. | ред. код]