Метод часових різниць
Метод часових різниць (англ. Temporal difference learning) належить до безмодельних методів навчання з підкріпленням, які навчаються за допомогою бутстрепу з поточного значення функції цінності. Цей метод робить вибірку із середовища, як методи Монте-Карло, і оновлюється на основі поточної оцінки функції цінностей, як методи динамічного програмування.[1]
У той час як методи Монте-Карло змінюють свої оцінки лише після того, як відомий кінцевий результат, методи ЧР коригують прогноз, підлаштовуючись під новіші більш точні прогнози до того, як остаточний результат стане відомим.[2] Це є формою бутстрепу, як показано на такому прикладі:
«Припустимо, ви хочете передбачити погоду на суботу, і у вас є модель, яка передбачає погоду в суботу, враховуючи погоду кожного дня тижня. У стандартному випадку потрібно почекати до суботи, а потім налаштувати всі свої моделі. Однак, коли, наприклад, вже настала п'ятниця, то ви повинні мати досить добре уявлення про погоду в суботу — і таким чином мати можливість змінити суботню модель до настання суботи».[2]
Метод часових різниць має зв'язок з моделлю часових різниць навчання тварин.[3][4][5][6][7]
Табличний TD(0) метод є одним із найпростіших методів ЧР. Це окремий випадок більш загальних методів стохастичної апроксимації. Він знаходить наближення функції цінності станів скінченного Марковського процесу вирішування (МПВ) зі стратегією . Позначимо функцію цінності стану МПВ зі станами , винагородами , коефіцієнтом знецінювання[8] та стратегією як :
Для стислості не будемо позначати дію в формулі. задовольняє рівнянню Гамільтона — Якобі — Беллмана:
Таким чином є неупередженою оцінкою . На основі цього спостереження можна побудувати наступний алгоритм оцінки .
Алгоритм починається з випадкового заповнення таблиці для кожного стану МПВ. Темп навчання обирається позитивним.
Потім ми багаторазово оцінюємо стратегію , отримуємо винагороду і оновлюємо функцію цінностей для попереднього стану за допомогою такої формули:[9]
де і попередній і поточний стани. Значення відоме як цільове значення ЧР.
TD-Lambda — це алгоритм навчання, винайдений Річардом С. Саттоном на основі попередніх робіт Артура Семюеля про метод часових різниць.[1] Цей алгоритм став відомим завдяки тому, що Джеральд Тезауро застосував його для створення TD-нард, програми, яка навчилася грати в нарди на рівні професіональних гравців-людей.[10]
Параметр лямбда () — це коефіцієнт загасання, він знаходиться в межах . Більші значення цього параметру призводять до довготривалих слідів; тобто більша частка винагороди може бути додана до віддалених станів і дій, при великих . Тоді, як при отримуємо алгоритм навчання з підкріпленням Монте-Карло.
Алгоритм часових різниць також отримав увагу в області нейробіології. Науковці виявили, що швидкість спрацьовування дофамінових нейронів у вентральній області покришки і чорній речовині, схоже, імітує функцію помилки в алгоритмі.[3][4][5][6][7] Функція повертає різницю між оціненою винагородою за будь-який даний стан або часовий крок і фактично отриманою винагородою. Чим більша функція помилки, тим більша різниця між очікуваною та фактичною винагородою. Якщо поєднати це зі стимулом, який точно відображає майбутню винагороду, то помилку можна використовувати, щоб отримати зв'язок між стимулом і майбутньою винагородою.
За спостереженнями, клітини дофаміну поводяться схожим чином. В одному з експериментів замірювання дофамінових клітин проводили під час навчання мавпи асоціюванню стимулів з винагородою в вигляді соку.[11] Спочатку клітини дофаміну збільшували швидкість спрацьовування, якщо мавпі давали сік, вказуючи на різницю в очікуваних і фактичних винагородах. З часом це збільшення віддачі поширилося на найраніший стимул, що стабільно призводив до винагороди. Після того, як мавпа була повністю навчена, швидкість віддачі не збільшувалась після надання очікуваної нагороди. Згодом активація дофамінових клітин сповільнилася нижче нормальної активації, коли очікувана винагорода не була отримана. Це схоже на те, як функція помилки в ЧР навчанні використовується для навчання з підкріпленням.
Потенційний зв'язок між цією моделлю та неврологічною функцією ініціював дослідження, в яких намагалися пояснити численні аспекти поведінкових досліджень за допомогою часових різниць.[12] Його також використовували для вивчення таких розладів, як шизофренія або наслідків фармакологічного регулювання дофаміну на навчання.[13]
- ↑ а б Richard Sutton; Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 978-0-585-02445-5. Архів оригіналу за 30 березня 2017.
- ↑ а б Richard Sutton (1988). Learning to predict by the methods of temporal differences. Machine Learning. 3 (1): 9—44. doi:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page [Архівовано 2017-03-30 у Wayback Machine.])
- ↑ а б Schultz, W, Dayan, P & Montague, PR. (1997). A neural substrate of prediction and reward. Science. 275 (5306): 1593—1599. CiteSeerX 10.1.1.133.6176. doi:10.1126/science.275.5306.1593. PMID 9054347.
- ↑ а б Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1 березня 1996). A framework for mesencephalic dopamine systems based on predictive Hebbian learning (PDF). The Journal of Neuroscience. 16 (5): 1936—1947. doi:10.1523/JNEUROSCI.16-05-01936.1996. ISSN 0270-6474. PMC 6578666. PMID 8774460. Архів оригіналу (PDF) за 21 липня 2018. Процитовано 2 грудня 2021.
- ↑ а б Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). Using aperiodic reinforcement for directed self-organization (PDF). Advances in Neural Information Processing Systems. 5: 969—976. Архів оригіналу (PDF) за 12 березня 2006. Процитовано 2 грудня 2021.
- ↑ а б Montague, P. R.; Sejnowski, T. J. (1994). The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms. Learning & Memory. 1 (1): 1—33. ISSN 1072-0502. PMID 10467583.
- ↑ а б Sejnowski, T.J.; Dayan, P.; Montague, P.R. (1995). Predictive hebbian learning. Proceedings of Eighth ACM Conference on Computational Learning Theory: 15—18. doi:10.1145/225298.225300. ISBN 0897917235.
- ↑ Параметр знецінювання є часовою преференцією більш негайним винагородам перед віддаленими майбутніми винагородами
- ↑ Reinforcement learning: An introduction (PDF). с. 130. Архів оригіналу (PDF) за 12 липня 2017.
- ↑ Tesauro, Gerald (March 1995). Temporal Difference Learning and TD-Gammon. Communications of the ACM. 38 (3): 58—68. doi:10.1145/203330.203343. Архів оригіналу за 11 січня 2013. Процитовано 8 лютого 2010.
- ↑ Schultz, W. (1998). Predictive reward signal of dopamine neurons. Journal of Neurophysiology. 80 (1): 1—27. CiteSeerX 10.1.1.408.5994. doi:10.1152/jn.1998.80.1.1. PMID 9658025.
- ↑ Dayan, P. (2001). Motivated reinforcement learning (PDF). Advances in Neural Information Processing Systems. MIT Press. 14: 11—18. Архів оригіналу (PDF) за 25 травня 2012. Процитовано 2 грудня 2021.
- ↑ Smith, A., Li, M., Becker, S. and Kapur, S. (2006). Dopamine, prediction error, and associative learning: a model-based account. Network: Computation in Neural Systems. 17 (1): 61—84. doi:10.1080/09548980500361624. PMID 16613795.