Навчання з підкріпленням: відмінності між версіями

Інтерактивний перегляд історії

[неперевірена версія]

[перевірена версія]

← Попереднє редагування Наступне редагування →

Вилучено вміст Додано вміст

ВізуальнийВікірозмітка

Лінійно

Версія за 22:04, 27 серпня 2016

Про підкріплення в психології див. Підкріплення^[en] та Навчання методом проб, помилок^[en]

Навчання з підкріпленням (англ. reinforcement learning) — це галузь машинного навчання, натхнена біхевіористською психологією, що займається питанням про те, які дії● (англ. actions) повинні виконувати програмні агенти в певному середовищі (англ. environment) задля максимізації деякого уявлення про сукупну винагороду (англ. reward). Через її універсальність, дану задачу вивчають і багато інших дисциплін, таких як теорія ігор, теорія керування, дослідження операцій, теорія інформації, оптимізація на основі моделювання●, поліагентні системи, колективний інтелект, статистика та генетичні алгоритми. В літературі про дослідження та керування операціями галузь, що займається навчанням з підкріпленням, називається наближеним динамічним програмуванням (англ. approximate dynamic programming). Задачу навчання з підкріпленням було досліджувано теорією оптимального керування, проте більшість досліджень стосувалися саме існування оптимальних рішень та їх характеристики, а не аспектів навчання чи наближення. В економіці та теорії ігор навчання з підкріпленням може використовуватись для пояснення того, як може виникати рівновага за обмеженої раціональності●.

В машинному навчанні середовище зазвичай формулюється як марковський процес ухвалення рішень● (МПУР, англ. Markov decision process, MDP), оскільки багато алгоритмів навчання з підкріпленням для цього контексту використовують методики динамічного програмування. Основна відмінність між класичними методиками й алгоритмами навчання з підкріпленням полягає в тому, що останні не потребують знання про МПУР, і вони орієнтовані на великі МПУР, в яких точні методи стають нездійсненними.

Навчання з підкріпленням відрізняється від стандартного навчання з учителем тим, що пари правильних входів/виходів ніколи не представляються, а недостатньо оптимальні дії явно не виправляються. Крім того, є акцент на інтерактивній продуктивності, який включає знаходження балансу між дослідженням (незвіданої території, англ. exploration) та використанням (поточного знання, англ. exploitation). Компроміс між дослідженням та використанням у навчанні з підкріпленням найретельніше вивчався через задачу багаторукого бандита● та скінченні МПУР.

Введення

Базова модель навчання з підкріпленням складається з:

множини станів середовища $S$ ;
множини дій $A$ ;
правил переходу між станами;
правил, які визначають скалярну безпосередню винагороду (англ. scalar immediate reward) переходу; і
правил, які описують, що спостерігає агент.

Ці правила часто є стохастичними. Спостереження зазвичай включає в себе скалярну безпосередню винагороду, пов'язану з крайнім переходом. У багатьох працях також вважають, що агент спостерігає поточний стан середовища, в разі чого говорять про повну спостережуваність (англ. full observability), тоді як в іншому разі говорять про часткову спостережуваність (англ. partial observability). Іноді множина доступних агентові дій є обмеженою (наприклад, ви не можете витрачати більше грошей, ніж маєте).

Агент навчання з підкріпленням взаємодіє зі своїм середовищем у дискретні моменти часу. В кожен момент часу $t$ агент отримує спостереження $o_{t}$ , яке зазвичай включає винагороду $r_{t}$ . Потім він обирає дію $a_{t}$ з множини доступних дій, яка відтак відправляється до середовища. Середовище переходить до нового стану $s_{t+1}$ , і визначається винагорода $r_{t+1}$ , пов'язана з переходом (англ. transition) $(s_{t},a_{t},s_{t+1})$ . Метою агента навчання з підкріпленням є збирати якомога більше винагороди. Агент може обирати будь-яку дію як функцію історії, і може навіть робити свій вибір дії● випадковим.

Коли продуктивність агента порівнюється з продуктивністю агента, який діє оптимально від початку, то різниця в продуктивності призводить до поняття жалю (англ. regret). Зверніть увагу, що, щоби діяти майже оптимально, агент мусить розуміти довготермінові наслідки своїх дій: щоби максимізувати свій майбутній дохід, мені краще зараз піти до школи, хоча пов'язана з цим безпосередня грошова винагорода може бути від'ємною.

Таким чином, навчання з підкріпленням є особливо добре пристосованим для задач, які включають компроміс між довготерміновою та короткотерміновою винагородою. Його було успішно застосовувано до різноманітних задач, включно з керуванням роботами^[en], розкладами для ліфтів, телекомунікаціями, нардами, шашками^[1] та ґо (AlphaGo).

Потужним навчання з підкріпленням роблять дві складові: використання зразків для оптимізації продуктивності, та застосування наближень функцій, щоби мати справу з великими середовищами. Завдяки цим двом складовим навчання з підкріпленням можливо застосовувати у великих середовищах в будь-яких із наступних ситуацій:

Модель середовища є відомою, але аналітичний розв'язок відсутній;
Задано лише імітаційну модель середовища (предмет оптимізації на основі імітації●);^[2]
Єдиним способом збирання інформації про середовище є взаємодія з ним.

Перші дві з цих задач можливо розглядати як задачі планування (оскільки модель в якомусь вигляді існує), тоді як останню можливо розглядати як справжню задачу навчання. Проте за методології навчання з підкріпленням обидві задачі планування може бути перетворено на задачі машинного навчання.

Дослідження

Описана задача навчання з підкріпленням вимагає розумних механізмів дослідження. Відомо, що випадковий вибір дій без прив'язки до оцінюваного розподілу ймовірності викликає дуже погану продуктивність. Випадок (невеликих) скінченних МПУР в даний час є відносно добре вивченим. Проте через брак алгоритмів, які б довідно добре масштабувалися з числом станів (або масштабувалися до задач з нескінченними просторами станів), на практиці люди вдаються до простих методів дослідження. Одним із таких методів є $\epsilon$ -жадібний, коли агент вибирає дію, яка за його переконанням має найкращий довготермінових ефект, з імовірністю $1-\epsilon$ , а інакше вибирає дію рівномірно випадково. Тут $0<\epsilon <1$ є параметром налаштування, який іноді змінюється, або згідно фіксованого розкладу (роблячи так, що агент з плином часу досліджує менше), або адаптивно на основі якихось евристик.

Алгоритми для навчання керуванню

Навіть якщо питання дослідження не береться до уваги, і навіть якщо стан можна було спостерігати (що ми припускаємо, з цього моменту), лишається задача з'ясування на основі попереднього досвіду, які дії є добрими.

Критерій оптимальності

Для спрощення на хвилинку припустімо, що досліджувана задача є епізодичною (англ. episodic), із завершенням епізоду при досягненні деякого завершального стану (англ. terminal state). Припустімо далі, що незалежно від того, який план дій обирає агент, завершення є неминучим. За деяких додаткових м'яких умов закономірності математичне сподівання повної винагороди є добре визначеним для будь-якої стратегії та будь-якого початкового розподілу над станами. Тут стратегія (англ. policy) позначає відображення, яке призначає деякий розподіл імовірності над діями всім можливим історіям.

Таким чином, для заданого зафіксованого початкового розподілу $\mu$ ми можемо поставити у відповідність стратегії $\pi$ очікувану віддачу $\rho ^{\pi }$ :

\rho ^{\pi }=E[R|\pi ],

де випадкова величина $R$ позначає віддачу (англ. return), і визначається як

R=\sum _{t=0}^{N-1}r_{t+1},

де $r_{t+1}$ є винагородою, отриманою після $t$ -того переходу, початковий стан вибирається випадково з $\mu$ , а дії обираються стратегією $\pi$ . Тут $N$ позначає (випадковий) час досягнення завершального стану, тобто, час, коли завершується епізод.

У випадку не епізодичних задач віддачу часто знецінюють (англ. discount),

R=\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1},

породжуючи критерій загальної очікуваної знеціненої винагороди. Тут $0\leq \gamma \leq 1$ є так званим коефіцієнтом знецінювання (англ. discount-factor). Оскільки незнецінена віддача є окремим випадком знеціненої віддачі, від цього моменту ми розглядатимемо знецінювання. Хоч це й виглядає безневинним, знецінювання насправді є проблематичним, якщо турбуватися про інтерактивну продуктивність. Це пояснюється тим, що знецінювання робить початкові моменти часу важливішими. Оскільки для агента, що навчається, найправдоподібніше робити помилки протягом перших кількох кроків після початку його «життя», жоден непоінформований алгоритм навчання не може досягти майже оптимальної продуктивності за знецінювання, навіть якщо клас середовищ обмежено скінченними МПУР. (Проте це не означає, що, маючи достатньо часу, агент, що навчається, не зможе з'ясувати, як діяти майже оптимально, якби час було перезапущено.)

То задачею є вказати алгоритм, який можна використовувати для знаходження стратегії з максимальною очікуваною віддачею. З теорії МПУР відомо, що без втрати універсальності пошук може бути обмежено множиною так званих постійних (англ. stationary) стратегій. Стратегія називається постійною, якщо розподіл дій, який вона повертає, залежить лише від крайнього відвіданого стану (який є частиною історії спостережень агента, згідного нашого спрощувального припущення). Насправді, пошук може бути додатково обмежено детерміністичними (англ. deterministic) постійними стратегіями. Детерміністична постійна стратегія — це така, яка обирає дії на основі поточного стану детерміністично. Оскільки будь-яку таку стратегію може бути ідентифіковано відображенням з множини станів на множину дій, ці стратегії може бути ідентифіковано такими відображенням без втрати універсальності.

Повний перебір

Підхід повного перебору^[en] спричиняє наступні два кроки:

Для кожної можливої стратегії повертається зразок при слідуванні їй
Вибрати стратегію з найбільшою очікуваною віддачею

Однією з проблем із цим є те, що число стратегій може бути надзвичайно великим, або навіть нескінченним. Іншою є те, що дисперсія віддач може бути великою, в разі чого для точної оцінки віддачі кожної зі стратегій буде необхідним велике число зразків.

Ці проблеми може бути полегшено, якщо ми припустимо деяку структуру, і, можливо, дозволимо зразкам, породженим з однієї стратегії, впливати на оцінки, зроблені для іншої. Двома головними підходами для досягнення цього є оцінка функції значення та прямий пошук стратегії.

Підходи функції значення

Підходи функції значення намагаються знайти стратегію, яка максимізує віддачу шляхом підтримки множини оцінок очікуваних віддач для деякої стратегії (зазвичай або «поточної», або оптимальної).

Ці методи покладаються на теорію МПУР, де оптимальність визначається в сенсі, який є суворішим за наведений вище: стратегія називається оптимальною, якщо вона досягає найкращої очікуваної віддачі від будь-якого початкового стану (тобто початкові розподіли в цьому визначенні не грають ролі). Знов-таки, завжди можна знайти оптимальну стратегію серед постійних стратегій.

Щоби визначити оптимальність формальним чином, визначмо значення стратегії $\pi$ як

V^{\pi }(s)=E[R|s,\pi ],

де $R$ відповідає випадковій віддачі, пов'язаній зі слідуванням $\pi$ з початкового стану $s$ . Визначмо $V^{*}(s)$ як максимально можливе значення $V^{\pi }(s)$ , де $\pi$ дозволено змінюватися:

V^{*}(s)=\sup \limits _{\pi }V^{\pi }(s).

Стратегія, яка досягає цих оптимальних значень в кожному зі станів, називається оптимальною. Очевидно, що стратегія, яка є оптимальною в цьому суворому сенсі, є також оптимальною й у сенсі того, що вона максимізує очікувану віддачу $\rho ^{\pi }$ , оскільки $\rho ^{\pi }=E[V^{\pi }(S)]$ , де $S$ є станом, який вибирається випадковим чином з розподілу $\mu$ .

Хоч стано-значень і достатньо для визначення оптимальності, виявиться корисним визначити й діє-значення. Для заданих стану $s$ , дії $a$ та стратегії $\pi$ діє-значення пари $(s,a)$ за стратегії $\pi$ визначається як

Q^{\pi }(s,a)=E[R|s,a,\pi ],\,

де тепер $R$ відповідає випадковій віддачі, пов'язаній зі спершу вчиненням дії $a$ в стані $s$ , а потім слідуванням $\pi$ .

З теорії МПУР добре відомо, що якщо хтось дасть нам $Q$ для оптимальної стратегії, то ми можемо завжди обирати оптимальні дії (і відтак діяти оптимально), просто обираючи в кожному стані дію з найбільшим значенням. Функція діє-значення такої оптимальної стратегії називається оптимальною функцією діє-значення, і позначається через $Q^{*}$ . В підсумку, знання самої лише оптимальної функції діє-значення достатнє для того, щоби знати, як діяти оптимально.

Виходячи з повного знання МПУР, існують два основні підходи для обчислення оптимальної функції діє-значення, ітерація за значеннями^[en] та ітерація за стратегіями●. Обидва ці алгоритми обчислюють послідовність функцій $Q_{k}$ ( $k=0,1,2,\ldots$ ), яка збігається до $Q^{*}$ . Обчислення цих функцій включає обчислення математичних сподівань над усім простором станів, що є непрактичним для всіх, крім найменших (скінченних) МПУР, не кажучи вже про випадок, коли МПУР є невідомим. В методах навчання з підкріпленням математичні сподівання наближуються шляхом усереднення над зразками, а щоби впоратися з необхідністю представлення функцій значень над великими просторами станів-дій, застосовуються методики наближення функцій.

Методи Монте-Карло

В алгоритмі, який імітує ітерацію за стратегіями, можуть застосовуватися найпростіші методи Монте-Карло. Ітерація за стратегіями складається з двох кроків: оцінки стратегії (англ. policy evaluation) та вдосконалення стратегії (англ. policy improvement).

Методи Монте-Карло використовуються на кроці оцінки стратегії. На цьому кроці метою є для заданої постійної детерміністичної стратегії $\pi$ обчислити значення функції $Q^{\pi }(s,a)$ (або їхнє добре наближення) для всіх пар стан-дія $(s,a)$ . Припустімо (для спрощення), що МПУР є скінченним, і що таблиця, яка представляє діє-значення, фактично вміщається до пам'яті. Далі, припустімо, що ця задача є епізодичною, і що після кожного епізоду починається новий, з якогось випадкового початкового стану. Тоді оцінку значення заданої пари стан-дія $(s,a)$ може бути обчислено просто усередненням над часом вибраних віддач, породжених з $(s,a)$ . За достатньої кількості часу ця процедура може відтак побудувати точну оцінку $Q$ функції діє-значення $Q^{\pi }$ . Це завершує опис кроку оцінки стратегії.

На кроці вдосконалення стратегії, як це робиться й у стандартному алгоритмі ітерації за стратегіями, наступну стратегію отримують обчисленням жадібної (англ. greedy) стратегії з урахуванням $Q$ : для заданого стану $s$ ця нова стратегія повертає дію, яка максимізує $Q(s,\cdot )$ . На практиці часто уникають обчислення та зберігання цієї нової стратегії, застосовуючи натомість ліниві обчислення, щоби відкласти обчислення максимізувальних дій до того моменту, коли вони дійсно стануть потрібні.

Ця процедура має деякі перелічені нижче проблеми:

Ця процедура може марнувати забагато часу на оцінку недооптимальної стратегії;
Вона використовує зразки неефективно, оскільки використовує довгу траєкторію для поліпшення оцінки лише однієї пари стан-дія, яка почала цю траєкторію;
Якщо віддачі вздовж траєкторій мають високу дисперсію, то збіжність буде повільною;
Вона працює лише на епізодичних задачах;
Вона працює лише на невеликих скінченних МПУР.

Методи часових різниць

Перша проблема легко виправляється, якщо дозволити процедурі змінювати стратегію (взагалі, або на деяких станах) до встановлення значення. Проте, як добре б це не звучало, це може бути проблематичним, оскільки воно може перешкоджати збіганню. Тим не менше, більшість поточних алгоритмів реалізують цю ідею, породжуючи клас алгоритмів узагальненої ітерації за стратегіями (англ. generalized policy iteration). Зауважимо принагідно, що до цієї категорії належать методи критика діяча●.^[3]

Другу проблему можна виправити в алгоритмі, дозволивши траєкторіям робити внесок до будь-якої пари стан-дія в них. Це також може допомогти певною мірою і з третьою проблемою, хоча кращим рішенням в разі великої дисперсії віддач є застосування методів часових різниць● (ЧР, англ. temporal difference, TD) Саттона●^[4]^[5], які ґрунтуються на рекурсивному рівнянні Беллмана●. Зауважте, що обчислення в методах ЧР можуть бути інкрементними (англ. incremental, коли після кожного переходу пам'ять змінюється, а перехід викидається) або пакетними (англ. batch, коли переходи збираються, а потім оцінки обчислюються один раз на основі великого числа переходів). Пакетні методи, яскравим прикладом яких є метод найменших квадратів часових різниць^[en] Брадтке^[en] та Барто●,^[6] можуть краще використовувати інформацію в зразках, тоді як інкрементні методи є єдиним вибором, коли пакетні методи стають нездійсненними з причини своєї високої обчислювальної складності або вимог до пам'яті. Крім того, існують методи, які намагаються поєднувати переваги цих двох підходів. Методи на основі часових різниць також долають другу, але не останню проблему.

Для розв'язання останньої проблеми, згаданої в попередньому розділі, застосовуються методи наближення функцій (англ. function approximation methods). В лінійному наближенні функції починають з відображення $\phi$ , яке ставить у відповідність кожній парі стан-дія скінченновимірний вектор. А потім значення дій пари стан-дія $(s,a)$ отримуються шляхом лінійного об'єднання складових $\phi (s,a)$ з деякими вагами (англ. weights) $\theta$ :

Q(s,a)=\sum \limits _{i=1}^{d}\theta _{i}\phi _{i}(s,a)

.

Потім алгоритми підлаштовують ці ваги, замість підлаштовувати значення, пов'язані з конкретними парами стан-значення. Проте лінійне наближення функції не є єдиним вибором. Зовсім недавно було досліджено методи, засновані на ідеях непараметричної статистики^[en] (яку можна розглядати як таку, яка будує свої власні ознаки).

Досі обговорення було обмежено тим, як в якості основи проектування алгоритмів навчання з підкріпленням можна застосовувати ітерацію за стратегіями. Не менш важливим є те, що в якості відправної точки можна застосовувати й ітерацію за значеннями, що веде до алгоритму Q-навчання^[7] та багатьох його варіантів.

Проблема з методами, які використовують діє-значення, в тому, що вони можуть потребувати дуже точних оцінок значень порівнюваних дій, що може бути важко отримувати при зашумлених віддачах. І хоч ця проблема й пом'якшується до деякої міри методами часових різниць та застосуванням так званого методу сумісного наближення функції (англ. compatible function approximation method), належить зробити ще більше роботи для підвищення універсальності та ефективності. Ще одна проблема, властива методам часових різниць, випливає з їхньої залежності від рекурсивного рівняння Беллмана. Більшість методів часових різниць мають так званий параметр $\lambda$ $(0\leq \lambda \leq 1)$ , який дозволяє здійснювати безперервну інтерполяцію між методами Монте-Карло (які не залежать від рівнянь Беллмана) та базовими методами часових різниць (які повністю покладаються на рівняння Беллмана), що, відтак, може бути ефективним для пом'якшення цієї проблеми.

Прямий пошук стратегії

Альтернативним методом пошуку доброї стратегії може бути прямий пошук у (деякій підмножині) простору стратегій, і в цьому випадку задача стає прикладом стохастичної оптимізації●. Двома доступними підходами є методи на основі градієнту та безградієнтні методи.

Методи на основі градієнту (які породжують так звані методи градієнту стратегії, англ. policy gradient methods) починаються з відображення зі скінченновимірного простору (параметрів) на простір стратегій: для заданого вектору параметрів $\theta$ нехай $\pi _{\theta }$ позначає стратегію, пов'язану з $\theta$ . Визначмо функцію продуктивності як

\rho (\theta )=\rho ^{\pi _{\theta }}.

За м'яких умов ця функція буде диференційовною як функція вектору параметрів $\theta$ . Якби градієнт $\rho$ був відомим, то можна було би застосовувати градієнтний спуск. Оскільки аналітичний вираз градієнту відсутній, мусимо покладатися на зашумлену оцінку. Таку оцінку може бути побудовано багатьма способами, що породжують такі алгоритми, як метод REINFORCE Вільямса^[en]^[8] (що також відомий в літературі з оптимізації на основі імітації● як метод відношення правдоподібностей^[en]). Методи градієнту стратегії отримали багато уваги в останні пару років,^[9] але продовжують залишатися полем активної діяльності. Огляд методів градієнту стратегії було запропоновано Дайзенротом, Нейманом та Петерсом.^[10] Проблема багатьох із цих методів у тому, що вони можуть застрягати в локальних оптимумах (оскільки вони ґрунтуються на локальному пошукові).

Існує великий клас методів, які уникають покладання на інформацію про градієнт. Вони включають імітацію відпалу, метод перехресної ентропії та методи еволюційного обчислення. Багато безградієнтних методів можуть досягати глобального оптимуму (в теорії та на границі). В ряді випадків вони дійсно показали визначну продуктивність.

Проблема методів пошуку стратегії в тому, що вони можуть збігатися повільно, якщо інформація, на основі якої вони діють, є зашумленою. Наприклад, це відбувається тоді, коли в епізодичних задачах траєкторії є довгими, а дисперсія віддач є великою. Як було зазначено вище, в такому випадку можуть допомогти методи на основі функції значення, які покладаються на часові різниці. В останні роки було запропоновано декілька алгоритмів діяча — критика, які слідують цій ідеї, і було показано, що вони працюють добре на різних задачах.

Теорія

Теорія для невеликих скінченних МПУР є цілком зрілою. Поведінка як асимптотичних алгоритмів, так і алгоритмів зі скінченною вибіркою, є добре вивченою. Як було зазначено вище, алгоритми з довідно доброю інтерактивною продуктивністю (спрямовані на розв'язання задачі дослідження) є відомими.

Теорія великих МПУР потребує подальшої праці. Дієве дослідження є здебільшого недосягнутим (крім випадку задач бандита). І хоча останніми роками для багатьох алгоритмів з'явилися скінченно-часові обмеження виконання, ці обмеження, як очікується, є доволі слабкими, і відтак для кращого розуміння як відносних переваг, так і обмежень цих алгоритмів, необхідна подальша праця.

Питання асимптотичної збіжності для інкрементних алгоритмів було розв'язано. Нещодавно з'явилися нові інкрементні алгоритми на основі часових різниць, які збігаються за значно ширшого набору умов, ніж було можливо раніше (наприклад, при застосуванні з довільним гладким наближенням функції).

Поточні дослідження

Актуальні теми дослідження включають: адаптивні методи, які працюють з меншою кількістю (або без) параметрів за великого числа умов, спрямування на задачу дослідження у великих МПУР, великомасштабні емпіричні оцінки, навчання та дію за часткової інформації^[en] (наприклад, із застосуванням передбачувального представлення стану^[en]), модульне та ієрархічне навчання з підкріпленням, вдосконалення наявних методів функції значення та пошуку стратегії, алгоритми, які працюють добре з великими (або безперервними) просторами дій, передавальне навчання●, безперервне навчання (англ. lifelong learning), ефективне планування на основі зразків (наприклад, на основі деревного пошуку Монте-Карло^[en]). Предметом зацікавлення в сучасних дослідженнях також є поліагентне (англ. Multiagent) або розподілене навчання з підкріпленням (англ. Distributed Reinforcement Learning). Також зростає зацікавлення до застосувань навчання з підкріпленням в реальному житті. Успіхи навчання з підкріпленням збирають тут і тут.

Алгоритми навчання з підкріпленням, такі як ЧР, було також досліджувано як модель навчання в мозку на основі дофаміну. В цій моделі дофамінергійні проекції з чорної субстанції● на базальні ганглії діють як похибка передбачення. Навчання з підкріпленням також використовували як частину моделі набування навичок людиною, особливо у відношенні взаємодії між неявним та явним навчанням при набуванні навичок (перша публікація про це застосування була в 1995—1996 роках, і було багато наступних досліджень).^[11]

Реалізації

RL-Glue пропонує стандартний інтерфейс, який дозволяє з'єднувати разом агентів, середовища та програми експериментів, навіть якщо їх написано різними мовами.
Maja Machine Learning Framework (MMLF) — це універсальний каркас для задач області навчання з підкріпленням, написаний мовою Python.
Програмні інструменти для навчання з підкріпленням (Matlab та Python)
PyBrain (Python)
TeachingBox — це каркас навчання з підкріпленням на Java, який підтримує багато функцій, таких як мережі РБФ●, методи навчання градієнтним спуском, …
Реалізації мовами C++ та Python деяких добре відомих алгоритмів навчання з підкріпленням із первинним кодом.
Orange^[en], безкоштовний програмний пакет добування даних, модуль orngReinforcement
Policy Gradient Toolbox пропонує пакет для навчання підходів градієнту стратегії.
BURLAP — це відкрита бібліотека Java, яка пропонує широкий спектр методів одно- та поліагентного навчання й планування.

Зворотне навчання з підкріпленням

У зворотному навчанні з підкріпленням (англ. inverse reinforcement learning, IRL) функція винагороди не надається. Натомість намагаються добути стратегію із заданої спостережуваної поведінки, щоби наслідувати спостережувану поведінку, яка є часто оптимальною або близькою до оптимальної. Оскільки агент, який навчається зворотним навчанням з підкріпленням, щойно він відхилився від шляху, яким слідує спостережувана поведінка, часто потребує якогось способу повернутися назад на цей шлях, щоби його власна поведінка була стійкою●, то іноді необхідно продемонструвати поведінку декілька разів із невеликими збуреннями кожного разу.

У підмайстровому навчанні● припускають, що експерт, який демонструє поведінку, намагається максимізувати функцію винагороди, і намагаються розкрити невідому функцію винагороди експерта.

Див. також

Метод часових різниць●
Q-навчання
Стан-дія-винагорода-стан-дія● (англ. SARSA)
Фіктивна гра^[en] (англ. Fictitious play)
Система навчання класифікації^[en] (англ. Learning classifier system)
Оптимальне керування
Динамічний режим лікування^[en]
Навчання, кероване похибками^[en] (англ. Error-driven learning)
Поліагентна система
Розподілений штучний інтелект^[en]

Примітки

↑ Sutton та Barto, 1998, §11. Case Studies.
↑ Gosavi, 2003.
↑ Sutton та Barto, 1998, §6.6 Actor-Critic Methods.
↑ Sutton, 1984.
↑ Sutton та Barto, 1998, §6. Temporal-Difference Learning.
↑ Bradtke та Barto, 1996.
↑ Watkins, 1989.
↑ Williams, 1987.
↑ наприклад, Peters, Vijayakumar та Schaal, 2003
↑ Deisenroth, Neumann та Peters, 2013.
↑ Докладніше про ці області дослідження див. http://webdocs.cs.ualberta.ca/~sutton/RL-FAQ.html#behaviorism (англ.)

Джерела

Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (Дипломна робота PhD). University of Massachusetts, Amherst, MA. (англ.)
Williams, Ronald J. (1987). A class of gradient-estimating algorithms for reinforcement learning in neural networks. Proceedings of the IEEE First International Conference on Neural Networks. (англ.)
Sutton, Richard S. (1988). Learning to predict by the method of temporal differences. Machine Learning. Springer. 3: 9—44. doi:10.1007/BF00115009. (англ.)
Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (Дипломна робота PhD). King’s College, Cambridge, UK. (англ.)
Bradtke, Steven J.; Barto, Andrew G. (1996). Learning to predict by the method of temporal differences. Machine Learning. Springer. 22: 33—57. doi:10.1023/A:1018056104778. (англ.)
Bertsekas, Dimitri P.; Tsitsiklis, John (1996). Neuro-Dynamic Programming. Nashua, NH: Athena Scientific. ISBN 1-886529-10-8. (англ.)
Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research. 4: 237—285. (англ.)
Sutton, Richard S.; Barto, Andrew G. (1998). Reinforcement Learning: An Introduction. MIT Press. ISBN 0-262-19398-1. (англ.)
Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Springer. ISBN 1-4020-7454-9. (англ.)
Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). Reinforcement Learning for Humanoid Robotics (PDF). IEEE-RAS International Conference on Humanoid Robots. (англ.)
Powell, Warren (2007). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. ISBN 0-470-17155-3. (англ.)
Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). Near-optimal regret bounds for reinforcement learning. Journal of Machine Learning Research. 11: 1563—1600. (англ.)
Szita, Istvan; Szepesvari, Csaba (2010). Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds (PDF). ICML 2010. Omnipress. с. 1031—1038. (англ.)
Bertsekas, Dimitri P. (August 2010). Chapter 6 (online): Approximate Dynamic Programming. Dynamic Programming and Optimal Control (PDF). Т. II (вид. 3). (англ.)
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4. (англ.)
Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. Т. 2. NOW Publishers. с. 1—142. (англ.)

Література

Конференції, журнали

Більшість праць із навчання з підкріпленням публікуються на головних конференціях (ICML^[en], NIPS^[en], AAAI, IJCAI, UAI^[en], AI and Statistics) та в журналах (JAIR, JMLR, Machine learning journal, IEEE T-CIAIG) з машинного навчання та ШІ. Деякі теоретичні праці публікуються на COLT^[en] та ALT^[en]. Тим не менше, багато праць з'являються на конференціях із робототехніки (IROS^[en], ICRA^[en]) та на «агентній» конференції AAMAS^[en]. Дослідники операцій публікують свої праці на конференції INFORMS^[en] і, наприклад, в журналах Operation Research та Mathematics of Operations Research. Дослідники керування публікують свої праці на конференціях CDC та ACC, або, наприклад, у журналах IEEE Transactions on Automatic Control та Automatica, хоча прикладні праці тяжіють до публікації в більш спеціалізованих журналах. Winter Simulation Conference також публікує багато відповідних документів. Крім цього, праці також публікуються на головних конференціях спільнот із нейронних мереж, нечітких та еволюційних обчислень. Щорічний симпозіум IEEE під назвою Approximate Dynamic Programming and Reinforcement Learning (ADPRL) та щодворічний семінар European Workshop on Reinforcement Learning (EWRL) є двома регулярними зустрічами, на яких зустрічаються дослідники навчання з підкріпленням.

Посилання

Веб-сайт книги Reinforcement Learning: An Introduction (1998) Річа Саттона● та Ендрю Барто●, MIT Press, включає посилання на html-версію цієї книги. (англ.)
Reinforcement Learning Repository (англ.)
Reinforcement Learning and Artificial Intelligence (RLAI, лабораторія Річа Саттона в Альбертському університеті) (англ.)
Autonomous Learning Laboratory (ALL, лабораторія Ендрю Барто в Університеті Массачусетса в Амхерсті^[en]) (англ.)
RL-Glue
Програмні інструменти для навчання з підкріпленням (Matlab та Python)
The Reinforcement Learning Toolbox від Грацського технічного університету^[en]
Гібридне навчання з підкріпленням (англ. Hybrid reinforcement learning) (англ.)
Piqle: a Generic Java Platform for Reinforcement Learning
Коротке введення до деяких алгоритмів навчання з підкріпленням (англ.)
Застосування навчання з підкріпленням до гри в хрестики-нулики (Perl)
Scholarpedia Reinforcement Learning (англ.)
Scholarpedia Temporal Difference Learning (англ.)
Стендфордський курс із навчання з підкріпленням (англ.)
Реальні експерименти з навчання з підкріпленням в Делфтському технічному університеті
Інструменти машинного навчання для Matlab
Ленція Ендрю Ина з навчання з підкріпленням у Стендфордському університеті (англ.)

[FOOTNOTESuttonBarto1998[httpswebdocscsualbertaca~suttonbookebooknode107html_§11._Case_Studies]-1] Sutton та Barto, 1998, §11. Case Studies.

[FOOTNOTEGosavi2003-2] Gosavi, 2003.

[FOOTNOTESuttonBarto1998[httpswebdocscsualbertaca~suttonbookebooknode66html_§6.6_Actor-Critic_Methods]-3] Sutton та Barto, 1998, §6.6 Actor-Critic Methods.

[FOOTNOTESutton1984-4] Sutton, 1984.

[FOOTNOTESuttonBarto1998[httpswebdocscsualbertaca~suttonbookebooknode60html_§6._Temporal-Difference_Learning]-5] Sutton та Barto, 1998, §6. Temporal-Difference Learning.

[FOOTNOTEBradtkeBarto1996-6] Bradtke та Barto, 1996.

[FOOTNOTEWatkins1989-7] Watkins, 1989.

[FOOTNOTEWilliams1987-8] Williams, 1987.

[9] наприклад, Peters, Vijayakumar та Schaal, 2003

[FOOTNOTEDeisenrothNeumannPeters2013-10] Deisenroth, Neumann та Peters, 2013.

[11] Докладніше про ці області дослідження див. http://webdocs.cs.ualberta.ca/~sutton/RL-FAQ.html#behaviorism (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]