Користувач:Nolikoff/Безмодельне навчання з підкріпленням

У навчанні з підкріпленням (RL) безмодельний алгоритм (на відміну від заснованого на моделі) — це алгоритм, що не використовує розподіл ймовірності переходу і функцію винагороди, пов’язані з Марковським процесом вирішування (MDP),^[1] котрий в свою чергу відображає проблему, що потрібно розв'язати. Розподіл ймовірності переходу (або модель переходу) і функцію винагороди зазвичай загалом називають «моделлю» середовища (або MDP), звідси й назва «безмодельна». Алгоритм безмодельного навчання з підкріпленням можна розглядати як «явний» алгоритм проб і помилок.^[1] Прикладом безмодельного алгоритму може слугувати Q-навчання.

Ключові алгоритми безмодельного навчання з підкріпленням

Алгоритм	Опис	Модель	Політика	Множина дій	Простір станів	Оператор
DQN	Глибинна Q мережа	Безмодельний	Поза політикою	Дискретна	Безперервний	Q-значення
DDPG	Глибинний детермінований градієнт політики	Безмодельний	Поза політикою	Безперервна	Безперервний	Q-значення
A3C	Алгоритм асинхронної переваги критики діяча	Безмодельний	На-політику	Безперервна	Безперервний	Перевага
ТРПО	Оптимізація політики довірчої області	Безмодельний	На-політику	Безперервна	Безперервний	Перевага
РРО	Проксимальна оптимізація політики	Безмодельний	На-політику	Безперервна	Безперервний	Перевага
TD3	Подвійно відкладений глибинно детермінований градієнт політики	Безмодельний	Поза політикою	Безперервна	Безперервний	Q-значення
SAC	М'який алгоритм критики діяча	Безмодельний	Поза політикою	Безперервна	Безперервний	Перевага

Примітки

↑ ^а ^б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 February 2019.

[[Категорія:Навчання з підкріпленням]]

[sutton2018-1] а ^б Sutton, Richard S.; Barto, Andrew G. (13 листопада 2018). Reinforcement Learning: An Introduction (PDF) (вид. Second). A Bradford Book. с. 552. ISBN 0262039249. Процитовано 18 February 2019.

[1]

Користувач:Nolikoff/Безмодельне навчання з підкріпленням

Ключові алгоритми безмодельного навчання з підкріпленням

Примітки

Навігаційне меню

Пошук