Підмайстрове навчання: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Рядок 24: Рядок 24:


=== Системний модельний підхід ===
=== Системний модельний підхід ===
Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.<ref name="survey">{{Cite journal|last=Argall|first=Brenna D.|last2=Chernova|first2=Sonia|last3=Veloso|first3=Manuela|last4=Browning|first4=Brett|date=May 2009|title=A survey of robot learning from demonstration|journal=Robotics and Autonomous Systems|volume=57|issue=5|pages=469–483|doi=10.1016/j.robot.2008.10.024}}</ref>
Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.<ref name="survey5">


== Плановий підхід ==
== Плановий підхід ==

Версія за 18:23, 20 грудня 2023

У сфері штучного інтелекту підмайстрове навчання (або навчання на основі демонстрації чи імітаційне навчання) — це процес навчання шляхом спостереження експерта.[1][2] Його можна розглядати як форму навчання під керівництвом, де навчальний набір даних складається з виконання завдань учителем-демонстрацією.[2]

Підхід функції відображення

Методи відображення намагаються імітувати експерта, шляхом формування прямого відображення або від станів до дій,[3] або від станів до значень винагороди[4]. Наприклад, у 2002 році дослідники використали такий підхід, щоб навчити робота AIBO базовим футбольним навичкам.[3]

Навчальний підхід із зворотним підкріпленням

Навчання зі зворотним підкріпленням (IRL) — це процес виведення функції винагороди з поведінки, що спостерігається. У той час як звичайне «навчання з підкріпленням» передбачає використання винагород і покарань для вивчення поведінки, у IRL напрямок змінюється, і робот спостерігає за поведінкою людини, щоб зрозуміти, яку мету ця поведінка, здається, намагається досягти.[5] Проблему IRL можна визначити як:[6]

Дано 1) вимірювання поведінки агента в часі за різних обставин; 2) вимірювання сенсорних вхідних даних для цього агента; 3) модель фізичного середовища (включаючи тіло агента): визначте функцію винагороди, яку оптимізує агент.

Дослідник IRL Стюарт Дж. Рассел припускає, що IRL можна використовувати для спостереження за людьми та спроб кодифікації їхніх складних «етичних цінностей», намагаючись створити «етичних роботів», які одного разу знатимуть, що «не варити твого кота», без необхідності казати їм цього напряму.[7] Сценарій можна змоделювати як «кооперативну інверсну навчальну гру з підкріпленням», де гравець «людина» та гравець «робот» співпрацюють, щоб забезпечити неявні цілі людини, незважаючи на те, що ці цілі явно не відомі ні людині, ні роботу.[8][9]


У 2017 році OpenAI і DeepMind застосували глибоке навчання до кооперативного навчання зворотного підкріплення в простих областях, таких як ігри Atari, і звичайні завдання роботів, такі як сальто назад. Роль людини обмежувалася відповіддю на запити робота щодо того, яка з двох різних дій є кращою. Дослідники знайшли докази того, що методи можуть бути економічно масштабованими для сучасних систем.[10][11]

Підмайстрове навчання через зворотне підкріплююче навчання (AIRP) було розроблено у 2004 році Пітером Аббілом, професором кафедри EE CS Берклі, та Ендрю Нґом, доцентом факультету комп’ютерних наук Стенфордського університету. AIRP має справу з «Марковським процесом прийняття рішень, де нам явно не надається функція винагороди, але замість цього ми можемо спостерігати, як експерт демонструє завдання, яке ми хочемо навчитися виконувати»[1]. AIRP використовувався для моделювання функцій винагороди у високодинамічних сценаріях, де інтуїтивно немає очевидної функції винагороди. Візьмемо, наприклад, завдання керування автомобілем. Є багато різних цілей, які виконуються одночасно - наприклад, підтримувати безпечну дистанцію, хорошу швидкість, не надто часто змінювати смугу руху тощо. Це завдання може здатися легким на перший погляд, але тривіальна функція винагороди може не збігатися з бажаною політикою.

Системний модельний підхід

Системні моделі намагаються імітувати експерта, моделюючи світову динаміку.Помилка цитування: Відсутній тег </ref> за наявності тегу <ref>

Траєкторія в часі
час (секунди) кут (радіани)
0 -3.0
0.5 -2.8
1.0 -4.5
1.5 -1.0

У комп’ютерній анімації цей принцип називається сплайн-анімацією.[12] Це означає, що на осі абсцис задано час, наприклад 0,5 секунди, 1,0 секунди, 1,5 секунди, а на осі у – задана змінна. У більшості випадків це положення об’єкта. У перевернутому маятнику це кут.

Загальне завдання складається з двох частин: запис кута в часі та відтворення записаного руху. Етап відтворення напрочуд простий. Як вхідні дані ми знаємо, на якому кроці часу який кут має мати маятник. Переведення системи в стан називається «контролем стеження» або ПІД-регулюванням. Це означає, що у нас є траєкторія в часі, і ми повинні знайти керуючі дії, щоб відобразити систему на цю траєкторію. Інші автори називають принцип «кермовою поведінкою», оскільки метою є привести робота до заданої лінії.

Дивись також

Список літератури

  1. а б "Apprenticeship learning via inverse reinforcement learning". Pieter Abbeel, Andrew Ng, In 21st International Conference on Machine Learning (ICML). 2004.
  2. а б Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (May 2009). A survey of robot learning from demonstration. Robotics and Autonomous Systems. 57 (5): 469—483. CiteSeerX 10.1.1.145.345. doi:10.1016/j.robot.2008.10.024. S2CID 1045325.
  3. а б Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою survey не вказано текст
  4. Помилка цитування: Неправильний виклик тегу <ref>: для виносок під назвою AIRP не вказано текст
  5. Wolchover, Natalie. This Artificial Intelligence Pioneer Has a Few Concerns. WIRED. Процитовано 22 January 2018.
  6. Russell, Stuart (1998). Learning agents for uncertain environments. Proceedings of the eleventh annual conference on Computational learning theory. с. 101—103. doi:10.1145/279943.279964.
  7. Havens, John C. (23 June 2015). The ethics of AI: how to stop your robot cooking your cat. the Guardian. Процитовано 22 January 2018.
  8. Artificial Intelligence And The King Midas Problem. Huffington Post. 12 December 2016. Процитовано 22 January 2018.
  9. Hadfield-Menell, D., Russell, S. J., Abbeel, Pieter & Dragan, A. (2016). Cooperative inverse reinforcement learning. In Advances in neural information processing systems (pp. 3909-3917).
  10. Two Giants of AI Team Up to Head Off the Robot Apocalypse. WIRED. 7 July 2017. Процитовано 29 January 2018.
  11. Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4302-4310).
  12. Baris Akgun and Maya Cakmak and Karl Jiang and Andrea L. Thomaz (2012). Keyframe-based Learning from Demonstration (PDF). International Journal of Social Robotics. 4: 343—355. doi:10.1007/s12369-012-0160-0.

Помилка цитування: Тег <ref> з назвою "atkeson1997learning", визначений у <references>, не використовується в попередньому тексті.
Помилка цитування: Тег <ref> з назвою "reynolds1999steering", визначений у <references>, не використовується в попередньому тексті.