AlphaZero

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

AlphaZero — це комп'ютерна програма, розроблена компанією DeepMind, яка використовує узагальнений підхід AlphaGo Zero. 5 грудня 2017 року колектив DeepMind випустив препринтне введення AlphaZero, яке впродовж 24 годин досягнуло надлюдського рівня гри в шахи, Сьоґі, і ґо, перемігши чемпіонів світу серед програм, Stockfish, Elmo і 3-денний варіант AlphaGo Zero в кожному випадку, використовуючи  краще комп'ютерне обладнання відносно своїх опонентів.[1][2] AlphaZero переміг Stockfish через 4 години самостійної гри, без доступу до дебютних баз та ендшпільних таблиць, але граючи з кращим комп'ютерним обладнанням виділеним для AlphaZero.[3][4]

Стосунок до AlphaGo Zero[ред. | ред. код]

AlphaZero (AZ) — це більш узагальнений варіант алгоритму AlphaGo Zero (AGZ), який крім ґо вміє також грати в Сьоґі і шахи. Відмінності між AZ і AGZ полягають у тому, що:

  • AGZ має жорстко задані правила для встановленого пошуку гіперпараметрів.
  • Нейронні мережі тепер оновлюються постійно.
  • Go (на відміну від шахів) симетрична за певних відбиттів і обертань; AGZ був запрограмований, щоб скористатися цими симетріями, AZ — ні.
  • Партія в шахи (на відміну від Go) може закінчитися внічию, тому AZ може враховувати можливість нічийного результату гри.

AlphaZero проти Stockfish і Elmo[ред. | ред. код]

Розглядаючи пошук за допомогою дерева пошуку Монте-Карло, AlphaZero аналізує лише 80,000 позицій на секунду в шахах і 40 000 в сьогах, порівняно з 70 млн для  Stockfish і 35 мільйонів для Elmo. AlphaZero компенсує низьку кількість оцінок використанням своїх глибоких нейронних мереж, зосереджуючись набагато більш вибірково на найбільш перспективних варіантах.

Результати[ред. | ред. код]

Шахи[ред. | ред. код]

У шахових партіях AlphaZero проти Stockfish кожна програма мала по одній хвилині часу на хід. AlphaZero мала краще комп'ютерне обладнання відносно Stockfish. Зі 100 ігор з нормального початкового положення AlphaZero виграв 25 партій білими, виграв 3 чорними і звів унічию решту 72.[5] У серії з дванадцяти 100-ігрових матчів проти Stockfish починаючи з популярних дебютів, AlphaZero виграв 290, звів унічию 886 і програв 24.[джерело?] Результати турнірів не свідчать про те, що AlphaZero — це покращений шаховий рушій, адже алгоритм AlphaZero мав краще комп'ютерне обладнання.

Критика[ред. | ред. код]

Деякі гросмейстери, такі як Хікару Накамура і творець Комодо Ларрі Кауфман, підкреслили, що силу AlphaZero не треба перебільшувати, стверджуючи, що матч був би ближчим, якби програма мала доступ до дебютних баз (оскільки Stockfish був оптимізований під цей сценарій).[6]

Сьоги[ред. | ред. код]

У сто іграх у сьоги проти Elmo, AlphaZero виграв дев'яносто разів, вісім разів програв і дві партії завершилися внічию.

Критика[ред. | ред. код]

Спільнота програмістів комп'ютерної гри в сьоги не повністю задоволена умовами підбору програмного забезпечення для рушія AlphaZero і рушія гри в сьоги Elmo.[7][неавторитетне джерело]

Го[ред. | ред. код]

Після 8 годин самостійного навчання гри в го, у матчах проти попередньої версії AlphaZero, AlphaZero виграв шістдесят ігор і програв сорок.

Реакція[ред. | ред. код]

Газети вийшли з заголовками, що навчання шахів зайняло лише чотири години: «це було зроблено за час трохи більший, ніж проміжок між сніданком і обідом.»[8] Wired розкрутили AlphaZero як «перший штучний інтелект, який є чемпіоном з багатьох настільних ігор».[9] Експерт зі штучного інтелекту Джоанна Брайсон зазначила, що «спритність Google до хорошої реклами» ставить його в сильну позицію проти суперників. «Мова йде не лише про те, щоб найняти найкращих програмістів. Це також дуже політична річ, оскільки вона допомагає Google стояти на найсильніших можливих позиціях під час переговорів з урядами і регуляторами, які контролюють сектор штучного інтелекту».

«Мені завжди було цікаво, як це буде, коли вищі істоти приземляться на землю і покажуть нам, як вони грають в шахи», заявив данський гросмейстер Пітер Гайне Нільсен в інтерв'ю Бі-бі-сі, «тепер я знаю». Норвезький гросмейстер Йон Людвіг Гаммер охарактеризував AlphaZero як «божевільні атакуючі шахи» з глибокою позиційною грою. колишній чемпіон світу Гаррі Каспаров сказав: «це чудове досягнення, навіть попри те, що ми вже чекали на нього після AlphaGo.»[10]

Див. також[ред. | ред. код]

Посилання[ред. | ред. код]

Примітки[ред. | ред. код]

  1. https://arxiv.org/pdf/1712.01815.pdf Mastering Chess and Shogi by Sef-Play with a General Reinforcment Learning Algorithm.
  2. A bot will complete this citation soon. Click here to jump the queue«Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm». arXiv:1712.01815 [cs.AI]. 5 December 2017. 
  3. Knapton, Sarah; Watson, Leon (6 December 2017). Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours (en-GB). Telegraph.co.uk. Процитовано 6 December 2017. 
  4. Vincent, James (6 December 2017). DeepMind’s AI became a superhuman chess player in a few hours, just for fun. The Verge. Процитовано 6 December 2017. 
  5. 'Superhuman' Google AI claims chess crown. BBC News. 6 December 2017. Процитовано 7 December 2017. 
  6. Google's AlphaZero Destroys Stockfish In 100-Game Match. Chess.com. Процитовано 7 December 2017. 
  7. http://www.uuunuuun.com/single-post/2017/12/07/Some-concerns-on-the-matching-conditions-between-AlphaZero-and-Shogi-engine
  8. Badshah, Nadeem (7 December 2017). Google’s DeepMind robot becomes world-beating chess grandmaster in four hours. The Times of London. Процитовано 7 December 2017. 
  9. Alphabet's Latest AI Show Pony Has More Than One Trick. WIRED. 6 December 2017. Процитовано 7 December 2017. 
  10. Gibbs, Samuel (7 December 2017). AlphaZero AI beats champion chess program after teaching itself in four hours. The Guardian. Процитовано 8 December 2017.