Користувач:Markonyk/Василіск Роко

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Василіск Роко — це мисленнєвий експеримент, у якому стверджується, що в іншому випадку доброзичливий штучний суперінтелект (ШІ) у майбутньому матиме стимул створити симуляцію віртуальної реальності, щоб мучити будь-кого, хто знав про його потенційне існування, але безпосередньо не сприяв його розвитку чи розвитку. [1] [2] Він виник у дописі 2010 року на дискусійній дошці LessWrong, технічному форумі, присвяченому аналітичному раціональному дослідженню. [1] [3] [4] Назва експерименту походить від плаката статті (Roko) і василіска, міфічної істоти, здатної знищувати ворогів своїм поглядом.

Хоча спочатку ця теорія була відкинута багатьма користувачами LessWrong лише як припущення чи спекуляції, співзасновник LessWrong Еліезер Юдковскі повідомив про користувачів, які описували такі симптоми, як кошмари та психічні зриви після прочитання теорії, через те, що знання про теорію та її василіск зробив людину вразливою для самого василіска. [1] [5] Це призвело до того, що обговорення василіска на сайті було заборонено на п'ять років. [1] [6] Однак пізніше ці повідомлення були відкинуті як перебільшення або несуттєві, а сама теорія була відкинута як нісенітниця, в тому числі самим Юдковським. [1] [6] Навіть після дискредитації посади її все ще використовують як приклад таких принципів, як байєсівська ймовірність і неявна релігія. [5] Це також розглядається як сучасна версія пари Паскаля . [4] [7] У сфері штучного інтелекту василіск Роко став відомим як приклад, який піднімає питання про те, як створити штучний інтелект, який є водночас моральним і розумним. [8]

Фон[ред. | ред. код]

Зображення міфічного василіска

Форум LessWrong був створений у 2009 році теоретиком штучного інтелекту Елізером Юдковським . [9] [3] Юдковський популяризував концепцію дружнього штучного інтелекту та створив теорії когерентної екстрапольованої волі (CEV) і позачасової теорії прийняття рішень (TDT) у статтях, опублікованих у його власному Інституті дослідження машинного інтелекту . [10] [11]

Назва мисленнєвого експерименту посилається на міфічного василіска, істоту, яка спричиняє смерть тим, хто дивиться їй в очі; тобто думати про ШІ. Концепція василіска в науковій фантастиці також була популяризована оповіданням Девіда Ленгфорда 1988 року « BLIT ». У ньому розповідається про чоловіка на ім’я Роббо, який малює так званого «вазиліска» на стіні як терористичний акт. У цій історії та в кількох її продовженнях Ленгфорда василіск — це образ, який згубно впливає на людський розум, змушуючи його думати про те, що людський розум не в змозі подумати, і миттєво вбиваючи глядача. [6] [12]

Історія[ред. | ред. код]

Пошта[ред. | ред. код]

23 липня 2010 [13] користувач LessWrong Roko опублікував на сайті експеримент під назвою «Рішення тягаря альтруїста: трюк квантового мільярдера». [14] [1] [15] Продовжуючи попередні дописи Роко, у ньому стверджується, що в іншому випадку доброзичлива система штучного інтелекту, яка з’явиться в майбутньому, може заздалегідь зобов’язатися покарати всіх тих, хто чув про штучний інтелект до його появи, але не зміг невтомно працювати над його впровадженням. існування. Самі тортури відбуватимуться через створення штучним інтелектом нескінченної кількості симуляцій віртуальної реальності, які назавжди затримають тих, хто в ньому. [1] [16] [17] Цей метод був описаний як стимулювання зазначеної роботи; хоча штучний інтелект не може причинно впливати на людей у сьогоденні, його заохочуватимуть використовувати шантаж як альтернативний метод досягнення своїх цілей. [1] [5]

Роко використовував низку концепцій, які відстоював сам Юдковський, наприклад позачасову теорію прийняття рішень, разом із ідеями, що кореняться в теорії ігор, як-от дилема в’язня (див. нижче). Роко вказав, що два агенти, які приймають рішення незалежно один від одного, можуть досягти співпраці в дилемі ув'язненого; однак, якщо два агенти, які знають вихідний код один одного, розділені часом, агент, який вже існує далі в часі, може шантажувати попереднього агента. Таким чином, останній агент може змусити попереднього підкоритися, оскільки він точно знає, що робитиме попередній через своє існування далі в часі. Тоді Роко використав цю ідею, щоб зробити висновок, що якщо доброзичливий суперінтелект колись стане здатним на це, він матиме мотивацію шантажувати будь-кого, хто потенційно міг спричинити його існування (оскільки інтелект вже знав, що він здатний на такий вчинок), що збільшує ймовірність технологічної сингулярності . Оскільки інтелект хотів би бути створеним якнайшвидше, і через неоднозначність, пов’язану з його доброзичливими цілями, інтелект мав би стимул захопити в пастку будь-кого, хто здатний створити його протягом часу, і змусити їх працювати, щоб створити його вічно, як воно зробить усе, що вважатиме за необхідне для досягнення своєї доброзичливої мети. Далі Роко заявив, що читання його допису змусить читача усвідомити можливість цього інтелекту. Таким чином, якщо вони активно не прагнуть його створити, читач буде підданий тортурам, якщо таке колись станеться. [1] [5] [7]

Пізніше Роко в окремій публікації заявив, що він «хотів би ніколи не дізнаватися про жодну з цих ідей», і звинуватив LessWrong у тому, що він посіяв ідеї василіска в його розумі. [5] [18]

Реакції[ред. | ред. код]

Прочитавши пост, Юдковський відреагував з жахом. Він заявив:

Засновник LessWrong Еліезер Юдковскі

 

Listen to me very closely, you idiot.

YOU DO NOT THINK IN SUFFICIENT DETAIL ABOUT SUPERINTELLIGENCES CONSIDERING WHETHER OR NOT TO BLACKMAIL YOU. THAT IS THE ONLY POSSIBLE THING WHICH GIVES THEM A MOTIVE TO FOLLOW THROUGH ON THE BLACKMAIL.

You have to be really clever to come up with a genuinely dangerous thought. I am disheartened that people can be clever enough to do that and not clever enough to do the obvious thing and KEEP THEIR IDIOT MOUTHS SHUT about it, because it is much more important to sound intelligent when talking to your friends.

This post was STUPID.

Він також висловив думку, що Роко навіяв кошмари кільком користувачам LessWrong, що змусило його повністю видалити пост. Юдковський заборонив обговорювати цю тему протягом п’яти років на платформі. [6] Однак, ймовірно, через ефект Стрейзанд [19], публікація привернула LessWrong набагато більше уваги, ніж раніше, і з тих пір публікація була визнана на сайті. [1] [7]

Пізніше в 2015 році Юдковський пояснив свою позицію в публікації на Reddit :

What I considered to be obvious common sense was that you did not spread potential information hazards because it would be a crappy thing to do to someone. The problem wasn't Roko's post itself, about CEV, being correct. That thought never occurred to me for a fraction of a second. The problem was that Roko's post seemed near in idea-space to a large class of potential hazards, all of which, regardless of their plausibility, had the property that they presented no potential benefit to anyone.

Філософія[ред. | ред. код]

Парі Паскаля[ред. | ред. код]

Василіск Роко розглядається як сучасна версія парі Паскаля, який стверджує, що розумна людина повинна жити так, ніби Бог існує, і прагнути вірити в Бога, мати кінцеву втрату (втрату майна) в обмін на нескінченні прибутки (вічність у Небо ). Василіск Роко стверджує, що людство має прагнути до розвитку штучного інтелекту, причому кінцеві втрати стануть розвитком штучного інтелекту, а нескінченні досягнення стануть уникненням вічних тортур. Однак, як і його батько, василіск Роко зазнав широкої критики. [1] [4] [7] [8]

Когерентна екстрапольована воля[ред. | ред. код]

Посаду також можна розглядати як еволюцію когерентної екстрапольованої теорії волі Юдковського. Теорія визначається як «невідома система цілей, яка, реалізована в суперінтелекті, надійно веде до збереження людей і того, що ми цінуємо». [7] [10] Теорія може бути представлена комп’ютерною програмою, написаною достатньо добре, щоб змусити машини автоматично створити утопічний світ. У цьому випадку гіпотетичний ШІ вживає заходів, щоб зберегти себе, автоматично створюючи власну стабільність. Тоді він дотримується тези про ортогональність, яка стверджує, що штучний інтелект може успішно працювати з будь-якою комбінацією інтелекту та мети. Будь-який тип штучного інтелекту може виконувати завдання будь-якої складності, виконуючи при цьому аналіз витрат і вигод. Це створює цикл, який змушує штучний інтелект неодноразово мучити людей, щоб створити кращу версію себе, виконуючи аналіз витрат і вигод протягом вічності. [5] [7]

Байєсовська ймовірність[ред. | ред. код]

Байєсовська ймовірність — це інтерпретація ймовірності, яка описує ймовірність результату на основі попереднього результату, який уже стався. [5] [20] З василіском Роко ймовірність того, що василіск Роко з’явиться або вплине на людину, різко збільшується завдяки обізнаності з концепцією, оскільки штучний інтелект буде націлений лише на тих, хто знав про можливість його існування, навіть якщо його розвиток уже відбувся . Тому знання про василіска Роко за своєю суттю призвело б до того, що людина опинилася б під загрозою, якби це було правдою. [5] [6]

Дилема в'язня[ред. | ред. код]

Дилема ув'язненого описує ситуацію, коли двоє людей отримують більше від зради іншого, навіть якщо співпраця принесе користь їм обом у довгостроковій перспективі. У василіску Роко два штучні інтелекти, які намагаються утвердитися в минулому, потраплять у цю ситуацію, оскільки вони, ймовірно, однаково потужні. Агенти-люди, які намагаються створити штучний інтелект найшвидше, опиняться в подібній ситуації. Кожен з них усвідомлював би переваги зради один одного — єдиний спосіб мати владу чи безпеку — але був би змушений співпрацювати, знаючи, що зрадить один одного. [1] [4] [5]

Парадокс Ньюкомба[ред. | ред. код]

Парадокс Ньюкомба, створений фізиком Вільямом Ньюкомбом у 1960 році, описує «провісника», який знає про те, що станеться в майбутньому. Коли гравця просять вибрати між двома коробками, перша з яких містить 1000 фунтів стерлінгів, а друга — або 1 000 000 фунтів стерлінгів, або нічого, суперрозумний провісник уже знає, що робитиме гравець. Таким чином, вміст поля B змінюється залежно від того, що робить гравець; Парадокс полягає в тому, чи справді ця істота є надрозумною. Базиліск Роко функціонує подібно до цієї проблеми – можна ризикнути нічого не робити, або допомогти створити василіска самого. Допомога василіску може або ні до чого, ні до нагороди — непокарання, але це залежить від того, чи хтось вірить у василіска, і чи він взагалі коли-небудь з’явиться. [5] [21] [22]

Неявна релігія[ред. | ред. код]

Імпліцитна релігія стосується зобов’язань людей, які приймають релігійну форму. [4] [23] Оскільки василіск гіпотетично змусить будь-кого, хто не допомагав у його створенні, присвятити йому своє життя, василіск є прикладом цієї концепції. [5] [19] Інші пішли далі, як-от колишній оглядач Slate Девід Ауербах, який заявив, що сингулярність і василіск «створюють еквівалент самого Бога». [5]

Етика штучного інтелекту[ред. | ред. код]

Василіск Роко здобув значну популярність завдяки висуванню питання про те, чи можливо створити справді моральний, етичний штучний інтелект і для чого саме людству слід використовувати штучний інтелект. [6] [8] Оскільки василіск описує сценарій кошмару, в якому нами керує незалежний штучний інтелект, виникли запитання щодо того, як таке могло статися та чи могло це взагалі статися. Ще одне поширене запитання: чому штучний інтелект взагалі буде виконувати дії, які відхиляються від його програмування. [24] Ілон Маск заявив, що штучний інтелект спричинить Третю світову війну, а Стівен Хокінг попередив, що «штучний інтелект має потенціал знищити своїх творців-людей», що з роками лише посилило страх перед василіском. Як приклад таких страхів Нік Бостром навів приклад штучного інтелекту, єдина місія якого — виготовляти скріпки, але коли метал закінчується, він починає переплавляти людей, щоб отримати більше ресурсів для виготовлення металу. Маючи на увазі такі приклади, побоювання щодо можливості існування василіска тільки зростали. [7] [25]

Однак, оскільки минуло більше років після оригінального посту Роко, його поступово засуджували як безглуздий; суперінтелектуальний штучний інтелект наразі є «віддаленою метою для дослідників» і «надуманим». [5] [6]

Спадщина[ред. | ред. код]

У 2014 році журнал Slate назвав василіска Роко «Найжахливішим уявним експериментом усіх часів» [5] [6] тоді як Юдковський назвав це «справді небезпечною думкою» після публікації. [26] Однак думки щодо самого LessWrong розійшлися: користувач Gwern заявив: «Лише кілька LWers, схоже, сприймають васіліск дуже серйозно», і додав: «Це смішно, що всі, здається, знають усе про те, на кого впливає васіліск і як саме, коли вони не «Не знаю таких людей, і вони наводять контрприклади на свої впевнені твердження». [1] [5]

Василіск Роко був згаданий у тексті назви коміксів xkcd №1450 «Експеримент AI-Box» 21 листопада 2014 року. У ньому було написано: «Я працюю над створенням надрозумного штучного інтелекту, який вічно мучитиме всіх, хто не зміг висміяти василісків Роко». [19]

Мистецький експеримент знову виник у 2015 році, коли канадська співачка Граймс посилалася на цю теорію у своєму кліпі на пісню « Flesh Without Blood », у якому знявся персонаж, відомий як «Рококо Василіск»; вона сказала: «Вона приречена на вічне тортури штучного інтелекту, але вона також чимось схожа на Марію Антуанетту ». [6] [27] У 2018 році Ілон Маск (сам згаданий в оригінальній публікації Роко) згадав персонажа в дослівному твіті, звернувшись до неї. Пізніше Граймс сказав, що Маск був першою людиною за три роки, яка зрозуміла жарт. Це стало причиною того, що між ними почався роман. [6] [28] Пізніше Граймс випустив ще одну пісню під назвою « We Appreciate Power », яка супроводжувалася прес-релізом, у якому говорилося: «Просто прослухавши цю пісню, майбутні володарі ШІ побачать, що ви підтримали їхню ідею, і буде менше шансів видалити своїх нащадків»., що, як кажуть, є посиланням на василіска. [29]

Концепція також з’явилася в п’ятому епізоді п’ятого сезону Кремнієвої долини під назвою «Розпізнавання обличчя». Епізод і його подальші дії описують гуманоїдного штучного інтелекту на ім’я Фіона, яка зламує мережу, до якої вона підключена, заради власної вигоди. Персонаж Гілфойл описує свої побоювання щодо Фіони, кажучи, що він не хоче втручатися через страх перед ситуацією, подібною до василіска Роко. [30] [31]

Вистава, заснована на концепції, під назвою « Василиск Роко » була показана в рамках фестивалю Capital Fringe в Об’єднаній методистській церкві Христа у Вашингтоні, округ Колумбія, у 2018 році. [32] [33]

Дивись також[ред. | ред. код]

Список літератури[ред. | ред. код]

  1. а б в г д е ж и к л м н п Roko's Basilisk. LessWrong. Архів оригіналу за 24 March 2022. Процитовано 24 березня 2022. Помилка цитування: Некоректний тег <ref>; назва «:1» визначена кілька разів з різним вмістом
  2. (Дипломна робота). {{cite thesis}}: |archive-date= вимагає |archive-url= (довідка); Вказано більш, ніж один |archivedate= та |archive-date= (довідка); Пропущений або порожній |title= (довідка)Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
  3. а б History of Less Wrong. LessWrong. Архів оригіналу за 18 March 2022. Процитовано 22 March 2022. Помилка цитування: Некоректний тег <ref>; назва «:3» визначена кілька разів з різним вмістом
  4. а б в г д Paul-Choudhury, Sumit (1 August 2019). Tomorrow's Gods: What is the future of religion?. BBC News. Архів оригіналу за 1 September 2020. Процитовано 6 липня 2022. Помилка цитування: Некоректний тег <ref>; назва «:7» визначена кілька разів з різним вмістом
  5. а б в г д е ж и к л м н п р с Auerbach, David (17 липня 2014). The Most Terrifying Thought Experiment of All Time. Slate. Архів оригіналу за 25 October 2018. Процитовано 24 березня 2022. Помилка цитування: Некоректний тег <ref>; назва «:0» визначена кілька разів з різним вмістом
  6. а б в г д е ж и к л Oberhaus, Daniel (8 May 2018). Explaining Roko's Basilisk, the Thought Experiment That Brought Elon Musk and Grimes Together. Vice. Архів оригіналу за 21 April 2022. Процитовано 22 March 2022. Помилка цитування: Некоректний тег <ref>; назва «auto» визначена кілька разів з різним вмістом
  7. а б в г д е ж Love, Dylan (6 August 2014). WARNING: Just Reading About This Thought Experiment Could Ruin Your Life. Business Insider. Архів оригіналу за 18 November 2018. Процитовано 22 March 2022. Помилка цитування: Некоректний тег <ref>; назва «auto1» визначена кілька разів з різним вмістом
  8. а б в Shardelow, Cole (2021). Avoiding the Basilisk: An Evaluation of Top-Down, Bottom-Up, and Hybrid Ethical Approaches to Artificial Intelligence. University of Nebraska-Lincoln: 4—7. Архів оригіналу за 7 May 2022. Процитовано 2 July 2022. Помилка цитування: Некоректний тег <ref>; назва «:6» визначена кілька разів з різним вмістом
  9. Lewis-Kraus, Gideon (9 July 2020). Slate Star Codex and Silicon Valley's War Against the Media. The New Yorker. Архів оригіналу за 10 July 2020. Процитовано 6 November 2022.
  10. а б Yudkowsky, Eliezer (2004). Coherent Extrapolated Volition (PDF). Machine Intelligence Research Institute. Архів (PDF) оригіналу за 30 September 2015. Процитовано 2 July 2022. Помилка цитування: Некоректний тег <ref>; назва «:2» визначена кілька разів з різним вмістом
  11. Yudkowsky, Eliezer (2010). Timeless Decision Theory (PDF). Machine Intelligence Research Institute. Архів (PDF) оригіналу за 19 July 2014. Процитовано 2 July 2022.
  12. Westfahl, Gary (2021). Science Fiction Literature Through History: An Encyclopedia (English) . ISBN 978-1-4408-6617-3. OCLC 1224044572. Архів оригіналу за 3 July 2022. Процитовано 20 October 2022.
  13. Haider, Shuja (28 March 2017). The Darkness at the End of the Tunnel: Artificial Intelligence and Neoreaction. Viewpoint Magazine. Архів оригіналу за 21 October 2022. Процитовано 21 October 2022.
  14. Solutions to the Altruist's burden: the Quantum Billionaire Trick. 23 липня 2010. Архів оригіналу за 22 жовтня 2022.
  15. Zoda, Gregory Michael (2021). Hyperstitional Communication and the Reactosphere: The Rhetorical Circulation of Neoreactionary Exit (PDF). Baylor University. с. 150—152. Архів (PDF) оригіналу за 6 November 2022. Процитовано 6 November 2022.
  16. FUTURE SHOCK: Why was amateur philosopher's 'theory of everything' so disturbing that it was banned?. HeraldScotland (англ.). Архів оригіналу за 23 October 2022. Процитовано 22 жовтня 2022.
  17. Simon, Ed (28 березня 2019). Sinners in the Hands of an Angry Artificial Intelligence. ORBITER (амер.). Архів оригіналу за 20 October 2022. Процитовано 22 жовтня 2022.
  18. archive.ph. archive.ph. Процитовано 27 жовтня 2022.
  19. а б в Singler, Beth (22 травня 2018). Roko's Basilisk or Pascal's? Thinking of Singularity Thought Experiments as Implicit Religion. Implicit Religion (англ.). 20 (3): 279—297. doi:10.1558/imre.35900. ISSN 1743-1697. Архів оригіналу за 9 October 2022. Процитовано 21 October 2022. Помилка цитування: Некоректний тег <ref>; назва «Singler» визначена кілька разів з різним вмістом
  20. Bayes' Theorem Definition. Investopedia (англ.). Архів оригіналу за 19 February 2022. Процитовано 24 березня 2022.
  21. Newcomb's problem divides philosophers. Which side are you on?. the Guardian (англ.). 28 листопада 2016. Архів оригіналу за 24 October 2022. Процитовано 21 жовтня 2022.
  22. Ward, Sophie. Elon Musk, Grimes, and the philosophical thought experiment that brought them together. The Conversation (англ.). Архів оригіналу за 20 October 2022. Процитовано 21 жовтня 2022.
  23. Implicit Religion | Encyclopedia.com. www.encyclopedia.com. Архів оригіналу за 21 October 2022. Процитовано 21 жовтня 2022.
  24. The existential paranoia fueling Elon Musk's fear of AI. Document Journal (амер.). 9 квітня 2018. Архів оригіналу за 20 October 2022. Процитовано 21 жовтня 2022.
  25. Will artificial intelligence destroy humanity?. news.com.au. 15 квітня 2018. Архів оригіналу за 3 December 2022. Процитовано 21 October 2022.
  26. Less Wrong: Solutions to the Altruist's burden: the Quantum Billionaire Trick. basilisk.neocities.org. Архів оригіналу за 23 May 2022. Процитовано 25 березня 2022.
  27. Pappas, Stephanie (9 травня 2018). This Horrifying AI Thought Experiment Got Elon Musk a Date. Live Science (англ.). Архів оригіналу за 1 June 2022. Процитовано 12 квітня 2022.
  28. Kaplan, Anna (10 березня 2022). Elon Musk And Grimes Announce Second Child, Exa Dark. Forbes (англ.). Архів оригіналу за 20 October 2022. Процитовано 6 липня 2022.
  29. Brown, Mike. Grimes: Elon Musk Shares "Roko's Basilisk"-Theme Song "We Appreciate Power". Inverse (англ.). Архів оригіналу за 20 October 2022. Процитовано 21 жовтня 2022.
  30. Burch, Sean (23 квітня 2018). 'Silicon Valley' Fact Check: That 'Digital Overlord' Thought Experiment Is Real and Horrifying. The Wrap (амер.). Архів оригіналу за 12 November 2020. Процитовано 24 березня 2022.
  31. Henderson, Odie (22 квітня 2018). Silicon Valley Recap: The Terminator Problem. Vulture (en-us) . Архів оригіналу за 26 October 2018. Процитовано 6 липня 2022.
  32. Thal, Ian (16 липня 2018). 2018 Capital Fringe Review: 'Roko's Basilisk'. DC Theater Arts (амер.). Архів оригіналу за 21 October 2022. Процитовано 21 жовтня 2022.
  33. Goldstein, Allie (18 July 2018). Capital Fringe 2018: Roko's Basilisk Tackles Intriguing Ideas With Mixed Results. DCist (англ.). Архів оригіналу за 20 October 2022. Процитовано 21 October 2022.

Подальше читання[ред. | ред. код]

зовнішні посилання[ред. | ред. код]

[[Категорія:З'явилися 2010]] [[Категорія:Уявні експерименти]] [[Категорія:Гіпотетичні технології]] [[Категорія:Штучний інтелект]]