Штучна нейронна мережа: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
м автоматична заміна {{Не перекладено}} вікі-посиланнями на перекладені статті
майже повністю замінено перекладом «Artificial neural network»
Рядок 1: Рядок 1:
{{Машинне навчання}}
[[Файл:Neural network.svg|thumb|Схема простої нейромережі. Зеленим кольором позначено ''вхідні'' нейрони, блактитним — ''приховані'' нейрони, жовтим — ''вихідний'' нейрон]]
{{Otheruses|Нейронна мережа (значення)}}
{{Otheruses|Нейронна мережа (значення)}}
{{Машинне навчання}}
{{Refimprove|дата=червень 2016}}
[[Файл:Colored neural network uk.svg|thumb|300px|Штучна нейронна мережа — це взаємозв'язана мережа вузлів, уподібнена до безкрайої мережі [[нейрон]]ів у [[Головний мозок|головному мозку]]. Тут кожним круговим вузлом представлено [[штучний нейрон]], а стрілкою — з'єднання виходу одного штучного нейрону зі входом іншого.]]


'''Шту́чні нейро́нні мере́жі''' ('''ШНМ''', {{lang-en|artificial neural networks, ANN}}), або '''{{нп|Конективізм|конективістські||Connectionism}} системи''' ({{lang-en|connectionist systems}}) — це обчислювальні системи, натхнені [[Біологічна нейронна мережа|біологічними нейронними мережами]], що складають мозок тварин. Такі системи навчаються задач (поступально покращують свою продуктивність на них), розглядаючи приклади, загалом без спеціального програмування під задачу. Наприклад, у [[Розпізнавання зображень|розпізнаванні зображень]] вони можуть навчатися ідентифікувати зображення, які містять котів, аналізуючи приклади зображень, {{нп|Мічені дані|мічені||Labeled data}} як «кіт» і «не кіт», і використовуючи результати для ідентифікування котів в інших зображеннях. Вони роблять це без жодного [[Апріорне знання|апріорного знання]] про котів, наприклад, що вони мають хутро, хвости, вуса та котоподібні писки. Натомість, вони розвивають свій власний набір доречних характеристик з навчального матеріалу, який вони оброблюють.
'''Штучна нейронна мережа''' ('''ШНМ''', {{lang-en|artificial neural network, ANN}}) — це [[математична модель]], а також її програмна та апаратна реалізація, побудовані за принципом функціювання [[Біологічна нейронна мережа|біологічних нейронних мереж]] — мереж [[Нейрон|нервових клітин]] живого організму. Це поняття виникло при вивченні процесів, які відбуваються в [[Мозок|мозку]], та при намаганні [[Наукове моделювання|змоделювати]] ці процеси. Першою такою [[Модель мозку|спробою]] були нейронні мережі [[Уоррен Маккалох|У. Маккалока]] та {{нп|Уолтер Піттс|У. Піттса||Walter Pitts}}. Після розробки алгоритмів навчання отримувані моделі стали використовуватися в практичних цілях: в задачах [[прогнозування]], для [[Розпізнавання образів|розпізнавання образів]], в [[Адаптивне керування|задачах керування]] тощо.


ШНМ ґрунтується на сукупності з'єднаних вузлів, що називають [[Штучний нейрон|штучними нейронами]] (аналогічно до біологічних [[нейрон]]ів у [[Головний мозок|головному мозку]] тварин). Кожне з'єднання (аналогічне [[синапс]]ові) між штучними нейронами може передавати сигнал від одного до іншого. Штучний нейрон, що отримує сигнал, може обробляти його, й потім сигналізувати штучним нейронам, приєднаним до нього.
ШНМ являють собою [[Система|систему]] з'єднаних між собою простих обробників ([[Штучний нейрон|штучних нейронів]]), які взаємодіють. Такі обробники зазвичай є доволі простими (особливо в порівнянні з [[Центральний процесор|процесорами]], що застосовуються в [[Персональний комп'ютер|персональних комп'ютерах]]). Кожен обробник подібної мережі має справу лише з [[сигнал]]ами, які він періодично отримує, і сигналами, які він періодично надсилає іншим обробникам. І тим не менш, будучи з'єднаними в достатньо велику мережу з керованою взаємодією, такі локально прості обробники разом здатні виконувати доволі складні завдання.


В поширених реалізаціях ШНМ сигнал на з'єднанні між штучними нейронами є дійсним числом, а вихід кожного штучного нейрону обчислюється нелінійною функцією суми його входів. Штучні нейрони та з'єднання зазвичай мають {{нп|Вага (математика)|вагу||Weight (mathematics)}}, яка підлаштовується в перебігу навчання. Вага збільшує або зменшує силу сигналу на з'єднанні. Штучні нейрони можуть мати такий поріг, що сигнал надсилається лише якщо сукупний сигнал перетинає цей поріг. Штучні нейрони зазвичай організовано в шари. Різні шари можуть виконувати різні види перетворень своїх входів. Сигнали проходять від першого (входового) до останнього (виходового) шару, можливо, після проходження шарами декілька разів.
* З точки зору [[Машинне навчання|машинного навчання]], нейронна мережа є окремим випадком методів [[Теорія розпізнавання образів|розпізнавання образів]], [[Дискримінантний аналіз|дискримінантного аналізу]], [[Кластерний аналіз|методів кластерування]] тощо.
* З [[Математика|математичної]] точки зору, навчання нейронних мереж — це багатопараметрична задача [[Нелінійна оптимізація|нелінійної оптимізації]].
* З точки зору [[Кібернетика|кібернетики]], нейронна мережа використовується в задачах [[Адаптивне керування|адаптивного керування]], і як [[алгоритм]]и для [[Робототехніка|робототехніки]].
* З точки зору розвитку [[Обчислювальна техніка|обчислювальної техніки]] та [[програмування]], нейронна мережа — спосіб розв'язання задачі ефективного [[Паралельні обчислення|паралелізму]].
* А з точки зору [[Штучний інтелект|штучного інтелекту]], ШНМ є основою [[Філософія|філософської]] течії {{нп|Конективізм|коннективізму||Connectionism}} й основним напрямком в структурному підході до вивчення можливості побудови (моделювання) [[Інтелект|природного інтелекту]] за допомогою [[Алгоритм|комп'ютерних алгоритмів]].


Первинною метою підходу ШНМ було розв'язання задач таким же способом, як це робив би [[людський мозок]]. З часом увага зосередилася на відповідності певним розумовим здібностям, ведучи до відхилень від біології. ШНМ використовували в ряді різноманітних задач, включно з [[Комп'ютерне бачення|комп'ютерним баченням]], [[Розпізнавання мовлення|розпізнаванням мовлення]], [[Машинний переклад|машинним перекладом]], [[Соціальна мережа|соціально-мережевим]] фільтруванням, грою в настількі та відеоігри, та медичним діагностуванням.
Нейронні мережі не [[Програмування|програмуються]] в звичайному розумінні цього слова{{Fact}}, вони '''[[Навчання|навчаються]]'''{{Fact}}. Можливість навчання — одна з головних переваг нейронних мереж перед традиційними [[алгоритм]]ами. Технічно, навчання полягає в знаходженні коефіцієнтів зв'язків між нейронами. В процесі навчання нейронна мережа здатна виявляти складні залежності між вхідними даними й вихідними, а також здійснювати [[узагальнення]]. Це означає, що в разі успішного навчання мережа зможе повернути правильний результат на підставі даних, які були відсутні в навчальній вибірці, а також неповних та/або [[Статистичний шум|«зашумлених»]], частково спотворених даних.


== Огляд ==
==Історія==


[[Воррен Маккалох]] та {{нп|Уолтер Піттс|||Walter Pitts}}<ref>{{cite journal|last=McCulloch|first=Warren|author2=Walter Pitts|title=A Logical Calculus of Ideas Immanent in Nervous Activity|journal=Bulletin of Mathematical Biophysics|year=1943|volume=5|pages=115–133|doi=10.1007/BF02478259|issue=4}} {{ref-en}}</ref> (1943) створили обчислювальну модель для нейронних мереж на основі [[Математика|математики]] та алгоритмів, названою пороговою логікою. Ця модель проклала шлях до поділу досліджень нейронних мереж на два підходи. Один підхід зосереджується на біологічних процесах у мозку, тоді як інший зосереджується на застосуванні нейронних мереж до [[Штучний інтелект|штучного інтелекту]]. Ця праця привела до роботи над мережами нервів та їхнього зв'язку зі [[Скінченний автомат|скінченними автоматами]].<ref>{{Cite news|url=https://www.degruyter.com/view/books/9781400882618/9781400882618-002/9781400882618-002.xml|title=Representation of Events in Nerve Nets and Finite Automata|last=Kleene|first=S.C.|date=|work=Annals of Mathematics Studies|accessdate=2017-06-17|archive-url=|archive-date=|dead-url=|publisher=Princeton University Press|year=1956|issue=34|pages=3–41|language=en}} {{ref-en}}</ref>
[[Біологічна нейронна мережа]] складається з групи або декількох груп хімічно або функціонально пов'язаних [[нейрон]]ів. Один нейрон може бути пов'язаний з багатьма іншими нейронами, а загальна кількість нейронів та зв'язків між ними може бути дуже великою. Зв'язки, які називаються [[синапс]]ами, як правило формуються від [[аксон]]ів до [[Дендрит нейрона|дендритів]], хоча дендро-дендритичні мікросхеми та інші зв'язки є можливими. Крім електричної передачі сигналів, також є інші форми передачі, які виникають з [[нейротрансмітер]]ної дифузії, і мають вплив на електричну передачу сигналів. Таким чином, біологічні нейронні мережі є надзвичайно складними.


=== Геббове навчання ===
[[Штучний інтелект]] і когнітивне моделювання намагаються імітувати деякі властивості біологічних нейронних мереж. Хоч вони й аналогічні в своїх методах, перша має на меті розв'язання конкретних завдань, а друге спрямоване на створення математичних моделей біологічних нейронних систем.


Наприкінці 1940-х років [[Дональд Гебб]]<ref>{{cite book|url={{google books |plainurl=y |id=ddB4AgAAQBAJ}}|title=The Organization of Behavior|last=Hebb|first=Donald|publisher=Wiley|year=1949|isbn=978-1-135-63190-1|location=New York|pages=}}
У сфері штучного інтелекту штучні нейронні мережі було успішно застосовано для [[розпізнавання мовлення]], аналізу зображень та [[Адаптивне керування|адаптивного керування]], для того, щоб побудувати так званих [[Інтелектуальний агент|програмних агентів]] (в комп'ютерних і відео іграх) або автономних роботів. На даний час, більшість розроблених штучних нейронних мереж для штучного інтелекту базуються на [[Статистична оцінка|статистичних оцінках]], класифікації, оптимізації та [[Теорія керування|теорії керування]].
{{ref-en}}</ref> створив гіпотезу навчання, засновану на механізмі нейропластичності, яка стала відомою як [[геббове навчання]]. Геббове навчання є [[Спонтанне навчання|спонтанним навчанням]]. Воно розвинулося в моделі [[Довготривале потенціювання|довготривалого потенціювання]]. Дослідники почали застосовувати ці ідеї до обчислювальних моделей 1948 року в {{нп|Неогранізована машина|машинах Тюрінга типу ''B''||Unorganized machine}}.


Фарлі та {{нп|Веслі А. Кларк|Кларк||Wesley A. Clark}}<ref>{{cite journal|last=Farley|first=B.G.|author2=W.A. Clark|title=Simulation of Self-Organizing Systems by Digital Computer|journal=IRE Transactions on Information Theory|year=1954|volume=4|pages=76–84|doi=10.1109/TIT.1954.1057468|issue=4}} {{ref-en}}</ref> (1954) вперше використали обчислювальні машини, звані тоді «калькуляторами» ({{lang-en|calculators}}), щоби відтворити геббову мережу. Інші нейромережеві обчислювальні машини було створено {{нп|Натаніел Рочестер|Рочестером||Nathaniel Rochester (computer scientist)}}, Голландом, Гебітом та Дудою (1956).<ref>{{cite journal|last=Rochester|first=N. |author2=J.H. Holland |author3=L.H. Habit |author4=W.L. Duda|title=Tests on a cell assembly theory of the action of the brain, using a large digital computer|journal=IRE Transactions on Information Theory|year=1956|volume=2|pages=80–93|doi=10.1109/TIT.1956.1056810|issue=3}} {{ref-en}}</ref>
Сфера когнітивного моделювання включає в себе фізичне або математичне моделювання поведінки нейронних систем; від індивідуального нейронного рівня, через нейронний кластерний рівень до завершеного організму (наприклад, моделювання поведінки відповіді організму на подразники). Штучний інтелект, когнітивне моделювання і нейронні мережі є парадигмами обробки інформації, натхненні системами біологічних нейронів обробки інформації.


[[Френк Розенблат|Розенблат]]<ref>{{cite journal|last=Rosenblatt|first=F.|title=The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain|journal=Psychological Review|year=1958|volume=65|pages=386–408|doi=10.1037/h0042519|pmid=13602029|issue=6|citeseerx=10.1.1.588.3775}} {{ref-en}}</ref> (1958) створив [[перцептрон]], алгоритм для розпізнавання образів. За допомогою математичного запису Розенблат описав схему не примітивного перцептрону, таку як схема [[Виключна диз'юнкція|виключного «або»]], яке в той час обробляти нейронними мережами було неможливо.<ref name="Werbos 1975">{{cite book|url={{google books |plainurl=y |id=z81XmgEACAAJ}}|title=Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences|last=Werbos|first=P.J.|publisher=|year=1975|isbn=|location=|pages=}} {{ref-en}}</ref>
== Історія розвитку ==
Розуміння функціонування нейрона і картини його зв'язків дозволило дослідникам створити [[математична модель|математичні моделі]] для перевірки своїх [[теорія|теорій]]. У перших же роботах з'ясувалося, що ці моделі не тільки повторюють функції мозку, але і здатні виконувати функції, що мають свою власну цінність. Тому виникли й залишаються до сьогодні дві взаємнозбагачуючі цілі [[нейронне моделювання|нейронного моделювання]]:
* перша&nbsp;— зрозуміти функціонування нервової системи [[людина|людини]] на рівні [[фізіологія|фізіології]] і [[психологія|психології]]
* друга&nbsp;— створити [[обчислювальна система|обчислювальні системи]] (штучні нейронні мережі), що виконують функції, схожі з функціями мозку.


1959 року біологічну модель, запропоновану [[Нобелівський лауреат|нобелівськими лауреатами]] [[Девід Гантер Г'юбел|Г'юбелем]] та [[Торстен Візел|Візелем]], було засновано на їхньому відкритті двох типів клітин у [[Первинна зорова кора|первинній зоровій корі]]: {{нп|Проста клітина|простих клітин||Simple cell}} та {{нп|Складна клітина|складних клітин||Complex cell}}.<ref>{{cite book|url=https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106|title=Brain and visual perception: the story of a 25-year collaboration|publisher=Oxford University Press US|year=2005|isbn=978-0-19-517618-6|page=106|author=David H. Hubel and Torsten N. Wiesel}} {{ref-en}}</ref>
Перший крок був зроблений у [[1943]]&nbsp;р. з появою статті нейрофізіолога [[Уоррен Маккалох|Уоррена Маккалоха]] ({{lang-en|Warren McCulloch}}) і математика {{нп|Уолтер Піттс|Уолтера Піттса||Walter Pitts}} ({{lang-en|Walter Pitts}}) про роботу штучних нейронів і представлення моделі нейронної мережі на електричних схемах.


Перші працездатні мережі з багатьма шарами було опубліковано [[Івахненко Олексій Григорович|Івахненком]] та [[Лапа Валентин Григорович|Лапою]] 1965 року, вони стали [[Метод групового урахування аргументів|методом групового урахування аргументів]].<ref name="SCHIDHUB2">{{cite journal|last=Schmidhuber|first=J.|year=2015|title=Deep Learning in Neural Networks: An Overview|journal=Neural Networks|volume=61|pages=85–117|arxiv=1404.7828|doi=10.1016/j.neunet.2014.09.003|pmid=25462637}} {{ref-en}}</ref><ref name="ivak1965">{{cite book|url={{google books |plainurl=y |id=FhwVNQAACAAJ}}|title=Cybernetic Predicting Devices|last=Ivakhnenko|first=A. G.|publisher=CCM Information Corporation|year=1973}} {{ref-en}}</ref><ref name="ivak1967">{{cite book|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|title=Cybernetics and forecasting techniques|last2=Grigorʹevich Lapa|first2=Valentin|publisher=American Elsevier Pub. Co.|year=1967|first1=A. G.|last1=Ivakhnenko}} {{ref-en}}</ref>
Паралельно з прогресом в {{нп|Нейроанатомія|нейроанатомії||Neuroanatomy}} і [[нейрофізіологія|нейрофізіології]] психологами було створено моделі людського [[навчання]]. Однією з таких моделей, що виявилася найбільш плідною, була модель {{нп|Дональд Геб|Дональда Геба||Donald O. Hebb}} ({{lang-en|Donald Hebb}}), який [[1949]] року в своїй книзі {{нп|Організація поведінки|«''Організація поведінки''»||Organization of Behavior}} запропонував закон навчання, що був стартовою точкою для [[алгоритм]]ів навчання штучних нейронних мереж (процес навчання нейромереж ще називають [[Нейроеволюція|нейроеволюцією]]).{{fact}}


Дослідження нейронних мереж зазнало застою після дослідження [[Машинне навчання|машинного навчання]] [[Марвін Мінський|Мінського]] та [[Сеймур Пейперт|Пейперта]] (1969),<ref>{{cite book|url={{google books |plainurl=y |id=Ow1OAQAAIAAJ}}|title=Perceptrons: An Introduction to Computational Geometry|last=Minsky|first=Marvin|first2=Seymour|publisher=MIT Press|year=1969|isbn=0-262-63022-2|location=|pages=|author2=Papert}} {{ref-en}}</ref> які відкрили дві ключові проблеми з обчислювальними машинами, що обробляли нейронні мережі. Першою було те, що базові перцептрони були нездатні обробляти схему виключного «або». Другою було те, що комп'ютери не мали достатньої обчислювальної потужності для ефективного виконання роботи, потрібної великим нейронним мережам. Дослідження нейронних мереж уповільнилося, поки комп'ютери не досягли набагато більшої обчислювальної потужності.
У 1950-ті&nbsp;— 1960-ті роки група дослідників, об'єднавши ці біологічні та фізіологічні підходи, створила перші штучні нейронні мережі. В 1950-х рр. з'являються програмні моделі штучних нейромереж. Перші роботи провів {{нп|Натаніел Рочестер|||Nathaniel Rochester (computer scientist)}} ({{lang-en|Nathanial Rochester}}) з дослідної лабораторії [[IBM]]. І хоча пізніші реалізації були успішними, його модель зазнала невдачі, оскільки бурхливе зростання традиційних [[обчислення|обчислень]] залишило нейронні дослідження в тіні.


Значну частину [[Штучний інтелект|штучного інтелекту]] було зосереджено на оброблюваних [[алгоритм]]ами високорівневих (символьних) моделях, які характеризують, наприклад, [[Експертна система|експертні системи]] зі знаннями, втіленими в правилах «якщо&nbsp;— то», поки наприкінці 1980-х років дослідження не поширилися на низькорівневе (суб-символьне) [[машинне навчання]], що характеризується втіленням знання в параметрах {{нп|Пізнавальна модель|пізнавальної моделі||Cognitive model}}.{{Citation needed|date=січень 2018|reason=Все речення потребує надійного джерела}}
Перші успіхи викликали вибух активності й оптимізму. Мінскі, Розенблат, Відроу та інші розробили мережі, що складалися з одного прошарку штучних нейронів, які назвали [[перцептрон]]ами. Ці мережі застосовували для розв'язання широкого класу задач: [[прогноз погоди]], аналіз [[електрокардіограма|електрокардіограм]], [[штучний зір]].


=== Зворотне поширення ===
В [[1956]] Дартмутський дослідний проект зі штучного інтелекту забезпечив розвиток дослідження [[штучний інтелект|штучного інтелекту]], зокрема, нейронних мереж. Стимулювання досліджень штучного інтелекту розгалузилось у двох напрямках:
* промислові застосування систем штучного інтелекту ([[експертні системи]]) та
* моделювання мозку.


Ключовим активатором відновлення зацікавленості нейронними мережами та навчанням був алгоритм [[Зворотне поширення|зворотного поширення]] {{нп|Пол Вербос|Вербоса||Paul Werbos}} (1975), який ефективно розв'язував проблему виключного «або», і загалом прискорив навчання багатошарових мереж. Зворотне поширення розповсюджувало член похибки шарами в зворотному напрямку, змінюючи ваги в кожному вузлі.<ref name="Werbos 1975" />
В [[1958]]&nbsp;р. [[Джон фон Нейман]] ({{lang-en|John fon Neumann}}) запропонував [[імітація|імітацію]] простих функцій нейронів із використанням вакуумних трубок. У [[1959]]&nbsp;р. {{нп|Бернард Уідроу|||Bernard Widrow}} ({{lang-en|Bernard Widrow}}) та [[Марсіан Гофф]] ({{lang-en|Marcian Hoff}}) розробили моделі [[ADALINE]] та [[MADALINE]] (Множинні Адаптивні Лінійні Елементи, {{lang-en|Multiple ADAptive LINear Elements}}). MADALINE діяла, як адаптивний [[Електронний фільтр|фільтр]], що усував відлуння на {{нп|Телефонна лінія|телефонних лініях||Telephone line}}. Ця нейромережа й досі в комерційному використанні.


В середині 1980-х років набула популярності розподілена паралельна обробка під назвою {{нп|Конективізм|конективізму||Connectionism}}. {{нп|Девід Румельхарт|Румельхарт||David Rumelhart}} та [[Джеймс МакКлелланд (психолог)|МакКлелланд]] (1986) описали застосування конективізму для моделювання нейронних процесів.<ref>{{cite book|url={{google books |plainurl=y |id=davmLgzusB8C}}|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition|last=Rumelhart|first=D.E|first2=James|publisher=MIT Press|year=1986|isbn=978-0-262-63110-5|location=Cambridge|pages=|author2=McClelland}} {{ref-en}}</ref>
Нейробіолог [[Френк Розенблатт]] ({{lang-en|Frank Rosenblatt}}) почав роботу над [[перцептрон]]ом. Одношаровий перцептрон був збудований апаратно і вважається класичною нейромережею. На той час перцептрон використовувався у класифікації множини вхідних [[сигнал]]ів у один з двох класів.


[[Метод опорних векторів]] та інші, значно простіші методи, такі як [[Лінійний класифікатор|лінійні класифікатори]], поступово наздогнали нейронні мережі за популярністю в машинному навчанні.
Протягом деякого часу здавалося, що ключ до [[інтелект]]у знайдено, і відтворення [[людський мозок|людського мозку]] є лише питанням конструювання досить великої мережі. Але ця ілюзія скоро розсіялася. Мережі не могли розвязувати задачі, зовні схожі з тими, які вони успішно вирішували. З цих невдач почався період інтенсивного аналізу. [[Мінскі Марвін|Марвін Мінскі]] ({{lang-en|Marvin Minsky}}), використовуючи точні математичні методи, довів ряд теорем, що відносяться до функціонування мереж. Його дослідження привели до написання книги «Перцептрони»,<ref name="Minsky Papert 1969">Minsky M., and Papert S., 1969. Perseptrons. Cambridge, MA: MIT Press. {{ref-en}}</ref> в якій він разом з Пайпертом довів, що одношарові мережі, які використовувались в той час, теоретично нездатні розв'язувати багато простих задач, в тому числі реалізувати функцію «виключне або» ('''XOR'''). Блиск і суворість аргументації Мінскі, а також його престиж породили величезне довір'я до книги її висновки були незаперечливими. Розчаровані дослідники залишили поле досліджень заради перспективніших областей, а уряди перерозподілили свої субсидії, і штучні нейронні мережі були забуті майже на два десятиріччя.


Попередні виклики в тренуванні глибинних нейронних мереж було успішно розв'язано за допомогою таких методів, як спонтанне попереднє тренування, в той час як доступна обчислювальна потужність зросла через застосування [[ГП]] та [[Розподілені обчислення|розподілених обчислень]]. Нейронні мережі було розгорнуто в великому масштабі, зокрема, в задачах розпізнавання зображень та відео. Це стало відомим як «[[глибинне навчання]]», хоча глибинне навчання не є строго синонімічним до глибинних нейронних мереж.
Проте декілька найбільш наполегливих вчених, таких як [[Теуво Кохонен]], [[Стів Гросберг]], {{нп|Джеймс Андерсон|||James A. Anderson}} ({{lang-en|James A. Anderson}}) продовжили дослідження. Поступово з'явився теоретичний фундамент, на основі якого сьогодні конструюються найпотужніші [[Глибинна нейронна мережа|багатошарові мережі]]. Оцінка Мінскі виявилася надто песимістичною, багато з поставлених в його книзі задач розв'язуються зараз мережами за допомогою стандартних процедур.


1992 року було представлено [[максимізаційне агрегування]], щоби допомогти з інваріантністю відносно найменшого зсуву та терпимістю до деформації для допомоги в розпізнаванні тривимірних об'єктів.<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol I, pp. 576-581, June, 1992. {{ref-en}}</ref><ref name="Weng19932">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993. {{ref-en}}</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997. {{ref-en}}</ref>
Наприкінці 1980-х років теорія стала застосовуватися в прикладних областях і з'явилися нові корпорації, що займалися комерційним використанням цієї технології. Наростання наукової активності мало вибуховий характер. У [[1987]] було проведено чотири великих наради зі штучних нейронних мереж і опубліковано понад 500 наукових статей.


[[Проблема зникання градієнту]] впливає на багатошарові [[Нейронна мережа прямого поширення|мережі прямого поширення]], які використовують зворотне поширення, а також на [[Рекурентна нейронна мережа|рекурентні нейронні мережі]] (РНМ).<ref name="HOCH19912">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref><ref name="HOCH2001">{{cite book|url={{google books |plainurl=y |id=NWOcMVA64aAC}}|title=A Field Guide to Dynamical Recurrent Networks|last=Hochreiter|first=S.|last2=et al.|date=15 January 2001|publisher=John Wiley & Sons|year=|isbn=978-0-7803-5369-5|location=|pages=|chapter=Gradient flow in recurrent nets: the difficulty of learning long-term dependencies|editor-last2=Kremer|editor-first2=Stefan C.|editor-first1=John F.|editor-last1=Kolen}} {{ref-en}}</ref> З поширенням похибок від шару до шару, вони скорочуються експоненційно з кількістю шарів, стримуючи налаштування ваг нейронів, яке ґрунтується на цих похибках, й особливо вражаючи глибинні мережі.
Після двох десятиріч майже повного забуття інтерес до штучних нейронних мереж швидко зріс. Фахівці з таких далеких областей, як [[технічне конструювання]], [[філософія]], [[фізіологія]] і [[психологія]], заінтриговані можливостями, що надає ця технологія, і шукають застосування їм всередині своїх дисциплін.


Щоби подолати цю проблему, {{нп|Юрген Шмідгубер|Шмідгубер||Juergen Schmidhuber}} обрав багатошарову ієрархію мереж (1992), попередньо тренованих по одному шарові за раз за допомогою спонтанного навчання, а потім тонко налаштовуваних [[Зворотне поширення|зворотним поширенням]].<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992. {{ref-en}}</ref> Бенке (2003) в таких задачах, як відбудова зображень та визначення положень облич, покладався лише на знак градієнту ({{нп|еластичне зворотне поширення|||Rprop}}).<ref>{{cite book|url=http://www.ais.uni-bonn.de/books/LNCS2766.pdf|title=Hierarchical Neural Networks for Image Interpretation.|publisher=Springer|year=2003|series=Lecture Notes in Computer Science|volume=2766|author=Sven Behnke}} {{ref-en}}</ref>
Це відродження інтересу було викликане як теоретичними, так і прикладними досягненнями. Несподівано відкрилися можливості використання обчислень в сферах, які до цього відносились лише до області людського інтелекту, можливості створення машин, здатність яких вчитися і запам'ятовувати дивним чином нагадує процеси [[мислення]] людини, і наповнення новим значним змістом терміну «штучний інтелект».


{{нп|Джефрі Хінтон|Хінтон||Geoffrey Hinton}} та ін. (2006) запропонували навчання високорівневих представлень із застосуванням послідовних шарів двійкових або дійснозначних [[Латентна змінна|латентних змінних]] з [[Обмежена машина Больцмана|обмеженою машиною Больцмана]]<ref name="smolensky1986">{{cite book|url=http://portal.acm.org/citation.cfm?id=104290|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition|year=1986|editors=D. E. Rumelhart, J. L. McClelland, & the PDP Research Group|volume=1|pages=194–281|chapter=Information processing in dynamical systems: Foundations of harmony theory.|last1=Smolensky|first1=P.|authorlink1=Пол Смоленський}}</ref> для моделювання кожного шару. Щойно навчено достатньо багато шарів, можна застосовувати глибинну архітектуру як [[Породжувальна модель|породжувальну модель]], відтворюючи дані здійсненням вибірки моделлю донизу («спадковий прохід») від збудження ознак верхнього рівня.<ref name="hinton2006">{{cite journal|last2=Osindero|first2=S.|last3=Teh|first3=Y.|year=2006|title=A fast learning algorithm for deep belief nets|url=http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf|journal={{нп|Neural Computation (журнал)|Neural Computation||Neural Computation (journal)}}|volume=18|issue=7|pages=1527–1554|doi=10.1162/neco.2006.18.7.1527|pmid=16764513|last1=Hinton|first1=G. E.|authorlink1=Джефрі Хінтон}} {{ref-en}}</ref><ref>{{Cite journal|year=2009|title=Deep belief networks|url=http://www.scholarpedia.org/article/Deep_belief_networks|journal=Scholarpedia|volume=4|issue=5|pages=5947|doi=10.4249/scholarpedia.5947|pmc=|pmid=|last1=Hinton|first1=G.|bibcode=2009SchpJ...4.5947H}} {{ref-en}}</ref> 2012 року {{нп|Ендрю Ин|Ин||Andrew Ng}} та {{нп|Джефф Дін|Дін||Jeff Dean (computer scientist)}} створили мережу, яка вчилася розпізнавати високорівневі поняття, такі як коти, лише з перегляду немічених зображень, взятих з відео [[YouTube]].<ref name="ng2012">{{cite arXiv|eprint=1112.6209|first2=Jeff|last2=Dean|title=Building High-level Features Using Large Scale Unsupervised Learning|last1=Ng|first1=Andrew|year=2012|class=cs.LG}} {{ref-en}}</ref>
== Сучасність ==


=== Апаратні конструкції ===
=== Медицина ===
2017 року науковці з [[Університет Аделаїди|Університету Аделаїди]] розробили систему, за допомогою якої можна було б автоматизувати процес пошуку захворювання у пацієнтів. Для цього використали 15 тис знімків [[Грудна клітка|грудної клітини]] людей, старших за 60 років. Після обробки даних нейромережею за допомогою {{нп|Біомаркер|біомаркерів||Biomarker}}, остання змогла передбачити летальний результат для 69% випадків. Науковці стверджують, що такий результат притаманний і звичайним лікарям. Дослідники вважають, що розробка відкриває нові можливості для застосування штучного інтелекту в аналізі [[Томографія|томограм]], що може привести до більш раннього виявлення захворювань людини.<ref>{{Cite news|url=https://tokar.ua/read/17749|title=Штучний інтелект передбачає тривалість життя пацієнтів|date=2017-06-26|language=uk-UA|work=Tokar.ua|accessdate=2017-08-13}}</ref>


Було створювано обчислювальні пристрої в [[КМОН]], як для біофізичного моделювання, так і для {{нп|Нейроморфні обчислення|нейроморфних обчислень||Neuromorphic computing}}. [[Нанопристрій|Нанопристрої]]<ref>{{cite journal | last1 = Yang | first1 = J. J. | last2 = Pickett | first2 = M. D. | last3 = Li | first3 = X. M. | last4 = Ohlberg | first4 = D. A. A. | last5 = Stewart | first5 = D. R. | last6 = Williams | first6 = R. S. | year = 2008 | title = Memristive switching mechanism for metal/oxide/metal nanodevices| url = | journal = Nat. Nanotechnol | volume = 3 | issue = 7| pages = 429–433 | doi = 10.1038/nnano.2008.160 }} {{ref-en}}</ref> для надвеликомасштабного [[Метод головних компонент|аналізу головних компонент]] та [[Згортка|згортки]] можуть утворити новий клас нейронних обчислень, оскільки вони є фундаментально [[Аналоговий сигнал|аналоговими]], а не [[Цифрові дані|цифровими]] (хоча перші втілення й можуть використовувати цифрові пристрої).<ref>{{cite journal | last1 = Strukov | first1 = D. B. | last2 = Snider | first2 = G. S. | last3 = Stewart | first3 = D. R. | last4 = Williams | first4 = R. S. | year = 2008 | title = The missing memristor found| url = | journal = Nature | volume = 453 | issue = 7191| pages = 80–83 | doi=10.1038/nature06932 | pmid=18451858| bibcode = 2008Natur.453...80S }} {{ref-en}}</ref> Чирешан з колегами (2010)<ref name=":3">{{Cite journal|last=Cireşan|first=Dan Claudiu|last2=Meier|first2=Ueli|last3=Gambardella|first3=Luca Maria|last4=Schmidhuber|first4=Jürgen|date=2010-09-21|title=Deep, Big, Simple Neural Nets for Handwritten Digit Recognition|url=http://www.mitpressjournals.org/doi/10.1162/NECO_a_00052|journal=Neural Computation|volume=22|issue=12|pages=3207–3220|doi=10.1162/neco_a_00052|issn=0899-7667}} {{ref-en}}</ref> з групи Шмідгубера показали, що, незважаючи на проблему зникання градієнту, ГП роблять [[зворотне поширення]] придатним для багатошарових нейронних мереж прямого поширення.
=== Кулінарія ===
У травні 2017 року команда науковців з Франції, Японії та Росії розробили штучну нейромережу, що може пристосовувати [[Кулінарний рецепт|рецепти]] до традиційної кухні різних країн світу. Для навчання науковці використали базу даних з 32 тисяч рецептів традиційної кухні 20 країн світу. Для навчання штучного інтелекту дослідники застосували векторну модель {{нп|Word2vec}}. Її зазвичай використовують для аналізу тексту, щоби встановити асоціацію між словами.<ref>{{Cite web|url=http://vkurse.ua/ua/technology/nauchili-sozdavat-kulinarnye-recepty.html|title=Штучний інтелект навчили створювати кулінарні рецепти, — ВКурсе.ua новини України|website=vkurse.ua|accessdate=2017-08-13}}</ref>


=== Музика ===
=== Змагання ===
2016 року фахівці групи Magenta представили широкому загалу першу мелодію, яку написала нейромережа. Перші напрацювання в області музичної творчості машин група Magenta продемонструвала на музичному фестивалі {{нп|Moogfest}} у травні 2016 року. На основі п'яти отриманих нот програма зіграла складнішу і довшу мелодію.<ref>{{Cite web|url=https://techcrunch.com/2016/06/01/google-ai-produces-a-melody-that-rivals-the-casio-keyboard-concerts-of-our-youth/?ncid=rss|title=Google AI produces a melody that rivals the Casio keyboard concerts of our youth {{!}} TechCrunch|last=Coldewey|first=Devin|accessdate=2017-08-13}} {{ref-en}}</ref>


В період з 2009 по 2012 рік [[Рекурентна нейронна мережа|рекурентні нейронні мережі]] та глибинні нейронні мережі прямого поширення, розроблені в дослідницькій групі {{нп|Юрген Шмідгубер|Шмідгубера||Juergen Schmidhuber}}, виграли вісім міжнародних змагань з [[розпізнавання образів]] та [[Машинне навчання|машинного навчання]].<ref>[http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions 2012 Kurzweil AI Interview] with {{нп|Юрген Шмідгубер|Jürgen Schmidhuber||Juergen Schmidhuber}} on the eight competitions won by his Deep Learning team 2009–2012 {{ref-en}}</ref><ref>{{Cite web|url=http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions|title=How bio-inspired deep learning keeps winning competitions {{!}} KurzweilAI|last=|first=|date=|website=www.kurzweilai.net|language=en-US|archive-url=|archive-date=|dead-url=|accessdate=2017-06-16}} {{ref-en}}</ref> Наприклад, двоспрямована та [[Багатовимірність|багатовимірна]] [[довга короткочасна пам'ять]] (ДКЧП, {{lang-en|long short-term memory, LSTM}})<ref>Graves, Alex; and Schmidhuber, Jürgen; ''[http://www.idsia.ch/~juergen/nips2009.pdf Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks]'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), 7–10 December 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552.
=== Малювання ===
{{ref-en}}</ref><ref name="graves 855" /><ref name="graves20093">{{Cite journal|last2=Schmidhuber|first2=Jürgen|date=2009|editor-last=Bengio|editor-first=Yoshua|title=Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks|url=https://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-networks|journal=Neural Information Processing Systems (NIPS) Foundation|volume=|pages=545–552|via=|editor-last2=Schuurmans|editor-first2=Dale|editor-last3=Lafferty|editor-first3=John|editor-last4=Williams|editor-first4=Chris editor-K. I.|editor-last5=Culotta|editor-first5=Aron|last1=Graves|first1=Alex}} {{ref-en}}</ref><ref>{{Cite journal|last=Graves|first=A.|last2=Liwicki|first2=M.|last3=Fernández|first3=S.|last4=Bertolami|first4=R.|last5=Bunke|first5=H.|last6=Schmidhuber|first6=J.|date=May 2009|title=A Novel Connectionist System for Unconstrained Handwriting Recognition|url=http://ieeexplore.ieee.org/document/4531750/|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=31|issue=5|pages=855–868|doi=10.1109/tpami.2008.137|issn=0162-8828}} {{ref-en}}</ref> {{нп|Алекс Ґрейвс (інформатик)|Ґрейвса||Alex Graves (computer scientist)}} та ін. виграла три змагання з розпізнаванні неперервного рукописного тексту на {{нп|Міжнародна конференція з аналізу та розпізнавання документів|Міжнародній конференції з аналізу та розпізнавання документів||International Conference on Document Analysis and Recognition}} ({{lang-en|ICDAR}}) 2009 року без жодного попереднього знання про три мови, яких було потрібно навчитися.<ref name="graves20093"/><ref name="graves 855">{{cite journal|last2=Liwicki|first2=M.|last3=Fernandez|first3=S.|last4=Bertolami|first4=R.|last5=Bunke|first5=H.|last6=Schmidhuber|first6=J.|year=2009|title=A Novel Connectionist System for Improved Unconstrained Handwriting Recognition|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=31|issue=5|pages=855–868|doi=10.1109/tpami.2008.137|last1=Graves|first1=A.| url = http://www.idsia.ch/~juergen/tpami_2008.pdf | format = PDF}} {{ref-en}}</ref>
Google AI Experiments 2017-го року розробила інструмент AutoDraw, заснований на машинному навчанні, який вгадує, що хотіла намалювати людина. AutoDraw являє собою інтернет-майданчик для малювання. Після того, як штучний інтелект зрозуміє, що користувач хоче зобразити, програма запропонує кілька варіантів для уточнення. Тільки-но художник вибере із запропонованих варіантів найбільш підходящий, система тут же змінить малюнок на такий, ніби він був виконаний професіоналом.<ref>{{Cite news|url=https://tmginfo.net/2017/04/neyromerezha-vid-google-peretvoryuie-nevmili/|title=Нейромережа від Google перетворює невмілі малюнки в красиві картинки - TMGinfo.net|date=2017-04-12|language=uk-UA|work=TMGinfo.net|accessdate=2017-08-13}}</ref>


Чирешан з колегами виграли змагання з [[розпізнавання образів]], включно зі Змаганням з розпізнавання дорожніх знаків {{нпні|Міжнародна об'єднана конференція з нейронних мереж|IJCNN||International Joint Conference on Neural Networks}} 2011 року,<ref name=":72">{{Cite journal|last=Cireşan|first=Dan|last2=Meier|first2=Ueli|last3=Masci|first3=Jonathan|last4=Schmidhuber|first4=Jürgen|date=August 2012|title=Multi-column deep neural network for traffic sign classification|url=http://www.sciencedirect.com/science/article/pii/S0893608012000524|journal=Neural Networks|series=Selected Papers from IJCNN 2011|volume=32|pages=333–338|doi=10.1016/j.neunet.2012.02.023}} {{ref-en}}</ref> Змаганням із сегментування нейронних структур у стеках електронної мікроскопії ISBI 2012 року<ref>{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last=Ciresan|first=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Juergen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.}} {{ref-en}}</ref> та іншими. Їхні нейронні мережі були першими, що досягли порівняної з людською, або навіть надлюдської продуктивності<ref name=":92">{{Cite journal|last=Ciresan|first=Dan|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|date=June 2012|title=Multi-column deep neural networks for image classification|url=http://ieeexplore.ieee.org/document/6248110/|journal=2012 IEEE Conference on Computer Vision and Pattern Recognition|volume=|pages=3642–3649|doi=10.1109/cvpr.2012.6248110|via=|isbn=978-1-4673-1228-8}} {{ref-en}}</ref> на таких еталонах, як розпізнавання дорожніх знаків (IJCNN 2012) та [[MNIST (база даних)|задача рукописних цифр MNIST]].
=== Ігри ===
{{Розширити розділ|дата=серпень 2017}}


Дослідники показали (2010), що глибинні нейронні мережі, з'єднані з [[Прихована марковська модель|прихованою марковською моделлю]] з контекстно-залежними станами, які визначають шар виходу нейронної мережі, можуть докорінно знижувати похибки в задачах великословникового розпізнавання мовлення, таких як голосовий пошук.
== Класифікація за типом вхідної інформації ==
* Аналогові нейронні мережі (використовують інформацію у формі дійсних чисел);
* Двійкові нейронні мережі (оперують з інформацією, представленою в двійковому вигляді).


Втілення цього підходу на основі ГП<ref name=":6">{{Cite journal|last=Ciresan|first=D. C.|last2=Meier|first2=U.|last3=Masci|first3=J.|last4=Gambardella|first4=L. M.|last5=Schmidhuber|first5=J.|date=2011|editor-last=|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|journal=International Joint Conference on Artificial Intelligence|volume=|pages=|doi=10.5591/978-1-57735-516-8/ijcai11-210|via=}} {{ref-en}}</ref> виграли багато змагань з розпізнавання образів, включно зі Змаганням з розпізнавання дорожніх знаків {{нпні|Міжнародна об'єднана конференція з нейронних мереж|IJCNN||International Joint Conference on Neural Networks}} 2011 року,<ref name=":72"/> Змаганням із сегментування нейронних структур в ЕМ-стеках ISBI 2012 року,<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last=Ciresan|first=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Juergen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.}} {{ref-en}}</ref> {{нп|Змагання ImageNet|змаганням ImageNet||ImageNet Competition}}<ref name="krizhevsky2012">{{cite journal|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffry|date=2012|title=ImageNet Classification with Deep Convolutional Neural Networks|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|last1=Krizhevsky|first1=Alex}} {{ref-en}}</ref> та іншими.
== Класифікація за характером навчання ==
* [[Навчання з учителем]]&nbsp;— відомі вихідні результати нейронної мережі;
* [[Навчання без вчителя]]&nbsp;— нейронна мережа опрацьовує тільки вхідні дані та самостійно формує вихідні результати. Такі мережі називають самоорганізаційними;
* [[Навчання з підкріпленням]]&nbsp;— система призначення штрафів і заохочень від середовища.


Глибинні, високонелінійні нейронні архітектури, подібні до [[неокогнітрон]]у<ref name="K. Fukushima. Neocognitron 1980">{{cite journal|year=1980|title=Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position|journal=Biological Cybernetics|volume=36|issue=4|pages=93–202|doi=10.1007/BF00344251|pmid=7370364|author=Fukushima, K.}} {{ref-en}}</ref> та «стандартної архітектури бачення»,<ref>{{cite journal|last2=Poggio|first2=T|year=1999|title=Hierarchical models of object recognition in cortex|journal=Nature Neuroscience|volume=2|issue=11|pages=1019–1025|doi=10.1038/14819|last1=Riesenhuber|first1=M}} {{ref-en}}</ref> натхнені {{нп|Проста клітина|простими||Simple cell}} та {{нп|Складна клітина|складними клітинами||Complex cell}}, було попередньо треновано спонтанними методами Хінтоном.<ref name=":1">{{Cite journal|last=Hinton|first=Geoffrey|date=2009-05-31|title=Deep belief networks|url=http://www.scholarpedia.org/article/Deep_belief_networks|journal=Scholarpedia|language=en|volume=4|issue=5|pages=5947|doi=10.4249/scholarpedia.5947|issn=1941-6016|bibcode=2009SchpJ...4.5947H}} {{ref-en}}</ref><ref name="hinton2006" /> Команда з його лабораторії виграла змагання 2012 року, спонсороване компанією [[Merck & Co.|Merck]], для розробки програмного забезпечення для допомоги в пошуку молекул, які можуть ідентифікувати нові ліки.<ref>{{cite news|url=https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html|title=Scientists See Promise in Deep-Learning Programs|last=Markoff|first=John|date=November 23, 2012|author=|newspaper=New York Times}} {{ref-en}}</ref>
== Класифікація за характером налаштування синапсів ==
* Мережі з фіксованими зв'язками (вагові коефіцієнти нейронної мережі вибираються відразу, виходячи з умов завдання, при цьому: '''dW / dt = 0''' , де '''W'''&nbsp;— вагові коефіцієнти мережі);
* Мережі з динамічними зв'язками (для них в процесі навчання відбувається налаштування синаптичних зв'язків, тобто '''dW / dt ≠ 0''', де '''W'''&nbsp;— вагові коефіцієнти мережі).


=== Згорткові мережі ===
== Класифікація за представленнями ==
Якщо обчислювальна мережа має представляти елементи з якоїсь множини і кожному елементу відповідає якийсь вузол мережі, таке представлення називається '''локальним представленням'''. Його просто зрозуміти і реалізувати. Проте іноді представляти елементи множини вигідніше певним шаблоном активності розподіленої на багатьох елементах мережі. Таке представлення називають '''розподіленим'''. Використання такого представлення може збільшити ефективність мережі.<ref name="Hinton, Geoffrey E 1984">{{Cite web|url=http://repository.cmu.edu/cgi/viewcontent.cgi?article=2841&context=compsci|title=Distributed representations|last=Hinton|first=Geoffrey E.|date=1984|website=|archive-url=|archive-date=|dead-url=|access-date=}}</ref>


Починаючи з 2011 року, передовою в мережах прямого поширення глибинного навчання була почерговість згорткових шарів та шарів максимізаційного агрегування,<ref name=":6" /><ref name="martines2013">{{cite journal|last2=Bengio|first2=Y.|last3=Yannakakis|first3=G. N.|year=2013|title=Learning Deep Physiological Models of Affect|url=|journal=IEEE Computational Intelligence|volume=8|issue=2|pages=20–33|doi=10.1109/mci.2013.2247823|last1=Martines|first1=H.}} {{ref-en}}</ref> увінчаних декількома повно- або частково зв'язаними шарами, за якими йде рівень остаточної класифікації. Навчання зазвичай виконується без спонтанного попереднього навчання.
== Примітки ==


Такі керовані методи глибинного навчання були першими, що досягли в певних задачах продуктивності, порівняної з людською.<ref name=":92"/>
{{Примітки}}


ШНМ змогли гарантувати інваріантність до зсуву, щоби обходитися з маленькими та великими природними об'єктами у великих загромаджених сценах, лише коли інваріантність поширилася за межі зсуву, на всі навчені ШНМ поняття, такі як розташування, тип (мітка класу об'єкта), масштаб, освітлення та інші. Це було реалізовано в еволюційних мережах (ЕМ, {{lang-en|Developmental Networks, DN}}),<ref name="Weng2011">J. Weng, "[http://www.cse.msu.edu/~weng/research/WhyPass-Weng-NI-2011.pdf Why Have We Passed `Neural Networks Do not Abstract Well'?]," ''Natural Intelligence: the INNS Magazine'', vol. 1, no.1, pp. 13-22, 2011.
== Джерела інформації ==
{{ref-en}}</ref> чиїми втіленнями є мережі «де—що» ({{lang-en|Where-What Networks}}), від WWN-1 (2008)<ref name="Weng08">Z. Ji, J. Weng, and D. Prokhorov, "[http://www.cse.msu.edu/~weng/research/ICDL08_0077.pdf Where-What Network 1: Where and What Assist Each Other Through Top-down Connections]," ''Proc. 7th International Conference on Development and Learning (ICDL'08)'', Monterey, CA, Aug. 9-12, pp. 1-6, 2008. {{ref-en}}</ref> до WWN-7 (2013).<ref name="Weng13">X. Wu, G. Guo, and J. Weng, "[http://www.cse.msu.edu/~weng/research/WWN7-Wu-ICBM-2013.pdf Skull-closed Autonomous Development: WWN-7 Dealing with Scales]," ''Proc. International Conference on Brain-Mind'', July 27–28, East Lansing, Michigan, pp. +1-9, 2013. {{ref-en}}</ref>


== Моделі ==
* Wasserman, P. D. (1989). Neural computing theory and practice. (''Ф. Восермен Нейрокомп'ютерна техніка: Теорія і практика'')
{{Плутано|розділ|дата=січень 2018}}

''(Штучна) нейронна мережа''&nbsp;— це мережа простих елементів, званих ''[[Штучний нейрон|нейронами]]'', які отримують вхід, змінюють свій внутрішній стан (''збудження'') відповідно до цього входу, і виробляють вихід, залежний від входу та збудження. ''Мережа'' утворюється з'єднанням виходів певних нейронів зі входами інших нейронів з утворенням [[Орієнтований граф|орієнтованого]] [[Зважений граф|зваженого графу]]. Ваги, як і [[Функція збудження|функції, що обчислюють збудження]], можуть змінюватися процесом, званим ''навчанням'', який керується ''[[Правило навчання ШНМ|правилом навчання]]''.<ref name=Zell1994ch5.2>{{cite book |last=Zell |first=Andreas |year=1994 |title=Simulation Neuronaler Netze |trans-title=Simulation of Neural Networks |language=German |edition=1st |publisher=Addison-Wesley |chapter=chapter 5.2 |isbn=3-89319-554-8}} {{ref-de}}</ref>

=== Складові штучної нейронної мережі ===

==== Нейрони ====

Нейрон з міткою <math>j</math>, що отримує вхід <math>p_j(t)</math> від нейронів-попередників, складається з наступних складових:<ref name=Zell1994ch5.2 />

* ''збудження'' ({{lang-en|activation}}) <math>a_j(t)</math>, що залежить від дискретного параметра часу,
* можливо, ''порогу'' ({{lang-en|threshold}}) <math>\theta_j</math>, що залишається незмінним, якщо його не змінить функція навчання,
* ''функції збудження'' ({{lang-en|activation function}}) <math>f</math>, яка обчислює нове збудження в заданий час <math>t+1</math> з <math>a_j(t)</math>, <math>\theta_j</math> та мережевого входу <math>p_j(t)</math>, даючи в результаті відношення
: <math> a_j(t+1) = f(a_j(t), p_j(t), \theta_j) </math>,
* та ''функції виходу'' ({{lang-en|output function}}) <math>f_{out}</math>, яка обчислює вихід з активації
: <math> o_j(t) = f_{out}(a_j(t)) </math>.
Функція виходу часто є просто [[Тотожна функція|тотожною функцією]].

''Нейрон входу'' ({{lang-en|input neuron}}) не має попередників, а слугує інтерфейсом входу для всієї мережі. Аналогічно, ''нейрон виходу'' ({{lang-en|output neuron}}) не має наступників, і відтак слугує інтерфейсом виходу для всієї мережі.

==== З'єднання та ваги ====

''Мережа'' ({{lang-en|network}}) складається зі з'єднань ({{lang-en|connection}}), кожне з яких передає вихід нейрону <math>i</math> до входу нейрону <math>j</math>. В цьому сенсі <math>i</math> є попередником ({{lang-en|predecessor}}) <math>j</math>, а <math>j</math> є наступником ({{lang-en|successor}}) <math>i</math>. Кожному з'єднанню призначено вагу ({{lang-en|weight}}) <math>w_{ij}</math>.<ref name=Zell1994ch5.2 />

==== Функція поширення ====

''Функція поширення'' ({{lang-en|propagation function}}) обчислює ''вхід'' <math>p_j(t)</math> до нейрону <math>j</math> з виходів <math>o_i(t)</math> нейронів-попередників, і зазвичай має вигляд<ref name=Zell1994ch5.2 />
: <math> p_j(t) = \sum_{i} o_i(t) w_{ij} </math>.

==== Правило навчання ====

Правило навчання ({{lang-en|learning rule}})&nbsp;— це правило або алгоритм, який змінює параметри нейронної мережі, щоби заданий вхід до мережі видавав придатний вихід. Цей процес ''навчання'' зазвичай полягає в зміні ваг та порогів змінних мережі.<ref name=Zell1994ch5.2 />

=== Нейронні мережі як функції ===
{{Див. також|Графічні моделі}}

Нейромережеві моделі можна розглядати як прості математичні моделі, що визначають функцію <math>\textstyle f : X \rightarrow Y </math>, або розподіл над <math>\textstyle X</math>, або над <math>\textstyle X</math> та <math>\textstyle Y</math>. Іноді моделі тісно пов'язують з певним правилом навчання. Поширене використання фрази «модель ШНМ» насправді є визначенням ''класу'' таких функцій (де членів цього класу отримують варіюванням параметрів, ваг з'єднань, або особливостей архітектури, таких як число нейронів або їхня зв'язність).

З математичної точки зору, нейромережеву функцію <math>\textstyle f(x)</math> визначають як композицію інших функцій <math>\textstyle g_i(x)</math>, які може бути розкладено далі на інші функції. Це може бути зручно представляти як мережеву структуру, де стрілки зображують залежність між функціями. Широко вживаним способом компонування є ''нелінійна зважена сума'', де <math>\textstyle f (x) = K \left(\sum_i w_i g_i(x)\right) </math>, де <math>\textstyle K</math> (що часто називають [[Функція збудження|функцією збудження]], {{lang-en|activation function}}<ref>{{cite web|url=http://www.cse.unsw.edu.au/~billw/mldict.html#activnfn|title=The Machine Learning Dictionary}} {{ref-en}}</ref>) є визначеною наперед функцією, такою як [[гіперболічний тангенс]], або [[сигмоїдна функція]], або {{нп|нормалізована експоненційна функція|||Softmax function}}, або {{нп|випрямляльна функція|||Rectifier (neural networks)}}. Важливою характеристикою функції збудження є те, що вона забезпечує плавний перехід при зміні значень входу, тобто, невелика зміна входу призводить до невеликої зміни виходу. Наведене нижче розглядає набір функцій <math>\textstyle g_i</math> як {{нп|Вектор (математика та фізика)|вектор||Vector (mathematics and physics)}} <math>\textstyle g = (g_1, g_2, \ldots, g_n)</math>.

[[Файл:Ann dependency (graph).svg|thumb|150px|Граф залежностей ШНМ]]

Ця схема зображує такий розклад <math>\textstyle f</math>, із залежностями між змінними, показаними стрілками. Їх може бути інтерпретовано двома способами.

Перший погляд є функційним: вхід <math>\textstyle x</math> перетворювано на 3-вимірний вектор <math>\textstyle h</math>, який відтак перетворювано на 2-вимірний вектор <math>\textstyle g</math>, який нарешті перетворювано на <math>\textstyle f</math>. Цей погляд найчастіше зустрічається в контексті [[Оптимізація (математика)|оптимізації]].

Другий погляд є ймовірнісним: [[випадкова змінна]] <math>\textstyle F = f(G) </math> залежить від випадкової змінної <math>\textstyle G = g(H)</math>, яка залежить від <math>\textstyle H=h(X)</math>, яка залежить від випадкової змінної <math>\textstyle X</math>. Цей погляд найчастіше зустрічається в контексті [[Графічна модель|графічних моделей]].

Ці два погляди є здебільшого рівнозначними. В кожному з випадків, для цієї конкретної архітектури, складові окремих шарів не залежать одна від одної (наприклад, складові <math>\textstyle g</math> є незалежними одна від одної за заданого їхнього входу <math>\textstyle h</math>). Це природно уможливлює якусь міру паралелізму в реалізації.

[[Файл:Recurrent ann dependency graph.png|thumb|120px|Два окремі зображення графу залежностей рекурентної ШНМ]]

Такі мережі, як попередня, зазвичай називають мережами [[Нейронна мережа прямого поширення|прямого поширення]], оскільки їхній граф є [[Орієнтований ациклічний граф|орієнтованим ациклічним графом]]. Мережі з [[Цикл (теорія графів)|циклами]] зазвичай називають [[Рекурентна нейронна мережа|рекурентними]]. Такі мережі зазвичай зображують у спосіб, показаний у верхній частині малюнка, де <math>\textstyle f</math> показано як залежну від самої себе. Проте, не показано часову залежність, що мається на увазі.

=== Навчання ===
{{Див. також|Математична оптимізація|Теорія оцінювання|Машинне навчання}}

Найбільше зацікавлення нейронними мережами викликала можливість навчання. Для заданої конкретної ''задачі'' для розв'язання та класу функцій <math>\textstyle F</math> навчання означає використання набору спостережень для знаходження <math>\textstyle f^{*} \in F</math>, яка розв'язує цю задачу в певному оптимальному сенсі.

Це тягне за собою визначення такої функції витрат ({{lang-en|cost function}}) <math>\textstyle C : F \rightarrow \mathbb{R}</math>, що, для оптимального розв'язку <math>\textstyle f^*</math>, <math>\textstyle C(f^*) \leq C(f)</math> <math>\textstyle \forall f \in F</math>&nbsp;— тобто, жоден розв'язок не має витрат, менших за витрати оптимального розв'язку (див. [[Математична оптимізація|математичну оптимізацію]]).

Функція витрат <math>\textstyle C</math> є важливим поняттям у навчанні, оскільки вона є мірою того, наскільки далеким є певний розв'язок від оптимального розв'язку задачі, яку потрібно розв'язати. Алгоритми навчання здійснюють пошук простором розв'язків, щоби знайти функцію, яка має найменші можливі витрати.

Для тих застосувань, де розв'язок залежить від даних, витрати обов'язково мусять бути функцією від спостережень, бо інакше модель не матиме зв'язку з даними. Їх часто визначають як [[Статистика (математика)|статистику]], для якої може бути зроблено лише наближення. Як простий приклад, розгляньмо задачу знаходження моделі <math>\textstyle f</math>, яка зводить до мінімуму <math>\textstyle C=E\left[(f(x) - y)^2\right]</math> для пар даних <math>\textstyle (x,y)</math>, що витягають з певного розподілу <math>\textstyle \mathcal{D}</math>. В практичних ситуаціях ми матимемо лише <math>\textstyle N</math> зразків з <math>\textstyle \mathcal{D}</math>, і, відтак, для наведеного вище прикладу ми будемо зводити до мінімуму лише <math>\textstyle \hat{C}=\frac{1}{N}\sum_{i=1}^N (f(x_i)-y_i)^2</math>. Таким чином, витрати зводяться до мінімуму над вибіркою з даних, а не над усім розподілом.

Коли <math>\textstyle N \rightarrow \infty</math>, мусить застосовуватися якийсь різновид {{нп|Інтерактивне машинне навчання|інтерактивного машинного навчання||Online machine learning}}, в якому витрати знижуються з кожним побаченим зразком. І хоча інтерактивне машинне навчання часто застосовують за незмінного <math>\textstyle \mathcal{D}</math>, найкориснішим воно є у випадку, коли цей розподіл повільно змінюється з часом. В нейромережевих методах якісь різновиди інтерактивного машинного навчання часто застосовують для скінченних наборів даних.

==== Обирання функції витрат ====

Навіть коли можливо визначити функцію витрат ''[[ad hoc]]'', часто використовують конкретні витрати (функцію витрат), або через те, що вони мають бажані властивості (такі як [[Опукла функція|опуклість]]), або через те, що вони природно виникають з певного формулювання задачі (наприклад, у ймовірнісному формулюванні як обернені витрати можна використовувати [[Апостеріорна ймовірність|апостеріорну ймовірність]] моделі). Кінець кінцем, функція витрат залежить від задачі.

==== Зворотне поширення ====
{{Main|Зворотне поширення}}

[[Глибинна нейронна мережа|ГНМ]] може бути треновано [[Розрізнювальна модель|розрізнювально]] за допомогою стандартного алгоритму зворотного поширення ({{lang-en|backpropagation}}). Зворотне поширення&nbsp;— це метод обчислення [[градієнт]]у [[Функція втрат|функції втрат]] (видає витрати, пов'язані з заданим станом) по відношенню до ваг в ШНМ.

Основи неперервного зворотного поширення<ref name="SCHIDHUB2"/><ref name="scholarpedia2">{{cite journal|year=2015|title=Deep Learning|url=http://www.scholarpedia.org/article/Deep_Learning|journal=Scholarpedia|volume=10|issue=11|page=32832|doi=10.4249/scholarpedia.32832|last1=Schmidhuber|first1=Jürgen|authorlink=Юрген Шмідгубер|bibcode=2015SchpJ..1032832S}} {{ref-en}}</ref><ref name=":5">{{Cite journal|last=Dreyfus|first=Stuart E.|date=1990-09-01|title=Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure|url=http://arc.aiaa.org/doi/10.2514/3.25422|journal=Journal of Guidance, Control, and Dynamics|volume=13|issue=5|pages=926–928|doi=10.2514/3.25422|issn=0731-5090|bibcode=1990JGCD...13..926D}} {{ref-en}}</ref><ref name="mizutani2000">Eiji Mizutani, {{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}}, Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. [http://queue.ieor.berkeley.edu/People/Faculty/dreyfus-pubs/ijcnn2k.pdf Online] {{ref-en}}</ref> було виведено в контексті [[Теорія керування|теорії керування]] {{нп|Генрі Келлі|Келлі||Henry J. Kelley}}<ref name="kelley1960">{{cite journal|year=1960|title=Gradient theory of optimal flight paths|url=http://arc.aiaa.org/doi/abs/10.2514/8.5282?journalCode=arsj|journal=Ars Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282|last1=Kelley|first1=Henry J.|authorlink=Генрі Келлі}} {{ref-en}}</ref> 1960 року та {{нп|Артур Брайсон|Брайсоном||Arthur E. Bryson}} 1961 року<ref name="bryson1961">{{нп|Артур Брайсон|Arthur E. Bryson||Arthur E. Bryson}} (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications. {{ref-en}}</ref> з використанням принципів [[Динамічне програмування|динамічного програмування]]. 1962 року {{нп|Стюарт Дрейфус|Дрейфус||Stuart Dreyfus}} опублікував простіше виведення, засноване лише на [[Ланцюгове правило|ланцюговому правилі]].<ref name="dreyfus1962">{{cite journal|year=1962|title=The numerical solution of variational problems|url=https://www.researchgate.net/publication/256244271_The_numerical_solution_of_variational_problems|journal=Journal of Mathematical Analysis and Applications|volume=5|issue=1|pages=30–45|doi=10.1016/0022-247x(62)90004-5|last1=Dreyfus|first1=Stuart|authorlink=Стюарт Дрейфус}} {{ref-en}}</ref> Брайсон та {{нп|Юй-Ці Хо|Хо||Yu-Chi Ho}} описали його як метод багатоетапної оптимізації динамічних систем 1969 року.<ref>{{cite book|url={{google books |plainurl=y |id=8jZBksh-bUMC|page=578}}|title=Artificial Intelligence A Modern Approach|last2=Norvig|first2=Peter|publisher=Prentice Hall|year=2010|isbn=978-0-13-604259-4|page=578|quote=The most popular method for learning in multilayer networks is called Back-propagation.|author-link2=Пітер Норвіг|first1=Stuart J.|last1=Russell|author-link1=Стюарт Расселл}} {{ref-en}}</ref><ref name="Bryson1969">{{cite book|url={{google books |plainurl=y |id=1bChDAEACAAJ|page=481}}|title=Applied Optimal Control: Optimization, Estimation and Control|last=Bryson|first=Arthur Earl|publisher=Blaisdell Publishing Company or Xerox College Publishing|year=1969|page=481}} {{ref-en}}</ref> 1970 року {{нп|Сеппо Ліннаінмаа|Ліннаінмаа||Seppo Linnainmaa}} остаточно опублікував загальний метод [[Автоматичне диференціювання|автоматичного диференціювання]] (АД) дискретних зв'язних мереж вкладених [[Диференційовність|диференційовних]] функцій.<ref name="lin1970">{{нп|Сеппо Ліннаінмаа|Seppo Linnainmaa||Seppo Linnainmaa}} (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. {{ref-en}}</ref><ref name="lin1976">{{cite journal|year=1976|title=Taylor expansion of the accumulated rounding error|url=|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|last1=Linnainmaa|first1=Seppo|authorlink=Сеппо Ліннаінмаа}} {{ref-en}}</ref> Він відповідає сучасному баченню зворотного поширення, яке є ефективним навіть коли мережі є розрідженими.<ref name="SCHIDHUB2"/><ref name="scholarpedia2"/><ref name="grie2012">{{Cite journal|last=Griewank|first=Andreas|date=2012|title=Who Invented the Reverse Mode of Differentiation?|url=http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|journal=Documenta Matematica, Extra Volume ISMP|volume=|pages=389–400|via=}} {{ref-en}}</ref><ref name="grie2008">{{cite book|url={{google books |plainurl=y |id=xoiiLaRxcbEC}}|title=Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition|last2=Walther|first2=Andrea|publisher=SIAM|year=2008|isbn=978-0-89871-776-1|first1=Andreas|last1=Griewank}} {{ref-en}}</ref> 1973 року Дрейфус застосував зворотне поширення для пристосування [[параметр]]ів контролерів пропорційно градієнтам похибок.<ref name="dreyfus1973">{{cite journal|year=1973|title=The computational solution of optimal control problems with time lag|url=|journal=IEEE Transactions on Automatic Control|volume=18|issue=4|pages=383–385|doi=10.1109/tac.1973.1100330|last1=Dreyfus|first1=Stuart|authorlink=Стюарт Дрейфус}} {{ref-en}}</ref> 1974 року {{нп|Пол Вербос|Вербос||Paul Werbos}} зазначив можливість застосування цього принципу до ШНМ,<ref name="werbos1974">{{нп|Пол Вербос|Paul Werbos||Paul Werbos}} (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University. {{ref-en}}</ref> і 1982 року він застосував метод АД Ліннаінмаа до нейронних мереж способом, який широко застосовується сьогодні.<ref name="scholarpedia2"/><ref name="werbos1982">{{Cite book|url=http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf|title=System modeling and optimization|last=Werbos|first=Paul|authorlink=Пол Вербос|publisher=Springer|year=1982|isbn=|location=|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis}} {{ref-en}}</ref> 1986 року {{нп|Девід Румельхарт|Румельхарт||David Rumelhart}}, Хінтон та {{нп|Рональд Вільямс|Вільямс||Ronald J. Williams}} зазначили, що цей метод може породжувати корисні внутрішні представлення вхідних даних в прихованих шарах нейронних мереж.<ref name=":4">{{Cite journal|last=Rumelhart|first=David E.|last2=Hinton|first2=Geoffrey E.|last3=Williams|first3=Ronald J.|title=Learning representations by back-propagating errors|url=http://www.nature.com/articles/Art323533a0|journal=Nature|volume=323|issue=6088|pages=533–536|doi=10.1038/323533a0|year=1986|bibcode=1986Natur.323..533R}} {{ref-en}}</ref> 1993 року Ван став першим<ref name="SCHIDHUB2"/> переможцем міжнародного змагання з розпізнавання образів за допомогою зворотного поширення.<ref name="wan1993">Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195-195). Addison-Wesley Publishing Co. {{ref-en}}</ref>

Уточнення ваг зворотного поширення можливо здійснювати за допомогою [[Стохастичний градієнтний спуск|стохастичного градієнтного спуску]] із застосуванням наступного рівняння:

: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} +\xi(t) </math>

де <math> \eta </math> є темпом навчання, <math> C </math> є функцією витрат (втрат), а <math>\xi(t)</math>&nbsp;— стохастичним членом. Вибір функції витрат залежить від таких чинників як тип навчання (кероване, спонтанне, [[Навчання з підкріпленням|з підкріпленням]] тощо) та [[Функція збудження|функції збудження]]. Наприклад, при здійсненні керованого навчання на задачі {{нп|Багатокласова класифікація|багатокласової класифікації||Multiclass classification}} поширеними варіантами вибору функції збудження та функції витрат є {{нп|нормалізована експоненційна функція|||Softmax function}} та функція [[Перехресна ентропія|перехресної ентропії]] відповідно. Нормалізовану експоненційну функцію визначають як <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math>, де <math> p_j </math> представляє ймовірність класу (вихід вузла <math> j </math>), а <math> x_j </math> та <math> x_k </math> представляють загальний вхідний сигнал вузлів <math> j </math> та <math> k </math> одного й того ж рівня відповідно. Перехресну ентропію визначають як <math> C = -\sum_j d_j \log(p_j) </math>, де <math> d_j </math> представляє цільову ймовірність для вузла виходу <math> j </math>, а <math> p_j </math> є виходом ймовірності для <math> j </math> після застосування функції збудження.<ref>{{Cite journal|last=Hinton|first=G.|last2=Deng|first2=L.|last3=Yu|first3=D.|last4=Dahl|first4=G. E.|last5=Mohamed|first5=A. r|last6=Jaitly|first6=N.|last7=Senior|first7=A.|last8=Vanhoucke|first8=V.|last9=Nguyen|first9=P.|date=November 2012|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups|url=http://ieeexplore.ieee.org/document/6296526/|journal=IEEE Signal Processing Magazine|volume=29|issue=6|pages=82–97|doi=10.1109/msp.2012.2205597|issn=1053-5888|bibcode=2012ISPM...29...82H}} {{ref-en}}</ref>

Це можливо використовувати для виведення [[Мінімальна обмежувальна коробка|обмежувальних коробок]] об'єкта у вигляді двійкової маски. Їх також використовують для багатомасштабної регресії для підвищення точності визначення положення. Регресія на основі [[Глибинна нейронна мережа|ГНМ]] може навчатися ознак, що схоплюють геометричну інформацію, на додачу до того, що вони слугують добрим класифікатором. Вони усувають вимогу явного моделювання частин та їхніх взаємозв'язків. Це допомагає розширити розмаїття об'єктів, яких можна навчитися. Модель складається з декількох шарів, кожен з яких має {{нп|випрямляльний лінійний вузол|||Rectified linear unit}} як функцію збудження для нелінійного перетворення. Деякі шари є згортковими, тоді як деякі є повнозв'язними. Кожен згортковий шар має додаткове [[максимізаційне агрегування]]. Мережу тренують для зведення до мінімуму [[Норма L2|похибки ''L''<sup>2</sup>]] для передбачування маски, що пробігає весь тренувальний набір, що містить обмежувальні коробки, представлені як маски.

До альтернатив зворотному поширенню належать [[Машина екстремального навчання|машини екстремального навчання]],<ref>{{cite journal|last2=Zhu|first2=Qin-Yu|last3=Siew|first3=Chee-Kheong|year=2006|title=Extreme learning machine: theory and applications|url=|journal=Neurocomputing|volume=70|issue=1|pages=489–501|doi=10.1016/j.neucom.2005.12.126|last1=Huang|first1=Guang-Bin}} {{ref-en}}</ref> «безпоширні» ({{lang-en|«No-prop»}}) мережі,<ref>{{cite journal|year=2013|title=The no-prop algorithm: A new learning algorithm for multilayer neural networks|url=|journal=Neural Networks|volume=37|issue=|pages=182–188|doi=10.1016/j.neunet.2012.09.020|last1=Widrow|first1=Bernard|display-authors=etal}} {{ref-en}}</ref> тренування без пошуку з вертанням,<ref>{{cite arXiv|eprint=1507.07680|first=Yann|last=Ollivier|first2=Guillaume|last2=Charpiat|title=Training recurrent networks without backtracking|year=2015|class=cs.NE}} {{ref-en}}</ref> «безвагові» ({{lang-en|weightless}}) мережі<ref>ESANN. 2009 {{ref-en}}</ref><ref name="RBMTRAIN">{{Cite journal|last=Hinton|first=G. E.|date=2010|title=A Practical Guide to Training Restricted Boltzmann Machines|url=https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|journal=Tech. Rep. UTML TR 2010-003,|volume=|pages=|via=}} {{ref-en}}</ref> та {{нп|Голографічна асоціативна пам'ять|не-конективістські нейронні мережі||Holographic associative memory}}.

=== Парадигми навчання ===

Існує три основні парадигми навчання, кожна з яких відповідає певній навчальній задачі. Ними є [[кероване навчання]], [[спонтанне навчання]] та [[навчання з підкріпленням]].

==== Кероване навчання ====

[[Кероване навчання]] ({{lang-en|supervised learning}}) використовує набір прикладів пар <math> (x, y), x \in X, y \in Y</math>, і має на меті пошук функції <math> f : X \rightarrow Y </math> в дозволеному класі функцій, яка відповідає цим прикладам. Іншими словами, ми хочемо вивести відображення, на яке натякають ці дані; функцію витрат пов'язано з невідповідністю між нашим відображенням та даними, і вона неявно містить апріорне знання про предметну область.<ref>{{Cite journal|last=Ojha|first=Varun Kumar|last2=Abraham|first2=Ajith|last3=Snášel|first3=Václav|date=2017-04-01|title=Metaheuristic design of feedforward neural networks: A review of two decades of research|url=http://www.sciencedirect.com/science/article/pii/S0952197617300234|journal=Engineering Applications of Artificial Intelligence|volume=60|pages=97–116|doi=10.1016/j.engappai.2017.01.013}} {{ref-en}}</ref>

Широко вживаними витратами є {{нп|середньоквадратична похибка|||Mean squared error}}, яка намагається звести до мінімуму усереднену квадратичну похибку між виходом мережі, <math> f(x)</math>, та цільовим значення <math> y</math> над усіма прикладами пар. Зведення до мінімуму цих витрат за допомогою [[Градієнтний спуск|градієнтного спуску]] для класу нейронних мереж, званого [[Багатошаровий перцептрон|багатошаровими перцептронами]] (БШП), дає [[алгоритм зворотного поширення]] для тренування нейронних мереж.

Задачами, що вписуються до парадигми керованого навчання, є [[розпізнавання образів]] (відоме також як класифікація) та [[Регресійний аналіз|регресія]] (відома також як наближення функцій). Парадигма керованого навчання є застосовною також і до послідовнісних даних (наприклад, до розпізнавання писання вручну, мовлення та жестів). Його можна розглядати як навчання з «учителем» у вигляді функції, яка забезпечує постійний зворотний зв'язок стосовно якості отриманих досі розв'язків.

==== Спонтанне навчання ====

У [[Спонтанне навчання|спонтанному навчанні]] ({{lang-en|unsupervised learning}}) даються якісь дані <math>\textstyle x</math> та функція витрат для зведення до мінімуму, якою може бути будь-яка функція від даних <math>\textstyle x</math> та виходу мережі <math>\textstyle f</math>.

Функція витрат залежить від задачі (предметної області моделі) та наявних [[Апріорі|апріорних]] припущень (неявних властивостей моделі, її параметрів, та спостережуваних змінних).

Як тривіальний приклад, розгляньмо модель <math>\textstyle f(x) = a</math>, де <math>\textstyle a</math> є сталою, а витрати <math>\textstyle C=E[(x - f(x))^2]</math>. Зведення до мінімуму цих витрат дає значення <math>\textstyle a</math>, яке дорівнює середньому значенню даних. Функція витрат може бути набагато складнішою. Її вигляд залежить від застосування: наприклад, у [[Стиснення даних|стисненні]] її може бути пов'язано зі [[Взаємна інформація|взаємною інформацією]] між <math>\textstyle x</math> та <math>\textstyle f(x)</math>, тоді як у статистичному моделюванні її може бути пов'язано з [[Апостеріорна ймовірність|апостеріорною ймовірністю]] моделі за заданих даних (зауважте, що в обох цих прикладах ці величини зводитимуться до максимуму, а не до мінімуму).

Задачі, що вписуються до парадигми спонтанного навчання, є загалом задачами [[Апроксимація|оцінювання]]; до застосувань належать [[кластерування]], оцінювання [[Статистичний розподіл|статистичних розподілів]], [[Стиснення даних|стиснення]] та [[Баєсове фільтрування спаму|фільтрування]].

==== Навчання з підкріпленням ====
{{Див. також|{{нп|Стохастичне керування|||Stochastic control}}}}

У [[Навчання з підкріпленням|навчанні з підкріпленням]] ({{lang-en|reinforcement learning}}) дані <math>\textstyle x</math> зазвичай не надаються, а породжуються взаємодією агента з середовищем. В кожен момент часу <math>\textstyle t</math> агент виконує дію <math>\textstyle y_t</math>, а середовище породжує спостереження <math>\textstyle x_t</math> та миттєві витрати <math>\textstyle c_t</math> відповідно до якоїсь (зазвичай невідомої) динаміки. Метою є визначити таку стратегію ({{lang-en|policy}}) вибору дій, яка зводить до мінімуму якусь міру довготривалих витрат, наприклад, очікувані сукупні витрати. Динаміка середовища та довготривалі витрати для кожної зі стратегій є зазвичай невідомими, але їх може бути оцінено.

Формальніше, середовище моделюють як [[марковський процес вирішування]] (МПВ) зі станами <math>\textstyle {s_1,...,s_n}\in S </math> та діями <math>\textstyle {a_1,...,a_m} \in A</math> з наступними розподілами ймовірності: розподілом миттєвих витрат <math>\textstyle P(c_t|s_t)</math>, розподілом спостережень <math>\textstyle P(x_t|s_t)</math> та переходом <math>\textstyle P(s_{t+1}|s_t, a_t)</math>, тоді як стратегію визначають як умовний розподіл над діями за заданих спостережень. Взята разом, ця двійка відтак утворює [[марковський ланцюг]] (МЛ). Метою є визначити таку стратегію (тобто, МЛ), що зводить витрати до мінімуму.

ШНМ часто використовують у навчанні з підкріпленням як частину загального алгоритму.<ref>{{cite conference| author = Dominic, S. |author2=Das, R. |author3=Whitley, D. |author4=Anderson, C. |date=July 1991 | title = Genetic reinforcement learning for neural networks | conference = IJCNN-91-Seattle International Joint Conference on Neural Networks | booktitle = IJCNN-91-Seattle International Joint Conference on Neural Networks | publisher = IEEE | location = Seattle, Washington, USA | url = https://dx.doi.org/10.1109/IJCNN.1991.155315 | doi = 10.1109/IJCNN.1991.155315 | accessdate = 29 July 2012 | isbn = 0-7803-0164-1 }} {{ref-en}}</ref><ref>{{cite journal |last=Hoskins |first=J.C. |author2=Himmelblau, D.M. |title=Process control via artificial neural networks and reinforcement learning |journal=Computers & Chemical Engineering |year=1992 |volume=16 |pages=241–251 |doi=10.1016/0098-1354(92)80045-B |issue=4}} {{ref-en}}</ref> [[Динамічне програмування]] було зв'язано з ШНМ (давши нейродинамічне програмування) {{нп|Дімітрі Берцекас|Берцекасом||Dimitri Bertsekas}} та {{нп|Джон Цицикліс|Цициклісом||John Tsitsiklis}}<ref>{{cite book|url=https://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images|title=Neuro-dynamic programming|first=D.P.|first2=J.N.|publisher=Athena Scientific|year=1996|isbn=1-886529-10-8|location=|page=512|pages=|author=Bertsekas|author2=Tsitsiklis}} {{ref-en}}</ref> і застосовано до багатовимірних нелінійних задач, таких як присутні в {{нп|Маршрутизування транспорту|маршрутизувані транспорту||Vehicle routing}},<ref>{{cite journal |last=Secomandi |first=Nicola |title=Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands |journal=Computers & Operations Research |year=2000 |volume=27 |pages=1201–1225 |doi=10.1016/S0305-0548(99)00146-X |issue=11–12}} {{ref-en}}</ref> [[Природокористування|природокористуванні]]<ref>{{cite conference| author = de Rigo, D. |author2=Rizzoli, A. E. |author3=Soncini-Sessa, R. |author4=Weber, E. |author5=Zenesi, P. | year = 2001 | title = Neuro-dynamic programming for the efficient management of reservoir networks | conference = MODSIM 2001, International Congress on Modelling and Simulation | conferenceurl = http://www.mssanz.org.au/MODSIM01/MODSIM01.htm | booktitle = Proceedings of MODSIM 2001, International Congress on Modelling and Simulation | publisher = Modelling and Simulation Society of Australia and New Zealand | location = Canberra, Australia | doi = 10.5281/zenodo.7481 | url = https://zenodo.org/record/7482/files/de_Rigo_etal_MODSIM2001_activelink_authorcopy.pdf | accessdate = 29 July 2012 | isbn = 0-867405252 }} {{ref-en}}</ref><ref>{{cite conference| author = Damas, M. |author2=Salmeron, M. |author3=Diaz, A. |author4=Ortega, J. |author5=Prieto, A. |author6=Olivares, G.| year = 2000 | title = Genetic algorithms and neuro-dynamic programming: application to water supply networks | conference = 2000 Congress on Evolutionary Computation | booktitle = Proceedings of 2000 Congress on Evolutionary Computation | publisher = IEEE | location = La Jolla, California, USA | url = https://dx.doi.org/10.1109/CEC.2000.870269 | doi = 10.1109/CEC.2000.870269 | accessdate = 29 July 2012 | isbn = 0-7803-6375-2 }} {{ref-en}}</ref> та [[Медицина|медицині]],<ref>{{cite journal |last=Deng |first=Geng |author2=Ferris, M.C. |title=Neuro-dynamic programming for fractionated radiotherapy planning |journal=Springer Optimization and Its Applications |year=2008 |volume=12 |pages=47–70 |doi=10.1007/978-0-387-73299-2_3|citeseerx=10.1.1.137.8288 |series=Springer Optimization and Its Applications |isbn=978-0-387-73298-5 }} {{ref-en}}</ref> через здатність ШНМ пом'якшувати втрати точності навіть при зниженні щільності ґратки дискретизації для чисельного наближення розв'язків первинних задач керування.

Задачами, які вписуються до парадигми навчання з підкріпленням, є задачі керування, [[Гра|ігри]] та інші задачі {{нпні|Послідовне ухвалювання рішень|послідовного ухвалювання рішень||Sequential decision making}}.

==== Алгоритм збіжного рекурсивного навчання ====

Алгоритм збіжного рекурсивного навчання ({{lang-en|convergent recursive learning algorithm}})&nbsp;— метод навчання, розроблений спеціально для нейронних мереж {{нп|Артикуляційний контролер мозочкової моделі|артикуляційних контролерів мозочкової моделі||Cerebellar model articulation controller}} (АКММ, {{lang-en|cerebellar model articulation controller, CMAC}}). 2004 року було представлено рекурсивний алгоритм найменших квадратів для інтерактивного тренування нейронної мережі {{нп|Артикуляційний контролер мозочкової моделі|АКММ||Cerebellar model articulation controller}}.<ref name=Qin1>Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61. {{ref-en}}</ref> Цей алгоритм може збігатися за один крок та уточнювати всі ваги за один крок із будь-якими новими вхідними даними. Початково він мав [[Обчислювальна складність|обчислювальну складність]] ''O''(''N''<sup>3</sup>). На основі [[QR-розклад|''QR''-розкладу]] цей рекурсивний алгоритм навчання було спрощено до ''O''(''N'').<ref name=Qin2>Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array." Neural Processing Letters 22.1 (2005): 1-16. {{ref-en}}</ref>

=== Алгоритми навчання ===
{{Див. також|Машинне навчання}}

Тренування нейронної мережі по суті означає вибирання однієї моделі з множини дозволених моделей (або, в [[Баєсова ймовірність|баєсовій]] системі, визначення розподілу над множиною дозволених моделей), що зводить витрати до мінімуму. Доступні численні алгоритми для тренування нейромережевих моделей; більшість із них можна розглядати як безпосереднє застосування теорії [[Математична оптимізація|оптимізації]] та [[Статистичне оцінювання|статистичного оцінювання]].

Більшість використовують [[градієнтний спуск]] якогось вигляду, застосовуючи зворотне поширення для обчислення фактичних градієнтів. Це здійснюється просто взяттям похідної від функції витрат по відношенню до параметрів мережі, з наступною зміною цих параметрів у {{нп|Пов'язаний з градієнтом|пов'язаному з градієнтом||Gradient-related}} напрямку. Алгоритми тренування зворотним поширенням поділяються на три категорії:

* [[найшвидший спуск]] (зі змінним темпом навчання та [[Градієнтний спуск#Метод імпульсу|імпульсом]], {{нп|Еластичне зворотне поширення|еластичним зворотним поширенням||Rprop}});
* квазі-ньютонові ([[Алгоритм Бройдена — Флетчера — Гольдфарба — Шанно|Бройден&nbsp;— Флетчер&nbsp;— Гольдфарб&nbsp;— Шанно]], [[Метод січних|однокрокова січна]]);
* {{нп|Алгоритм Левенберга — Марквардта|Левенберг&nbsp;— Марквардт||Levenberg–Marquardt algorithm}} та {{нп|Метод спряжених градієнтів|спряжені градієнти||Conjugate gradient method}} (уточнення Флетчера&nbsp;— Рівза, уточнення Поляка&nbsp;— Ріб'єра, перезапуск Павелла&nbsp;— Біла, масштабований спряжений градієнт).<ref>{{cite conference|author1=M. Forouzanfar |author2=H. R. Dajani |author3=V. Z. Groza |author4=M. Bolic |author5=S. Rajan |last-author-amp=yes |date=July 2010 | title = Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation | conference = 4th Int. Workshop Soft Computing Applications | publisher = IEEE| location = Arad, Romania |url=https://www.researchgate.net/profile/Mohamad_Forouzanfar/publication/224173336_Comparison_of_Feed-Forward_Neural_Network_training_algorithms_for_oscillometric_blood_pressure_estimation/links/00b7d533829c3a7484000000.pdf?ev=pub_int_doc_dl&origin=publication_detail&inViewer=true&msrp=TyT96%2BjWOHJo%2BVhkMF4IzwHPAImSd442n%2BAkEuXj9qBmQSZ495CpxqlaOYon%2BSlEzWQElBGyJmbBCiiUOV8ImeEqPFXiIRivcrWsWmlPBYU%3D }} {{ref-en}}</ref>

Іншими методами для тренування нейронних мереж є [[еволюційні методи]],<ref>{{cite conference| authors = de Rigo, D., Castelletti, A., Rizzoli, A.E., Soncini-Sessa, R., Weber, E. |date=January 2005 | title = A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management | conference = 16th IFAC World Congress | conferenceurl = http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Index.html | booktitle = Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine | editor = Pavel Zítek | volume = 16 | publisher = IFAC | location = Prague, Czech Republic | url = http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Papers/Paper4269.html
| accessdate = 30 December 2011 | doi = 10.3182/20050703-6-CZ-1902.02172 | isbn = 978-3-902661-75-3 }} {{ref-en}}</ref> {{нп|генно-експресійне програмування|||Gene expression programming}},<ref>{{cite web|last=Ferreira|first=C.|year=2006|title=Designing Neural Networks Using Gene Expression Programming|url= http://www.gene-expression-programming.com/webpapers/Ferreira-ASCT2006.pdf|publisher= In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag}} {{ref-en}}</ref> [[імітування відпалювання]],<ref>{{cite conference| author = Da, Y. |author2=Xiurun, G. |date=July 2005 | title = An improved PSO-based ANN with simulated annealing technique | conference = New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks | conferenceurl = http://www.dice.ucl.ac.be/esann/proceedings/electronicproceedings.htm | editor = T. Villmann | publisher = Elsevier | doi = 10.1016/j.neucom.2004.07.002 }}<!--| accessdate = 30 December 2011 --> {{ref-en}}</ref> [[очікування-максимізація]], {{нп|непараметричні методи|||Non-parametric methods}} та [[метод рою часток]].<ref>{{cite conference| author = Wu, J. |author2=Chen, E. |date=May 2009 | title = A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network | conference = 6th International Symposium on Neural Networks, ISNN 2009 | conferenceurl = http://www2.mae.cuhk.edu.hk/~isnn2009/ | editors = Wang, H., Shen, Y., Huang, T., Zeng, Z. | publisher = Springer | doi = 10.1007/978-3-642-01513-7-6 | isbn = 978-3-642-01215-0 }}<!--| accessdate = 1 January 2012 --> {{ref-en}}</ref>

== Варіанти ==

=== Метод групового урахування аргументів ===
{{Main|Метод групового урахування аргументів}}

Метод групового урахування аргументів (МГУА, {{lang-en|Group Method of Data Handling, GMDH}})<ref name="ivak1968">{{cite journal|year=1968|title=The [[Метод групового урахування аргументів|group method of data handling]] – a rival of the method of stochastic approximation|url=|journal=Soviet Automatic Control|volume=13|issue=3|pages=43–55|last1=Ivakhnenko|first1=Alexey Grigorevich|authorlink=Івахненко Олексій Григорович}} {{ref-en}}</ref> демонструє повністю автоматичну структурну та параметричну оптимізацію моделей. Функціями збудження вузлів є {{нп|Поліном Колмогорова — Габора|поліноми Колмогорова&nbsp;— Габора|ru|Полином Колмогорова-Габора}}, що дозволяють додавання та множення. Він використовує глибинний багатошаровий перцептрон прямого поширення з вісьмома шарами.<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|date=1971|title=Polynomial theory of complex systems|url=|journal=IEEE Transactions on Systems, Man and Cybernetics (4)|issue=4|pages=364–378|doi=10.1109/TSMC.1971.4308320|pmid=|accessdate=}} {{ref-en}}</ref> Він є мережею [[Кероване навчання|керованого навчання]], що росте шар за шаром, де кожен з шарів треновано [[Регресійний аналіз|регресійним аналізом]]. Непотрібні елементи виявляються застосуванням {{нп|Затверджуваний набір|затверджувального набору||Validation set}} та обрізаються щляхом [[Регуляризація (математика)|регуляризації]]. Розмір та глибина отримуваної в результаті мережі залежить від задачі.<ref name="kondo2008">{{cite journal|last2=Ueno|first2=J.|date=|year=2008|title=Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels|url=https://www.researchgate.net/publication/228402366_GMDH-Type_Neural_Network_Self-Selecting_Optimum_Neural_Network_Architecture_and_Its_Application_to_3-Dimensional_Medical_Image_Recognition_of_the_Lungs|journal=International Journal of Innovative Computing, Information and Control|volume=4|issue=1|pages=175–187|via=|last1=Kondo|first1=T.}} {{ref-en}}</ref>

=== Згорткові нейронні мережі ===
{{main article|Згорткова нейронна мережа}}

Згорткова нейронна мережа (ЗНМ, {{lang-en|convolutional neural network, CNN}})&nbsp;— це клас глибинних мереж прямого поширення, складених з одного чи більше [[Згортка (математичний аналіз)|згорткових]] шарів, із повноз'єднаними шарами (що відповідають шарам звичайних ШНМ) на верхівці. Він використовує зв'язані ваги та шари агрегування. Зокрема, за згортковою архітектурою Фукусіми<ref name="FUKU1980">{{cite journal|year=1980|title=Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position|url=|journal=Biol. Cybern.|volume=36|issue=4|pages=193–202|doi=10.1007/bf00344251|pmid=7370364|last1=Fukushima|first1=K.}} {{ref-en}}</ref> часто зорганізовують максимізаційне агрегування.<ref name="Weng19932"/> Ця архітектура дозволяє ЗНМ отримувати користь від двовимірної структури вхідних даних.

ЗНМ є зручними для обробки візуальних та інших двовимірних даних.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989. {{ref-en}}</ref><ref name="lecun2016slides">[[Ян ЛеКун|Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online] {{ref-en}}</ref> Вони показали чудові результати в застосуваннях як для зображень, так і для мовлення. Їх може бути треновано стандартним зворотним поширенням. ЗНМ є простішими для тренування за інші звичайні глибинні нейронні мережі прямого поширення, і мають набагато менше параметрів, що треба оцінювати.<ref name="STANCNN">{{cite web|url=http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/|title=Unsupervised Feature Learning and Deep Learning Tutorial|publisher=}} {{ref-en}}</ref> До прикладів застосування в комп'ютерному баченні належить {{нп|DeepDream}}.<ref name="deepdream">{{cite journal|last2=Liu|first2=Wei|last3=Jia|first3=Yangqing|last4=Sermanet|first4=Pierre|last5=Reed|first5=Scott|last6=Anguelov|first6=Dragomir|last7=Erhan|first7=Dumitru|last8=Vanhoucke|first8=Vincent|last9=Rabinovich|first9=Andrew|date=|year=2014|title=Going Deeper with Convolutions|url=|journal=Computing Research Repository|volume=|pages=1|arxiv=1409.4842|doi=10.1109/CVPR.2015.7298594|via=|first1=Christian|last1=Szegedy|isbn=978-1-4673-6964-0}} {{ref-en}}</ref>

=== Довга короткочасна пам'ять ===
{{main article|Довга короткочасна пам'ять}}

Мережі довгої короткочасної пам'яті (ДКЧП, {{lang-en|long short-term memory, LSTM}})&nbsp;— це [[Рекурентна нейронна мережа|РНМ]], які уникають [[Проблема зникання градієнту|проблеми зникання градієнту]].<ref name=":03">{{Cite journal|last=Hochreiter|first=Sepp|author-link=Зепп Хохрайтер|last2=Schmidhuber|first2=Jürgen|author-link2=Юрген Шмідгубер|date=1997-11-01|title=Long Short-Term Memory|url=http://www.mitpressjournals.org/doi/10.1162/neco.1997.9.8.1735|journal=Neural Computation|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|issn=0899-7667|via=}} {{ref-en}}</ref> ДКЧП зазвичай доповнювано рекурентними вентилями, які називають забувальними ({{lang-en|forget gates}}).<ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|language=en|accessdate=2017-06-13|pp=115–143}} {{ref-en}}</ref> Мережі ДКЧП попереджають зникання та вибухання зворотно поширюваних похибок.<ref name="HOCH19912"/> Натомість, похибки можуть плинути в зворотному напрямку необмеженим числом віртуальних шарів розгорнутої в просторі ДКЧП. Таким чином, ДКЧП може вчитися задач «дуже глибокого навчання» ({{lang-en|"very deep learning"}}),<ref name="SCHIDHUB2" /> що потребують спогадів про події, які сталися тисячі або навіть мільйони дискретних кроків часу тому. Можливо виводити проблемно-орієнтовані ДКЧП-подібні архітектури.<ref>{{Cite journal|last=Bayer|first=Justin|last2=Wierstra|first2=Daan|last3=Togelius|first3=Julian|last4=Schmidhuber|first4=Jürgen|date=2009-09-14|title=Evolving Memory Cell Structures for Sequence Learning|url=https://link.springer.com/chapter/10.1007/978-3-642-04277-5_76|journal=Artificial Neural Networks – ICANN 2009|volume=5769|language=en|publisher=Springer, Berlin, Heidelberg|pages=755–764|doi=10.1007/978-3-642-04277-5_76|series=Lecture Notes in Computer Science|isbn=978-3-642-04276-8}}
{{ref-en}}</ref> ДКЧП може мати справу з тривалими затримками та сигналами, які містять суміш низько- та високочастотних складових.

Стопки РНМ ДКЧП,<ref>{{Cite journal|last=Fernández|first=Santiago|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|date=2007|title=Sequence labelling in structured domains with hierarchical recurrent neural networks|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.79.1887|journal=In Proc. 20th Int. Joint Conf. on Artificial In℡ligence, Ijcai 2007|pages=774–779}} {{ref-en}}</ref> треновані нейромережевою часовою класифікацією (НЧК, {{lang-en|Connectionist Temporal Classification, CTC}}),<ref name=":12">{{Cite journal|last=Graves|first=Alex|last2=Fernández|first2=Santiago|last3=Gomez|first3=Faustino|date=2006|title=Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.75.6306|journal=In Proceedings of the International Conference on Machine Learning, ICML 2006|pages=369–376}} {{ref-en}}</ref> можуть знаходити матрицю ваг РНМ, яка зводить до максимуму ймовірність послідовностей міток у тренувальному наборі для відповідних заданих вхідних послідовностей. НЧК досягає як вирівнювання, так і розпізнавання.

2003 року ДКЧП почала ставати конкурентноздатною в порівнянні з традиційними розпізнавачами мовлення.<ref name="graves2003">{{Cite web|url=Ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf|title=Biologically Plausible Speech Recognition with LSTM Neural Nets|last=Graves|first=Alex|last2=Eck|first2=Douglas|date=2003|website=1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland|pages=175–184|archive-url=|archive-date=|dead-url=|accessdate=|last3=Beringer|first3=Nicole|last4=Schmidhuber|first4=Jürgen|authorlink4=Юрген Шмідгубер}} {{ref-en}}</ref> 2007 року, в поєднанні з НЧК, досягла перших добрих результатів на даних мовлення.<ref name="fernandez2007keyword">{{Cite journal|last=Fernández|first=Santiago|last2=Graves|first2=Alex|last3=Schmidhuber|first3=Jürgen|date=2007|title=An Application of Recurrent Neural Networks to Discriminative Keyword Spotting|url=http://dl.acm.org/citation.cfm?id=1778066.1778092|journal=Proceedings of the 17th International Conference on Artificial Neural Networks|series=ICANN'07|location=Berlin, Heidelberg|publisher=Springer-Verlag|pages=220–229|isbn=3540746935}} {{ref-en}}</ref> 2009 року ДКЧП, тренована НЧК, стала першою РНМ, яка перемогла в змаганнях із розпізнавання образів, коли вона виграла кілька змагань із неперервного [[Розпізнавання рукописного введення|рукописного розпізнавання]].<ref name="SCHIDHUB2" /><ref name="graves20093"/> 2014 року [[Baidu]] використала ДКЧП на основі НЧК, щоби перевершити еталон розпізнавання мовлення Switchboard Hub5'00, без традиційних методів обробки мовлення.<ref name="hannun2014">{{cite arxiv|last=Hannun|first=Awni|last2=Case|first2=Carl|last3=Casper|first3=Jared|last4=Catanzaro|first4=Bryan|last5=Diamos|first5=Greg|last6=Elsen|first6=Erich|last7=Prenger|first7=Ryan|last8=Satheesh|first8=Sanjeev|last9=Sengupta|first9=Shubho|date=2014-12-17|title=Deep Speech: Scaling up end-to-end speech recognition|eprint=1412.5567|class=cs.CL}} {{ref-en}}</ref> ДКЧП також поліпшила велико-словникове розпізнавання мовлення,<ref name="sak2014">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|title=Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling|last=Sak|first=Hasim|last2=Senior|first2=Andrew|date=2014|website=|archive-url=|archive-date=|dead-url=|accessdate=|last3=Beaufays|first3=Francoise}} {{ref-en}}</ref><ref name="liwu2015">{{cite arxiv|last=Li|first=Xiangang|last2=Wu|first2=Xihong|date=2014-10-15|title=Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition|eprint=1410.4281|class=cs.CL}} {{ref-en}}</ref> [[синтез мовлення]] з тексту,<ref>{{Cite web|url=https://www.researchgate.net/publication/287741874_TTS_synthesis_with_bidirectional_LSTM_based_Recurrent_Neural_Networks|title=TTS synthesis with bidirectional LSTM based Recurrent Neural Networks|last=Fan|first=Y.|last2=Qian|first2=Y.|date=2014|website=ResearchGate|language=en|archive-url=|archive-date=|dead-url=|accessdate=2017-06-13|last3=Xie|first3=F.|last4=Soong|first4=F. K.}} {{ref-en}}</ref> для [[Google Android]],<ref name="scholarpedia2"/><ref name="zen2015">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis|last=Zen|first=Heiga|last2=Sak|first2=Hasim|date=2015|website=Google.com|publisher=ICASSP|pages=4470–4474|archive-url=|archive-date=|dead-url=|accessdate=}} {{ref-en}}</ref> і фото-реалістичні голови, що розмовляють.<ref name="fan2015">{{Cite journal|last=Fan|first=Bo|last2=Wang|first2=Lijuan|last3=Soong|first3=Frank K.|last4=Xie|first4=Lei|date=2015|title=Photo-Real Talking Head with Deep Bidirectional LSTM|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2015/04/icassp2015_fanbo_1009.pdf|journal=Proceedings of ICASSP|volume=|pages=|via=}} {{ref-en}}</ref> 2015 року розпізнавання мовлення Google зазнало 49-відсоткового покращення завдяки ДКЧП, тренованій НЧК.<ref name="sak2015">{{Cite web|url=http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html|title=Google voice search: faster and more accurate|last=Sak|first=Haşim|last2=Senior|first2=Andrew|date=September 2015|website=|archive-url=|archive-date=|dead-url=|accessdate=|last3=Rao|first3=Kanishka|last4=Beaufays|first4=Françoise|last5=Schalkwyk|first5=Johan}} {{ref-en}}</ref>

ДКЧП набула популярності в [[Обробка природної мови|обробці природної мови]]. На відміну від попередніх моделей на основі [[Прихована марковська модель|ПММ]] та подібних концепцій, ДКЧП може навчатися розпізнавання {{нп|Контекстно-чутлива мова|контекстно-чутливих мов||Context-sensitive language}}.<ref name="gers2001">{{cite journal|last2=Schmidhuber|first2=Jürgen|year=2001|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|url=|journal=IEEE TNN |volume=12|issue=6|pages=1333–1340|doi=10.1109/72.963769|last1=Gers|first1=Felix A.|authorlink2=Юрген Шмідгубер}} {{ref-en}}</ref> ДКЧП поліпшила [[машинний переклад]],<ref name="NIPS2014">{{Cite journal|last=Sutskever|first=L.|last2=Vinyals|first2=O.|last3=Le|first3=Q.|date=2014|title=Sequence to Sequence Learning with Neural Networks|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|journal=NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems |volume=2 |pages=3104-3112 |bibcode=2014arXiv1409.3215S |arxiv=1409.3215 |class=cs.CL}} {{ref-en}}</ref> {{нп|моделювання мов|||Language modeling}}<ref name="vinyals2016">{{cite arxiv|last=Jozefowicz|first=Rafal|last2=Vinyals|first2=Oriol|last3=Schuster|first3=Mike|last4=Shazeer|first4=Noam|last5=Wu|first5=Yonghui|date=2016-02-07|title=Exploring the Limits of Language Modeling|eprint=1602.02410|class=cs.CL}} {{ref-en}}</ref> та багатомовну обробку мов.<ref name="gillick2015">{{cite arxiv|last=Gillick|first=Dan|last2=Brunk|first2=Cliff|last3=Vinyals|first3=Oriol|last4=Subramanya|first4=Amarnag|date=2015-11-30|title=Multilingual Language Processing From Bytes|eprint=1512.00103|class=cs.CL}} {{ref-en}}</ref> ДКЧП у поєднанні з [[Згорткова нейронна мережа|ЗНМ]] поліпшила автоматичний опис зображень.<ref name="vinyals2015">{{cite arxiv|last=Vinyals|first=Oriol|last2=Toshev|first2=Alexander|last3=Bengio|first3=Samy|last4=Erhan|first4=Dumitru|date=2014-11-17|title=Show and Tell: A Neural Image Caption Generator|eprint=1411.4555|class=cs.CV}} {{ref-en}}</ref>

=== Глибинне резервуарне обчислення ===
{{Main|Резервуарне обчислення}}

Глибинне резервуарне обчислення ({{lang-en|Deep Reservoir Computing}}) та глибинні мережі з відлунням стану ({{lang-en|Deep Echo State Networks, deepESN}})<ref>{{Cite journal|last=Gallicchio|first=Claudio|last2=Micheli|first2=Alessio|last3=Pedrelli|first3=Luca|title=Deep reservoir computing: A critical experimental analysis|url=http://www.sciencedirect.com/science/article/pii/S0925231217307567|journal=Neurocomputing|volume=268|pages=87|doi=10.1016/j.neucom.2016.12.089|year=2017}} {{ref-en}}</ref><ref>{{Cite journal|last=Gallicchio|first=Claudio|last2=Micheli|first2=Alessio|date=|title=Echo State Property of Deep Reservoir Computing Networks|url=https://link.springer.com/article/10.1007/s12559-017-9461-9|journal=Cognitive Computation|language=en|volume=9|issue=3|pages=337–350|doi=10.1007/s12559-017-9461-9|issn=1866-9956|via=|year=2017}} {{ref-en}}</ref> забезпечують систему для ефективного тренування моделей для ієрархічної обробки часових даних, в той же час уможливлюючи дослідження властивої ролі шаруватого компонування [[Рекурентна нейронна мережа|РНМ]].

=== Глибинні мережі переконань ===
{{main article|Глибинна мережа переконань}}
[[Файл:Restricted Boltzmann machine-uk.svg|link=https://en.wikipedia.org/wiki/File:Restricted_Boltzmann_machine.svg|thumb|[[Обмежена машина Больцмана]] (ОМБ, {{lang-en|restricted Boltzmann machine, RBM}}) з повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднання прихований-прихований та видимий-видимий відсутні.]]
Глибинна мережа переконань (ГМП, {{lang-en|deep belief network, DBN}})&nbsp;— це ймовірнісна [[породжувальна модель]], складена з декількох шарів прихованих вузлів. Її можна розглядати як [[Композиція функцій|композицію]] простих модулів навчання, що складають кожен з шарів.<ref name="SCHOLARDBNS">{{cite journal|year=2009|title=Deep belief networks|url=|journal=Scholarpedia|volume=4|issue=5|page=5947|doi=10.4249/scholarpedia.5947|last1=Hinton|first1=G.E.|bibcode=2009SchpJ...4.5947H}} {{ref-en}}</ref>

ГМП можливо використовувати для породжувального попереднього тренування [[Глибинна нейронна мережа|ГНМ]] шляхом використання навчених ваг ГМП як початкових ваг ГНМ. Ці ваги потім може налаштовувати зворотне поширення або інші розрізнювальні алгоритми. Це є особливо корисним, коли тренувальні дані є обмеженими, оскільки ваги з погано заданими початковими значеннями можуть значно заважати продуктивності моделі. Ці попередньо натреновані ваги перебувають в області простору ваг, що є ближчою до оптимальних ваг, ніж якби їх було обрано випадково. Це уможливлює як поліпшене моделювання, так і швидшу збіжність фази тонкого налаштування.<ref>{{Cite journal|last=Larochelle|first=Hugo|last2=Erhan|first2=Dumitru|last3=Courville|first3=Aaron|last4=Bergstra|first4=James|last5=Bengio|first5=Yoshua|date=2007|title=An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation|url=http://doi.acm.org/10.1145/1273496.1273556|journal=Proceedings of the 24th International Conference on Machine Learning|series=ICML '07|location=New York, NY, USA|publisher=ACM|pages=473–480|doi=10.1145/1273496.1273556|isbn=9781595937933}} {{ref-en}}</ref>

=== Нейронні мережі зберігання та вибірки великої пам'яті ===

Нейронні мережі зберігання та вибірки великої пам'яті ({{lang-en|large memory storage and retrieval, LAMSTAR}})<ref name="book2013">{{cite book|url={{google books |plainurl=y |id=W6W6CgAAQBAJ&pg=PP1}}|title=Principles of Artificial Neural Networks|last=Graupe|first=Daniel|publisher=World Scientific|year=2013|isbn=978-981-4522-74-8|location=|pages=1–|ref=harv}} {{ref-en}}</ref><ref name="GrPatent">{{Patent|US|5920852 A|D. Graupe," Large memory storage and retrieval (LAMSTAR) network, April 1996}}
{{ref-en}}</ref> є швидкими нейронними мережами глибинного навчання з багатьма шарами, які можуть використовувати багато фільтрів одночасно. Ці фільтри можуть бути нелінійними, стохастичними, логічними, [[Стаціонарність|не стаціонарними]] та навіть не аналітичними. Вони є біологічно натхненними, і навчаються безперервно.

Нейронна мережа ''LAMSTAR'' може слугувати динамічною нейронною мережею в просторовій, часовій області визначення, та в обох. Її швидкість забезпечується [[Геббова теорія|геббовими]] вагами з'єднань,<ref name=book2013a>D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.203-274. {{ref-en}}</ref> що об'єднують різні та, як правило, несхожі фільтри (функції попередньої обробки) у її численні шари, і для динамічного ранжування значимості різних шарів та функцій по відношенню до заданої задачі для навчання. Це грубо імітує біологічне навчання, що об'єднує різні попередні обробники ({{нп|Завитка|зави́тку||Cochlea}}, [[Сітківка|сітківку]] тощо), кори ({{нп|Слухова кора|слухову||Auditory cortex}}, [[Зорова кора|зорову]] тощо) та різні їхні області. Її здатність до глибинного навчання додатково підсилюється використанням пригнічування, кореляції та її здатністю впоруватися з неповними даними, або «втраченими» нейронами чи шарами навіть посеред завдання. Через свої ваги з'єднань вона є повністю прозорою. Ці ваги з'єднань також уможливлюють динамічне визначення нововведення й надмірності, та слугують ранжуванню по відношенню до завдання шарів, фільтрів та окремих нейронів.

''LAMSTAR'' застосовували в багатьох областях, включно з медичними<ref>{{Cite journal|last=Nigam|first=Vivek Prakash|last2=Graupe|first2=Daniel|date=2004-01-01|title=A neural-network-based detection of epilepsy|url=https://dx.doi.org/10.1179/016164104773026534|journal=Neurological Research|volume=26|issue=1|pages=55–60|doi=10.1179/016164104773026534|issn=0161-6412|pmid=14977058}} {{ref-en}}</ref><ref name=":11">{{Cite journal|last=Waxman|first=Jonathan A.|last2=Graupe|first2=Daniel|last3=Carley|first3=David W.|date=2010-04-01|title=Automated Prediction of Apnea and Hypopnea, Using a LAMSTAR Artificial Neural Network|url=http://www.atsjournals.org/doi/abs/10.1164/rccm.200907-1146OC|journal=American Journal of Respiratory and Critical Care Medicine|volume=181|issue=7|pages=727–733|doi=10.1164/rccm.200907-1146oc|issn=1073-449X}} {{ref-en}}</ref><ref name="GrGrZh">{{cite journal|last2=Graupe|first2=M. H.|last3=Zhong|first3=Y.|last4=Jackson|first4=R. K.|year=2008|title=Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities|url=|journal=Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine|volume=222|issue=8|pages=1221–1234|doi=10.1243/09544119jeim417|last1=Graupe|first1=D.}} {{ref-en}}</ref> та фінансовими прогнозуваннями,<ref name="book2013b">{{harvnb|Graupe|2013|pp=240–253}}</ref> адаптивним фільтруванням зашумленого мовлення в невідомому шумі,<ref name="GrAbon">{{cite journal|last2=Abon|first2=J.|year=2002|title=A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech|url=https://www.tib.eu/en/search/id/BLCP:CN019373941/Blind-Adaptive-Filtering-of-Speech-from-Noise-of/|journal=Intelligent Engineering Systems Through Artificial Neural Networks|language=en|publisher=Technische Informationsbibliothek (TIB)|volume=12|issue=|pages=683–688|last1=Graupe|first1=D.|accessdate=2017-06-14}} {{ref-en}}</ref> розпізнаванням нерухомих зображень,<ref name="book2013c">D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp.253-274. {{ref-en}}</ref> розпізнаванням відеозображень,<ref name="Girado">{{cite journal|last2=Sandin|first2=D. J.|last3=DeFanti|first3=T. A.|year=2003|title=Real-time camera-based face detection using a modified LAMSTAR neural network system|url=|journal=Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII|volume=5015|issue=|pages=36|page=|doi=10.1117/12.477405|last1=Girado|first1=J. I.|series=Applications of Artificial Neural Networks in Image Processing VIII|bibcode=2003SPIE.5015...36G}} {{ref-en}}</ref> безпекою програмного забезпечення<ref name="VenkSel">{{cite journal|last2=Selvan|first2=S.|year=2007|title=Intrusion Detection using an Improved Competitive Learning Lamstar Network|url=|journal=International Journal of Computer Science and Network Security|volume=7|issue=2|pages=255–263|last1=Venkatachalam|first1=V}} {{ref-en}}</ref> та адаптивним керуванням нелінійними системами.<ref>{{Cite web|url=https://www.researchgate.net/publication/262316982_Control_of_unstable_nonlinear_and_nonstationary_systems_using_LAMSTAR_neural_networks|title=Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks|last=Graupe|first=D.|last2=Smollack|first2=M.|date=2007|website=ResearchGate|publisher=Proceedings of 10th IASTED on Intelligent Control, Sect.592,|pages=141–144|language=en|archive-url=|archive-date=|dead-url=|accessdate=2017-06-14}} {{ref-en}}</ref> ''LAMSTAR'' мала значно вищу швидкість навчання та дещо нижчий рівень похибок, ніж ЗНМ на основі фільтрів на {{нп|Випрямляльний лінійний вузол|випрямляльних функціях||Rectified linear unit}} та максимізаційному агрегуванні, у 20 порівняльних дослідженнях.<ref name="book1016">{{cite book|url={{google books |plainurl=y |id=e5hIDQAAQBAJ|page=57}}|title=Deep Learning Neural Networks: Design and Case Studies|last=Graupe|first=Daniel|date=7 July 2016|publisher=World Scientific Publishing Co Inc|year=|isbn=978-981-314-647-1|location=|pages=57–110}} {{ref-en}}</ref>

Ці застосування показують занурення в аспекти даних, що є прихованими від мереж поверхневого навчання та людських чуттів, як у випадках передбачення настання подій [[апное уві сні]],<ref name=":11" /> електрокардіограми [[Плід (анатомія)|плоду]] при записі з електродів, розташованих на поверхні шкіри живота матері в ранній період вагітності,<ref name="GrGrZh" /> фінансового прогнозування<ref name="book2013" /> та сліпого фільтрування зашумленого мовлення.<ref name="GrAbon" />

''LAMSTAR'' було запропоновано 1996 року ({{US patent|5920852 A}}), і розвинуто далі Ґраупе та Кордилевським у 1997—2002 роках.<ref>{{Cite journal|last=Graupe|first=D.|last2=Kordylewski|first2=H.|date=August 1996|title=Network based on SOM (Self-Organizing-Map) modules combined with statistical decision tools|url=http://ieeexplore.ieee.org/document/594203/|journal=Proceedings of the 39th Midwest Symposium on Circuits and Systems|volume=1|pages=471–474 vol.1|doi=10.1109/mwscas.1996.594203|isbn=0-7803-3636-4}} {{ref-en}}</ref><ref>{{Cite journal|last=Graupe|first=D.|last2=Kordylewski|first2=H.|date=1998-03-01|title=A Large Memory Storage and Retrieval Neural Network for Adaptive Retrieval and Diagnosis|url=http://www.worldscientific.com/doi/abs/10.1142/S0218194098000091|journal=International Journal of Software Engineering and Knowledge Engineering|volume=08|issue=1|pages=115–138|doi=10.1142/s0218194098000091|issn=0218-1940}} {{ref-en}}</ref><ref name="Kordylew">{{cite journal|last2=Graupe|first2=D|last3=Liu|first3=K.|year=2001|title=A novel large-memory neural network as an aid in medical diagnosis applications|url=|journal=IEEE Transactions on Information Technology in Biomedicine|volume=5|issue=3|pages=202–209|doi=10.1109/4233.945291|last1=Kordylewski|first1=H.}} {{ref-en}}</ref> Видозмінену версію, відому як ''LAMSTAR'' 2, було розроблено Шнайдером та Ґраупе 2008 року.<ref name="Schn">{{cite journal|last2=Graupe|year=2008|title=A modified LAMSTAR neural network and its applications|url=|journal=International journal of neural systems|volume=18|issue=4|pages=331–337|doi=10.1142/s0129065708001634|last1=Schneider|first1=N.C.}} {{ref-en}}</ref><ref name="book2013d">{{harvnb|Graupe|2013|p=217}} {{ref-en}}</ref>

=== Складені (знешумлювальні) автокодувальники ===

Ідею [[Автокодувальник|автокодувальника]] продиктовано поняттям ''доброго'' представлення. Наприклад, для [[Лінійний класифікатор|класифікатора]] добре представлення може бути визначено як таке, що дає ефективніший класифікатор''.

''Кодувальник'' ({{lang-en|encoder}})&nbsp;— це детерміністське відображення <math>f_\theta</math>, що перетворює вхідний вектор '''''x''''' на приховане представлення '''''y''''', де <math>\theta = \{\boldsymbol{W}, b\}</math>, <math>\boldsymbol{W}</math> є ваговою матрицею, а '''b''' є вектором зсуву ({{lang-en|offset, bias}}). ''Декодувальник'' ({{lang-en|decoder}}) відображає приховане представлення '''y''' назад на відтворюваний вхід '''''z ''''' через <math>g_\theta</math>. Весь процес автокодування є порівнянням цього відтвореного входу з оригінальним, і намаганням мінімізувати цю похибку, щоби зробити відтворене значення якомога ближчим до оригінального.

В ''складених знешумлювальних автокодувальниках'' ({{lang-en|stacked denoising auto encoders}}) частково спотворений вихід очищується (знешумлюється, {{lang-en|de-noised}}). Цю ідею було представлено 2010 року Венсаном та ін.<ref name="ref9">{{cite journal|last2=Larochelle|first2=Hugo|last3=Lajoie|first3=Isabelle|last4=Bengio|first4=Yoshua|last5=Manzagol|first5=Pierre-Antoine|date=2010|title=Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion|url=http://dl.acm.org/citation.cfm?id=1953039|journal=The Journal of Machine Learning Research|volume=11|pages=3371–3408|last1=Vincent|first1=Pascal}} {{ref-en}}</ref> разом з особливим підходом до ''доброго'' представлення, ''добре представлення'' є таким, що може бути [[Відмовостійке програмування|надійно]] отримано зі спотвореного входу, і буде корисним для відновлення відповідного чистого входу. Неявними в цьому визначенні є наступні ідеї:

* Представлення вищого рівня є відносно стабільними й [[Відмовостійке програмування|стійкими]] до спотворень входу;
* Необхідно виділяти ознаки, що є корисними для представлення розподілу входу.

Алгоритм починається зі стохастичного відображення <math>\boldsymbol{x}</math> на <math>\tilde{\boldsymbol{x}}</math> через <math>q_D(\tilde{\boldsymbol{x}}|\boldsymbol{x})</math>, це є спотворювальним кроком. Потім спотворений вхід <math>\tilde{\boldsymbol{x}}</math> проходить основним процесом автокодування, і відображується на приховане представлення <math>\boldsymbol{y} = f_\theta(\tilde{\boldsymbol{x}}) = s(\boldsymbol{W}\tilde{\boldsymbol{x}}+b)</math>. З цього прихованого представлення ми можемо відтворити <math>\boldsymbol{z} = g_\theta(\boldsymbol{y})</math>. На останній стадії з метою отримання '''''z''''' якомога ближче до неспотвореного входу <math>\boldsymbol{x}</math> виконується алгоритм мінімізації. Похибка відтворення <math>L_H(\boldsymbol{x},\boldsymbol{z})</math> може бути або [[Перехресна ентропія|перехресно-ентропійною]] втратою з афінно-сигмоїдним декодувальником, або квадратично-похибковою втратою з [[Афінне перетворення|афінним]] декодувальником.<ref name="ref9" />

Для отримання глибинної архітектури автокодувальники накладають.<ref name="ballard1987">{{Cite web|url=http://www.aaai.org/Papers/AAAI/1987/AAAI87-050.pdf|title=Modular learning in neural networks|last=Ballard|first=Dana H.|date=1987|website=Proceedings of AAAI|pages=279–284|archive-url=|archive-date=|dead-url=|accessdate=}} {{ref-en}}</ref> Щойно кодувальної функції <math>f_\theta</math> першого знешумлювального автокодувальника навчено, й використано її для знеспотворення входу (спотвореного входу), то може бути треновано другий рівень.<ref name="ref9" />

Щойно складений автокодувальник натреновано, його вихід може бути використано як вхід до алгоритму [[Навчання з учителем|керованого навчання]], такого як класифікатор [[Метод опорних векторів|методом опорних векторів]] або багатокласова [[логістична регресія]].<ref name="ref9" />

=== Глибинні складальні мережі ===

Глибинна складальна мережа (ГСМ, {{lang-en|deep stacking network, DSN}})<ref name="ref17">{{cite journal|last2=Yu|first2=Dong|last3=Platt|first3=John|date=2012|title=Scalable stacking and learning for building deep architectures|url=http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf|journal=2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)|pages=2133–2136|last1=Deng|first1=Li}} {{ref-en}}</ref> (глибинна опукла мережа, {{lang-en|deep convex network}}) ґрунтується на ієрархії блоків спрощених нейромережевих модулів. Її було представлено 2011 року Деном та Доном.<ref name="ref16">{{cite journal|last2=Yu|first2=Dong|date=2011|title=Deep Convex Net: A Scalable Architecture for Speech Pattern Classification|url=http://www.truebluenegotiations.com/files/deepconvexnetwork-interspeech2011-pub.pdf|journal=Proceedings of the Interspeech|pages=2285–2288|last1=Deng|first1=Li}} {{ref-en}}</ref> Вона формулює навчання як {{нп|Задача опуклої оптимізації|задачу опуклої оптимізації||Convex optimization problem}} з {{нп|Вираз замкненого вигляду|розв'язком замкненого вигляду||Closed-form expression}}, підкреслюючи подібність цього механізму до {{нп|Ансамблеве навчання|складеного узагальнення||Ensemble learning}} ({{lang-en|stacked generalization}}).<ref name="ref18">{{cite journal|date=1992|title=Stacked generalization|journal=Neural Networks|volume=5|issue=2|pages=241–259|doi=10.1016/S0893-6080(05)80023-1|last1=David|first1=Wolpert}} {{ref-en}}</ref> Кожен блок ГСМ є простим модулем, який легко тренувати сам по собі [[Навчання з учителем|керованим]] чином без [[Метод зворотного поширення помилки|зворотного поширення]] для всіх блоків.<ref>{{Cite journal|last=Bengio|first=Y.|date=2009-11-15|title=Learning Deep Architectures for AI|url=http://www.nowpublishers.com/article/Details/MAL-006|journal=Foundations and Trends® in Machine Learning|language=English|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|issn=1935-8237}} {{ref-en}}</ref>

Кожен блок складається зі спрощеного [[Багатошаровий перцептрон|багатошарового перцептрону]] (БШП) з єдиним прихованим шаром. Прихований шар '''''h''''' має логістичні [[Сигмоїда|сигмоїдні]] [[Штучний нейрон|вузли]], а шар виходу має лінійні вузли. З'єднання між цими шарами представлено ваговою матрицею '''''U'''''; з'єднання з вхідного до прихованого шару мають вагову матрицю '''''W'''''. Цільові вектори '''''t''''' утворюють стовпчики матриці '''''T''''', а вектори вхідних даних '''''x''''' утворюють стовпчики матриці '''''X'''''. Матрицею прихованих вузлів є <math>\boldsymbol{H} = \sigma(\boldsymbol{W}^T\boldsymbol{X})</math>. Модулі тренуються по черзі, тож ваги нижчого рівня '''''W''''' на кожному етапі є відомими. Функція виконує поелементну [[Логістична функція|логістичну сигмоїдну]] дію. Кожен із блоків оцінює один і той самий клас кінцевих міток ''y'', і його оцінка поєднується з первинним входом '''''X''''', утворюючи розширений вхід для наступного блоку. Таким чином, вхід до першого блоку містить лише первинні дані, тоді як до входів блоків нижче за течією додається також і вихід попередніх блоків. Тоді навчання вагової матриці '''''U''''' вищого рівня за заданих ваг в мережі може бути сформульовано як задачу опуклої оптимізації:

: <math>\min_{U^T} f = ||\boldsymbol{U}^T \boldsymbol{H} - \boldsymbol{T}||^2_F,</math>

що має розв'язок замкненого вигляду.

На відміну від інших глибинних архітектур, таких як [[Глибинна мережа переконань|ГМП]], метою є не відкриття представлення в перетворених [[Ознака (машинне навчання)|ознаках]]. Структура ієрархії цього типу архітектури робить паралельне тренування прямолінійним, як задачу оптимізації в пакетному режимі. В чисто [[Розрізнювальна модель|розрізнювальних задачах]] ГСМ працюють краще за звичайні [[Глибинна мережа переконань|ГМП]].<ref name="ref17" />

=== Тензорні глибинні складальні мережі ===

Ця архітектура є розширенням глибинних складальних мереж (ГСМ). Вона пропонує два важливі поліпшення: вона використовує інформацію вищого порядку з [[Коваріація|коваріаційних]] статистик, і перетворює {{нп|Опукла оптимізація|неопуклу задачу||Convex optimization}} нижчого рівня на опуклу підзадачу вищого рівня.<ref name="ref19">{{cite journal|last2=Deng|first2=Li|last3=Yu|first3=Dong|date=2012|title=Tensor deep stacking networks|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=1-15|issue=8|pages=1944–1957|doi=10.1109/tpami.2012.268|last1=Hutchinson|first1=Brian}} {{ref-en}}</ref> ТГСМ використовують коваріаційні статистики у [[Білінійне відображення|білінійному відображенні]] з кожного з двох окремих наборів прихованих вузлів одного й того ж рівня на передбачення, через [[тензор]] третього порядку.

Хоча розпаралелювання та масштабованість і не розглядаються серйозно в звичайних {{H:title|Глибинна нейронна мережа|ГНМ}},<ref name="ref26">{{cite journal|last2=Salakhutdinov|first2=Ruslan|date=2006|title=Reducing the Dimensionality of Data with Neural Networks|journal=Science|volume=313|issue=5786|pages=504–507|doi=10.1126/science.1127647|pmid=16873662|last1=Hinton|first1=Geoffrey|bibcode=2006Sci...313..504H}} {{ref-en}}</ref><ref name="ref27">{{cite journal|last2=Yu|first2=D.|last3=Deng|first3=L.|last4=Acero|first4=A.|date=2012|title=Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=20|issue=1|pages=30–42|doi=10.1109/tasl.2011.2134090|last1=Dahl|first1=G.}} {{ref-en}}</ref><ref name="ref28">{{cite journal|last2=Dahl|first2=George|last3=Hinton|first3=Geoffrey|date=2012|title=Acoustic Modeling Using Deep Belief Networks|journal=IEEE Transactions on Audio, Speech, and Language Processing|volume=20|issue=1|pages=14–22|doi=10.1109/tasl.2011.2109382|last1=Mohamed|first1=Abdel-rahman}} {{ref-en}}</ref> все навчання {{H:title|Глибинна складальна мережа|ГСМ}} і {{H:title|Тензорна глибинна складальна мережа|ТГСМ}} здійснюється в пакетному режимі, щоби уможливлювати розпаралелювання.<ref name="ref16" /><ref name="ref17" /> Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.

Основна архітектура є придатною для різнопланових задач, таких як [[Задача класифікації|класифікація]] та [[Регресійний аналіз|регресія]].

=== Піково-пластинові обмежені машини Больцмана ===

Потреба в глибинному навчанні з [[Дійсні числа|дійснозначними]] входами, як у ґаусових обмежених машинах Больцмана, привела до ''піково-пластинових'' [[Обмежена машина Больцмана|ОМБ]] (''пп''[[Обмежена машина Больцмана|ОМБ]], {{lang-en|spike and slab Restricted Boltzmann machine, ssRBM}}), які моделюють безперервнозначні входи строго {{нп|Двійкова змінна|двійковими||Binary variable}} [[Латентна змінна|латентними змінними]].<ref name="ref30">{{cite journal|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|date=2011|title=A Spike and Slab Restricted Boltzmann Machine|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf|journal=JMLR: Workshop and Conference Proceeding|volume=15|pages=233–241|last1=Courville|first1=Aaron}} {{ref-en}}</ref> Подібно до базових [[Обмежена машина Больцмана|ОМБ]] та її варіантів, піково-пластинова [[Обмежена машина Больцмана|ОМБ]] є [[Двочастковий граф|двочастковим графом]], але, як у Ґ[[Обмежена машина Больцмана|ОМБ]], видимі вузли (входи) є дійснозначними. Відмінність є в прихованому шарі, де кожен прихований вузол має змінну двійкового піку ({{lang-en|spike}}) та змінну дійснозначної пластини ({{lang-en|slab}}). Пік є дискретною [[Функція ймовірностей|масою ймовірності]] на нулі, тоді як пластина є [[густина ймовірності|густиною ймовірності]] над безперервною областю визначення;<ref name="ref32">{{cite conference|last1=Courville|first1=Aaron|last2=Bergstra|first2=James|last3=Bengio|first3=Yoshua|chapter=Unsupervised Models of Images by Spike-and-Slab RBMs|title=Proceedings of the 28th International Conference on Machine Learning|volume=10|pages=1–8|date=2011|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf}} {{ref-en}}</ref> їхня суміш формує [[Апріорна ймовірність|апріорне]].<ref name="ref31">{{cite journal|last2=Beauchamp|first2=J|date=1988|title=Bayesian Variable Selection in Linear Regression|journal=Journal of the American Statistical Association|volume=83|issue=404|pages=1023–1032|doi=10.1080/01621459.1988.10478694|last1=Mitchell|first1=T}} {{ref-en}}</ref>

Розширення пп[[Обмежена машина Больцмана|ОМБ]], що називається ''µ''-пп[[Обмежена машина Больцмана|ОМБ]], забезпечує додаткові моделювальні потужності, використовуючи додаткові члени в [[Енергетична функція|енергетичній функції]]. Один із цих членів дає моделі можливість формувати [[умовний розподіл]] пікових змінних [[Відособлений розподіл|знеособленням]] пластинових змінних за заданого спостереження.

=== Змішані ієрархічно-глибинні моделі ===

Змішані ієрархічно-глибинні моделі ({{lang-en|compound hierarchical-deep models, compound HD models}}) компонують глибинні мережі з непараметричними [[Баєсова мережа|баєсовими моделями]]. [[Ознака (машинне навчання)|Ознак]] можливо навчатися із застосуванням таких глибинних архітектур як [[Глибинна мережа переконань|ГМП]],<ref name="hinton20062">{{cite journal|last2=Osindero|first2=S.|last3=Teh|first3=Y.|year=2006|title=A fast learning algorithm for deep belief nets|url=http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf|journal={{нп|Neural Computation (журнал)|Neural Computation||Neural Computation (journal)}}|volume=18|issue=7|pages=1527–1554|doi=10.1162/neco.2006.18.7.1527|pmid=16764513|last1=Hinton|first1=G. E.|authorlink1=Джефрі Хінтон}} {{ref-en}}</ref> [[Глибинні машини Больцмана|ГМБ]],<ref name="ref3">{{cite journal|last1=Hinton|first1=Geoffrey|last2=Salakhutdinov|first2=Ruslan|date=2009|title=Efficient Learning of Deep Boltzmann Machines|url=http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf|volume=3|pages=448–455}} {{ref-en}}</ref> глибинні автокодувальники,<ref name="ref15">{{cite journal|last2=Bengio|first2=Yoshua|last3=Louradour|first3=Jerdme|last4=Lamblin|first4=Pascal|date=2009|title=Exploring Strategies for Training Deep Neural Networks|url=http://dl.acm.org/citation.cfm?id=1577070|journal=The Journal of Machine Learning Research|volume=10|pages=1–40|last1=Larochelle|first1=Hugo}} {{ref-en}}</ref> згорткові варіанти,<ref name="ref39">{{cite journal|last2=Carpenter|first2=Blake|date=2011|title=Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning|url=http://www.iapr-tc11.org/archive/icdar2011/fileup/PDF/4520a440.pdf|journal=|volume=|pages=440–445|via=|last1=Coates|first1=Adam}} {{ref-en}}</ref><ref name="ref40">{{cite journal|last2=Grosse|first2=Roger|date=2009|title=Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations|url=http://portal.acm.org/citation.cfm?doid=1553374.1553453|journal=Proceedings of the 26th Annual International Conference on Machine Learning|pages=1–8|last1=Lee|first1=Honglak}} {{ref-en}}</ref> ппОМБ,<ref name="ref32" /> мережі глибинного кодування,<ref name="ref41">{{cite journal|last2=Zhang|first2=Tong|date=2010|title=Deep Coding Network|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf|journal=Advances in Neural . . .|pages=1–9|last1=Lin|first1=Yuanqing}} {{ref-en}}</ref> ГМП з розрідженим навчанням ознак,<ref name="ref42">{{cite journal|last2=Boureau|first2=Y-Lan|date=2007|title=Sparse Feature Learning for Deep Belief Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf|journal=Advances in Neural Information Processing Systems|volume=23|pages=1–8|last1=Ranzato|first1=Marc Aurelio}} {{ref-en}}</ref> [[Рекурентна нейронна мережа|РНМ]],<ref name="ref43">{{cite journal|last2=Lin|first2=Clif|date=2011|title=Parsing Natural Scenes and Natural Language with Recursive Neural Networks|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf|journal=Proceedings of the 26th International Conference on Machine Learning|last1=Socher|first1=Richard}} {{ref-en}}</ref> умовні ГМП,<ref name="ref44">{{cite journal|last2=Hinton|first2=Geoffrey|date=2006|title=Modeling Human Motion Using Binary Latent Variables|url=http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf|journal=Advances in Neural Information Processing Systems|last1=Taylor|first1=Graham}} {{ref-en}}</ref> знешумлювальні автокодувальники.<ref name="ref45">{{cite journal|last2=Larochelle|first2=Hugo|date=2008|title=Extracting and composing robust features with denoising autoencoders|url=http://portal.acm.org/citation.cfm?doid=1390156.1390294|journal=Proceedings of the 25th international conference on Machine learning - ICML '08|pages=1096–1103|last1=Vincent|first1=Pascal}} {{ref-en}}</ref> Це забезпечує краще представлення, уможливлюючи швидше навчання та точнішу класифікацію із даними високої розмірності. Проте ці архітектури є слабкими в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до представлення входу ('''{{Якір2|розподілене представлення}}'''), і мусить бути приладжувано разом (високий [[Ступені свободи (значення)|ступінь свободи]]). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. [[Ієрархічна баєсова модель|''Ієрархічні баєсові (ІБ)'' моделі]] ({{lang-en|Hierarchical Bayesian (HB) models}}) забезпечують навчання з кількох прикладів, наприклад,<ref name="ref34">{{cite journal|last2=Perfors|first2=Amy|last3=Tenenbaum|first3=Joshua|date=2007|title=Learning overhypotheses with hierarchical Bayesian models|journal=Developmental Science|volume=10|issue=3|pages=307–21|doi=10.1111/j.1467-7687.2007.00585.x|pmid=17444972|last1=Kemp|first1=Charles}} {{ref-en}}</ref><ref name="ref37">{{cite journal|last2=Tenenbaum|first2=Joshua|date=2007|title=Word learning as Bayesian inference|journal=Psychol. Rev.|volume=114|issue=2|pages=245–72|doi=10.1037/0033-295X.114.2.245|pmid=17500627|last1=Xu|first1=Fei}} {{ref-en}}</ref><ref name="ref46">{{cite journal|last2=Polatkan|first2=Gungor|date=2011|title=The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning|url=http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf|journal=Machine Learning . . .|last1=Chen|first1=Bo}} {{ref-en}}</ref><ref name="ref47">{{cite journal|last2=Fergus|first2=Rob|date=2006|title=One-shot learning of object categories|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=28|issue=4|pages=594–611|doi=10.1109/TPAMI.2006.79|pmid=16566508|last1=Fei-Fei|first1=Li}} {{ref-en}}</ref><ref name="ref48">{{cite journal|last2=Dunson|first2=David|date=2008|title=The Nested Dirichlet Process|url=http://amstat.tandfonline.com/doi/full/10.1198/016214508000000553|journal=Journal of the American Statistical Association|volume=103|issue=483|pages=1131–1154|doi=10.1198/016214508000000553|last1=Rodriguez|first1=Abel}} {{ref-en}}</ref> для [[Комп'ютерне бачення|комп'ютерного бачення]], [[Статистика|статистики]] та [[Когнітивна наука|когнітивної науки]].

Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибинних мереж. Змішана архітектура ІПД-ГМБ є ''{{нп|Ієрархічний процес Діріхле|ієрархічним процесом Діріхле||Hierarchical Dirichlet process}} (ІПД)'' як ієрархічною моделлю, об'єднаною з архітектурою ГМБ. Вона є повністю [[Породжувальна модель|породжувальною моделлю]], узагальнюваною з абстрактних понять, що течуть крізь шари цієї моделі, яка є здатною синтезувати нові приклади нововведених класів, що виглядають «досить» природними. Навчання всіх рівнів відбувається спільно, зведенням до максимуму [[Функція внеску|функції внеску]] {{нп|Логарифмічна ймовірність|логарифмічної ймовірності||Log probability}}.<ref name="ref38">{{cite journal|last2=Joshua|first2=Tenenbaum|date=2012|title=Learning with Hierarchical-Deep Models|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1958–71|doi=10.1109/TPAMI.2012.269|pmid=23787346|last1=Ruslan|first1=Salakhutdinov}} {{ref-en}}</ref>

У ГМБ з трьома прихованими шарами ймовірністю видимого входу '''{{mvar|&nu;}}''' є

: <math>p(\boldsymbol{\nu}, \psi) = \frac{1}{Z}\sum_h e^{\sum_{ij}W_{ij}^{(1)}\nu_i h_j^1 + \sum_{jl}W_{jl}^{(2)}h_j^{1}h_l^{2}+\sum_{lm}W_{lm}^{(3)}h_l^{2}h_m^{3}},</math>

де <math>\boldsymbol{h} = \{\boldsymbol{h}^{(1)}, \boldsymbol{h}^{(2)}, \boldsymbol{h}^{(3)} \}</math> є набором прихованих вузлів, а <math>\psi = \{\boldsymbol{W}^{(1)}, \boldsymbol{W}^{(2)}, \boldsymbol{W}^{(3)} \} </math> є параметрами моделі, що представляють умови симетричної взаємодії видимі-приховані та приховані-приховані.

Навчена модель ГМБ є неорієнтованою моделлю, що визначає [[спільний розподіл]] <math>P(\nu, h^1, h^2, h^3)</math>. Одним із шляхів вираження того, чого було навчено, є [[умовна модель]] <math>P(\nu, h^1, h^2|h^3)</math> та [[Апріорний розподіл|апріорний]] член <math>P(h^3)</math>.

Тут <math>P(\nu, h^1, h^2|h^3)</math> представляє умовну модель ГМБ, що можливо розглядати як двошарову ГМБ, але з умовами зсуву, що задаються станами <math>h^3</math>:

: <math>P(\nu, h^1, h^2|h^3) = \frac{1}{Z(\psi, h^3)}e^{\sum_{ij}W_{ij}^{(1)}\nu_i h_j^1 + \sum_{jl}W_{jl}^{(2)}h_j^{1}h_l^{2}+\sum_{lm}W_{lm}^{(3)}h_l^{2}h_m^{3}}.</math>

=== Глибинні передбачувальні кодувальні мережі ===

Глибинна передбачувальна кодувальна мережа (ГПКМ, {{lang-en|Deep predictive coding network, DPCN}})&nbsp;— це {{нп|Передбачувальне моделювання|передбачувальна||Predictive modelling}} схема кодування, що використовує спадну інформацію для емпіричного підлаштовування апріорних, необхідних для процедури висхідного [[висновування]], засобами глибинної локально з'єднаної [[Породжувальна модель|породжувальної моделі]]. Це працює шляхом виділяння розріджених [[Ознака (машинне навчання)|ознак]] зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних представлень ознак застосовується стратегія агрегування ({{lang-en|pooling}}). Ці блоки компонуються, щоби сформувати глибинну архітектуру, і тренуються [[Жадібний алгоритм|жадібним]] пошаровим [[Спонтанне навчання|спонтанним навчанням]]. Шари утворюють щось на зразок [[Ланцюги Маркова|марковського ланцюга]], такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.

ГПКМ передбачують представлення шару, використовуючи спадний підхід із застосуванням інформації з вищого шару та часових залежностей від попередніх станів.<ref name="ref56">{{cite arXiv|eprint=1301.3541|first2=Jose|last2=Principe|title=Deep Predictive Coding Networks|date=2013|last1=Chalasani|first1=Rakesh|class=cs.LG}} {{ref-en}}</ref>

ГПКМ можливо розширювати таким чином, щоби утворювати [[Згорткова нейронна мережа|згорткову мережу]].<ref name="ref56" />

=== Мережі з окремими структурами пам'яті ===

Поєднання зовнішньої пам'яті з ШНМ бере свій початок у ранніх дослідженнях розподілених представлень<ref name="Hinton, Geoffrey E 19842">{{Cite web|url=http://repository.cmu.edu/cgi/viewcontent.cgi?article=2841&context=compsci|title=Distributed representations|last=Hinton|first=Geoffrey E.|date=1984|website=|archive-url=|archive-date=|dead-url=|accessdate=}} {{ref-en}}</ref> та [[Самоорганізаційне відображення|самоорганізаційних відображень]] [[Теуво Кохонен|Кохонена]]. Наприклад, у {{нп|Розріджена розподілена пам'ять|розрідженій розподіленій пам'яті||Sparse distributed memory}} та {{нп|Ієрархічна часова пам'ять|ієрархічній часовій пам'яті||Hierarchical temporal memory}} зразки, закодовані нейронними мережами, використовуються як адреси для [[Асоціативна пам'ять|асоціативної пам'яті]], з «нейронами», що по суті слугують [[шифратор]]ами та [[дешифратор]]ами адреси. Проте, ранні контролери таких типів пам'яті не були диференційовними.

==== Диференційовні структури пам'яті, пов'язані з ДКЧП ====

Окрім [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] (ДКЧП), диференційовну пам'ять до рекурентних функцій також додали й інші підходи. Наприклад:

* Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, що називаються нейронними стековими машинами ({{lang-en|neural stack machines}})<ref name="S. Das, C.L. Giles p. 79">S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog. Sci. Soc., p. 79, 1992. {{ref-en}}</ref><ref name="Mozer, M. C. 1993 pp. 863-870">{{Cite web|url=https://papers.nips.cc/paper/626-a-connectionist-symbol-manipulator-that-discovers-the-structure-of-context-free-languages|title=A connectionist symbol manipulator that discovers the structure of context-free languages|last=Mozer|first=M. C.|last2=Das|first2=S.|date=1993|website=|publisher=NIPS 5|pages=863–870|archive-url=|archive-date=|dead-url=|accessdate=}}
{{ref-en}}</ref>
* Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагах іншої мережі<ref name="ReferenceC">{{cite journal|year=1992|title=Learning to control fast-weight memories: An alternative to recurrent nets|url=|journal=Neural Computation|volume=4|issue=1|pages=131–139|doi=10.1162/neco.1992.4.1.131|last1=Schmidhuber|first1=J.}} {{ref-en}}</ref>
* Забувальні вентилі [[ДКЧП]]<ref name="F. Gers, N. Schraudolph 2002">{{cite journal|last2=Schraudolph|first2=N.|last3=Schmidhuber|first3=J.|date=|year=2002|title=Learning precise timing with LSTM recurrent networks|url=http://jmlr.org/papers/volume3/gers02a/gers02a.pdf|journal=JMLR|volume=3|issue=|pages=115–143|via=|last1=Gers|first1=F.}} {{ref-en}}</ref>
* Автореферентні [[Рекурентна нейронна мережа|РНМ]] з особливими вузлами виходу для адресування та швидкого маніпулювання власними вагами РНМ на диференційовний манір (внутрішнє сховище)<ref name="J. Schmidhuber pages 191-195">{{Cite conference|author={{нп|Юрген Шмідгубер|Jürgen Schmidhuber||Juergen Schmidhuber}}|title=An introspective network that can learn to run its own weight change algorithm|booktitle=In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton|pages=191–195|publisher=IEE|year=1993|url=ftp://ftp.idsia.ch/pub/juergen/iee93self.ps.gz}} {{ref-en}}</ref><ref name="Hochreiter, Sepp 2001">{{cite journal|last2=Younger|first2=A. Steven|last3=Conwell|first3=Peter R.|date=|year=2001|title=Learning to Learn Using Gradient Descent|url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.5.323|journal=ICANN|volume=2130|issue=|pages=87–94|doi=|via=|last1=Hochreiter|first1=Sepp}} {{ref-en}}</ref>
* Навчання перетворення з необмеженою пам'яттю<ref name="Grefenstette, Edward 1506">Grefenstette, Edward, et al. [http://arxiv.org/pdf/1506.02516.pdf "Learning to Transduce with Unbounded Memory."]{{arxiv|1506.02516}} (2015). {{ref-en}}</ref>

===== Нейронні машини Тюрінга =====
{{Main|Нейронна машина Тюрінга}}

Нейронні машини Тюрінга ({{lang-en|Neural Turing machines}})<ref name="Graves, Alex 14102">Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural Turing Machines." {{arxiv|1410.5401}} (2014). {{ref-eb}}</ref> спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги ({{lang-en|attentional processes}}). Ця зв'язана система є аналогічною [[Машина Тюрінга|машині Тюрінга]], але є диференційовною з краю в край, що дозволяє їй дієво навчатися [[Градієнтний спуск|градієнтним спуском]]. Попередні результати показують, що нейронні машини Тюрінга можуть виводити з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядкування та асоціативне пригадування.

{{нп|Диференційовний нейронний комп'ютер|Диференційовні нейронні комп'ютери||Differentiable neural computer}} ({{lang-en|Differentiable neural computers, DNC}})&nbsp;— це розширення нейронних машин Тюрінга. На задачах обробки послідовностей вони перевершили нейронні машини Тюрінга, системи [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] та мережі з пам'яттю.<ref name=":02">{{Cite news|url=https://www.wired.co.uk/article/deepmind-ai-tube-london-underground|title=DeepMind's AI learned to ride the London Underground using human-like reason and memory|last=Burgess|first=Matt|newspaper=WIRED UK|language=en-GB|accessdate=2016-10-19}} {{ref-en}}</ref><ref>{{Cite news|url=https://www.pcmag.com/news/348701/deepmind-ai-learns-to-navigate-london-tube|title=DeepMind AI 'Learns' to Navigate London Tube|newspaper=PCMAG|accessdate=2016-10-19}} {{ref-en}}</ref><ref>{{Cite web|url=https://techcrunch.com/2016/10/13/__trashed-2/|title=DeepMind’s differentiable neural computer helps you navigate the subway with its memory|last=Mannes|first=John|website=TechCrunch|accessdate=2016-10-19}} {{ref-en}}</ref><ref>{{Cite journal|last=Graves|first=Alex|last2=Wayne|first2=Greg|last3=Reynolds|first3=Malcolm|last4=Harley|first4=Tim|last5=Danihelka|first5=Ivo|last6=Grabska-Barwińska|first6=Agnieszka|last7=Colmenarejo|first7=Sergio Gómez|last8=Grefenstette|first8=Edward|last9=Ramalho|first9=Tiago|date=2016-10-12|title=Hybrid computing using a neural network with dynamic external memory|url=http://www.nature.com/nature/journal/vaop/ncurrent/full/nature20101.html|journal=Nature|language=en|volume=538|issue=7626|doi=10.1038/nature20101|issn=1476-4687|pages=471–476|pmid=27732574|bibcode=2016Natur.538..471G}} {{ref-en}}</ref><ref>{{Cite web|url=https://deepmind.com/blog/differentiable-neural-computers/|title=Differentiable neural computers {{!}} DeepMind|website=DeepMind|accessdate=2016-10-19}} {{ref-en}}</ref>

==== Семантичне гешування ====

Підходи, які представляють попередній досвід безпосередньо, і [[Навчання на прикладах|використовують схожий досвід для формування локальної моделі]], часто називають методами {{нп|Найближчий сусід|найближчого сусіда||Nearest neighbour}} або [[Метод k-найближчих сусідів|''k''-найближчих сусідів]].<ref>{{cite journal|last2=Schaal|first2=Stefan|year=1995|title=Memory-based neural networks for robot learning|url=|journal=Neurocomputing|volume=9|issue=3|pages=243–269|doi=10.1016/0925-2312(95)00033-6|last1=Atkeson|first1=Christopher G.}} {{ref-en}}</ref> В семантичному гешуванні ({{lang-en|semantic hashing}}) є корисним глибинне навчання,<ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. [http://www.utstat.toronto.edu/~rsalakhu/papers/sdarticle.pdf "Semantic hashing."] International Journal of Approximate Reasoning 50.7 (2009): 969-978. {{ref-en}}</ref> де з великого набору документів отримується глибинна [[графічна модель]] векторів кількостей слів.<ref name="Le 2014">{{Cite arXiv|eprint=1405.4053|first=Quoc V.|last=Le|first2=Tomas|last2=Mikolov|title=Distributed representations of sentences and documents|year=2014|class=cs.CL}}
{{ref-en}}</ref> Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можливо знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від {{нп|Розріджена розподілена пам'ять|розрідженої розподіленої пам'яті||Sparse distributed memory}}, що оперує 1000-бітними адресами, семантичне гешування працює на 32- або 64-бітних адресах, що зустрічаються в традиційній комп'ютерній архітектурі.

==== Мережі з пам'яттю ====
Мережі з пам'яттю ({{lang-en|memory networks}})<ref name="Weston, Jason 14102">Weston, Jason, Sumit Chopra, and Antoine Bordes. "Memory networks." {{arxiv|1410.3916}} (2014). {{ref-en}}</ref><ref>Sukhbaatar, Sainbayar, et al. "End-To-End Memory Networks." {{arxiv|1503.08895}} (2015). {{ref-en}}</ref> є іншим розширенням нейронних мереж, що включає {{нп|Довготривала пам'ять|довготривалу пам'ять||Long-term memory}}. Довготривала пам'ять може читатися або записуватися з метою використання її для передбачення. Ці моделі застосовувалися в контексті [[Питально-відповідальна система|питально-відповідальних систем]] ({{lang-en|question answering, QA}}), де довготривала пам'ять ефективно діє як (динамічна) база знань, а вихід є текстовою відповіддю.<ref>Bordes, Antoine, et al. "Large-scale Simple Question Answering with Memory Networks." {{arxiv|1506.02075}} (2015). {{ref-en}}</ref>

==== Вказівникові мережі ====

Глибинні мережі може бути потенційно поліпшено поглибленням та скороченням параметрів, за збереження здатності до навчання. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути непрактичним, [[ЦП]]-подібні архітектури, такі як вказівникові мережі ({{lang-en|pointer networks}})<ref>Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." {{arxiv|1506.03134}} (2015). {{ref-en}}</ref> та нейронні машини з довільним доступом ({{lang-en|neural random-access machines}}),<ref>Kurach, Karol, Andrychowicz, Marcin and Sutskever, Ilya. "Neural Random-Access Machines." {{arxiv|1511.06392}} (2015). {{ref-en}}</ref> долають це обмеження завдяки застосуванню зовнішньої [[Оперативна пам'ять|пам'яті з довільним доступом]] та інших складових, що зазвичай належать до [[Комп'ютерна архітектура|комп'ютерної архітектури]], таких як [[Регістр процесора|регістри]], [[АЛП]] та [[вказівник]]и. Такі системи працюють на векторах [[Розподіл ймовірностей|розподілів імовірностей]], що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель є повністю диференційовною, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та число параметрів можливо змінювати незалежно&nbsp;— на відміну від моделей на кшталт [[ДКЧП]], чиє число параметрів зростає квадратично з розміром пам'яті.

==== Кодувально-декодувальні мережі ====

Кодувально-декодувальні системи ({{lang-en|encoder–decoder frameworks}}) ґрунтуються на нейронних мережах, що відображують високо{{нп|Структурне передбачення|структурований||Structured prediction}} вхід на високоструктурований вихід. Цей підхід виник у контексті [[Машинний переклад|машинного перекладу]],<ref>{{Cite web|url=http://www.aclweb.org/anthology/D13-1176|title=Recurrent continuous translation models|last=Kalchbrenner|first=N.|last2=Blunsom|first2=P.|date=2013|website=|publisher=EMNLP’2013|archive-url=|archive-date=|dead-url=|accessdate=}} {{ref-en}}</ref><ref>{{Cite web|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|title=Sequence to sequence learning with neural networks|last=Sutskever|first=I.|last2=Vinyals|first2=O.|date=2014|website=|publisher=NIPS’2014|archive-url=|archive-date=|dead-url=|accessdate=|last3=Le|first3=Q. V.}} {{ref-en}}</ref><ref>{{Cite journal|last=Cho|first=K.|last2=van Merrienboer|first2=B.|last3=Gulcehre|first3=C.|last4=Bougares|first4=F.|last5=Schwenk|first5=H.|last6=Bengio|first6=Y.|date=October 2014|title=Learning phrase representations using RNN encoder-decoder for statistical machine translation|url=https://arxiv.org/abs/1406.1078|journal=Proceedings of the Empiricial Methods in Natural Language Processing|volume=1406|pages=arXiv:1406.1078|via=|arxiv=1406.1078|bibcode=2014arXiv1406.1078C}} {{ref-en}}</ref> де вхід та вихід є писаними реченнями двома природними мовами. В тій праці [[Рекурентна нейронна мережа|РНМ]] або [[Згорткова нейронна мережа|ЗНМ]] [[ДКЧП]] використовувалася як кодувальник для отримання зведення про вхідне речення, і це зведення декодувалося умовною РНМ-{{нп|Модель мови|моделлю мови||Language model}} для продукування перекладу.<ref>Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. "Describing Multimedia Content using Attention-based Encoder--Decoder Networks." {{arxiv|1507.01053}} (2015). {{ref-en}}</ref> Для цих систем є спільними будівельні блоки: вентильні ({{lang-en|gated}}) РНМ та ЗНМ, і треновані механізми уваги.

== Багатошарова ядрова машина ==

Багатошарові ядрові машини (БЯМ, {{lang-en|Multilayer Kernel Machine, MKM}})&nbsp;— це спосіб навчання високо нелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують {{нп|ядровий метод головних компонент|||Kernel principal component analysis}} (ЯМГК, {{lang-en|kernel principal component analysis, KPCA}})<ref name="ref60">{{cite journal|last2=Smola|first2=Alexander|date=1998|title=Nonlinear component analysis as a kernel eigenvalue problem|journal=Neural computation|volume=(44)|issue=5|pages=1299–1319|doi=10.1162/089976698300017467|last1=Scholkopf|first1=B}} {{ref-en}}</ref> як метод для [[Навчання без учителя|спонтанного]] [[Жадібний алгоритм|жадібного]] пошарового передтренувального кроку архітектури глибинного навчання.<ref name="ref59">{{cite journal|date=2012|title=Kernel Methods for Deep Learning|url=http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf|pages=1–9|last1=Cho|first1=Youngmin}} {{ref-en}}</ref>

<math>l+1</math>-й шар навчається представлення попереднього шару <math>l</math>, виділяючи <math>n_l</math> [[Метод головних компонент|головних компонент]] (ГК, {{lang-en|principal component, PC}}) проекції, яку шар <math>l</math> виводить в область визначення ознак під дією ядра. Заради {{нп|Зниження розмірності|зниження||Dimensionality reduction}} в кожному шарі розмірності уточненого представлення пропонується [[Навчання з учителем|керована стратегія]] для вибору найінформативніших ознак серед виділених ЯМГК. Цей процес є таким:

* вишикувати <math>n_l</math> ознак відповідно до їхньої [[Взаємна інформація|взаємної інформації]] з мітками класів;
* для різних значень ''K'' та <math>m_l \in\{1, \ldots, n_l\}</math> обчислити рівень похибки класифікації [[Метод k-найближчих сусідів|методом ''K''-найближчих сусідів]] (К-НС, {{lang-en|K-nearest neighbor, K-NN}}), використовуючи лише <math>m_l</math> ознак, найінформативніших на {{нп|Затверджувальний набір|затверджувальному наборі||Validation set}};
* значення <math>m_l</math>, з яким класифікатор досяг найнижчого рівня похибки, визначає число ознак для збереження.

Метод ЯМГК як будівельні блоки для БЯМ супроводжують деякі недоліки.

Для розуміння усного мовлення було розроблено простіший спосіб застосування ядрових машин для глибинного навчання.<ref>{{Cite journal|last=Deng|first=Li|last2=Tur|first2=Gokhan|last3=He|first3=Xiaodong|last4=Hakkani-Tür|first4=Dilek|date=2012-12-01|title=Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding|url=https://www.microsoft.com/en-us/research/publication/use-of-kernel-deep-convex-networks-and-end-to-end-learning-for-spoken-language-understanding/|journal=Microsoft Research|language=en-US}} {{ref-en}}</ref> Головна ідея полягає у використанні ядрової машини для наближення поверхневої нейронної мережі з нескінченним числом прихованих вузлів, і подальшому застосуванні [[#Глибинні складальні мережі|складання]] для зрощування виходу цієї ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Число рівнів у цій глибинній опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресною перевіркою.

== Використання ==

Використання ШНМ вимагає розуміння їхніх характеристик.

* Вибір моделі: Це залежить від представлення даних та застосування. Надмірно складні моделі уповільнюють навчання.
* Алгоритм навчання: Існують численні компроміси між алгоритмами навчання. Майже кожен алгоритм працюватиме добре з правильними {{нп|Гіпермараметр|гіперпараметрами||Hyperparameter}} для тренування на певному наборі даних. Проте, обрання та налаштування алгоритму для тренування на небачених даних вимагає значного експериментування.
* Робастність: Якщо модель, функція витрат та алгоритм навчання обрано належним чином, то отримувана в результаті ШНМ може стати робастною.

Можливості ШНМ підпадають під наступні широкі категорії:{{Citation needed|дата=січень 2018}}

* {{нп|Наближення функцій|||Function approximation}}, або [[регресійний аналіз]], включно з [[Передбачування часових рядів|передбачуванням часових рядів]], {{нп|Наближення пристосованості|наближенням пристосованості||fitness approximation}} та моделюванням.
* [[Статистична класифікація|Класифікація]], включно з розпізнаванням [[Розпізнавання образів|образів]] та послідовностей, {{нп|Виявлення нововведень|виявленням нововведень||Novelty detection}} та послідовним ухвалюванням рішень.
* [[Обробка даних]], включно з фільтруванням, кластеруванням, {{нп|Сліпе відокремлювання сигналу|сліпим відокремлюванням сигналу||Blind source separation}} та стисненням.
* [[Робототехніка]], включно зі скеровуванням маніпуляторів та [[протез]]ів.
* [[Теорія автоматичного керування|Автоматичне керування]], включно з [[Числове програмне керування|числовим програмним керуванням]].

== Застосування ==

Через свою здатність відтворювати та моделювати нелінійні процеси, ШНМ знайшли застосування в широкому діапазоні дисциплін.

До обласлей застосування належать {{нп|ідентифікація систем|||System identification}} та керування (керування транспортними засобами, передбачування траєкторії,<ref>{{cite journal|last1=Zissis|first1=Dimitrios|title=A cloud based architecture capable of perceiving and predicting multiple vessel behaviour|journal=Applied Soft Computing|date=October 2015|volume=35|url=http://www.sciencedirect.com/science/article/pii/S1568494615004329|doi=10.1016/j.asoc.2015.07.002|pages=652–661}} {{ref-en}}</ref> [[автоматизація виробничих процесів]], [[природокористування]]), [[квантова хімія]],<ref name="Balabin_2009">{{Cite journal|journal=[[J. Chem. Phys.]] |volume = 131 |issue = 7 |page = 074104 |doi=10.1063/1.3206326 |title=Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies |year=2009 |author1=Roman M. Balabin |author2=Ekaterina I. Lomakina |pmid=19708729|bibcode = 2009JChPh.131g4104B }} {{ref-en}}</ref> гра в ігри та [[ухвалювання рішень]] ([[короткі нарди]], [[шахи]], [[покер]]), [[розпізнавання образів]] (радарні системи, {{нп|ідентифікування облич|||Face identification}}, класифікування сигналів,<ref>{{cite journal|last=Sengupta|first=Nandini|author2=Sahidullah, Md|author3=Saha, Goutam|title=Lung sound classification using cepstral-based statistical features|journal=Computers in Biology and Medicine|date=August 2016|volume=75|issue=1|pages=118–129|doi=10.1016/j.compbiomed.2016.05.013|url=http://www.sciencedirect.com/science/article/pii/S0010482516301263}} {{ref-en}}</ref> розпізнавання об'єктів та ін.), розпізнавання послідовностей (жестів, мовлення, рукописного тексту), [[медична діагностика]], фінанси<ref>{{cite journal|last1=French|first1=Jordan|title=The time traveller's CAPM|journal=Investment Analysts Journal|volume=46|issue=2|pages=81-96|doi=10.1080/10293523.2016.1255469|url=http://www.tandfonline.com/doi/abs/10.1080/10293523.2016.1255469}}
{{ref-en}}</ref> (наприклад, {{нп|Алгоритмічна комерція|автоматизовані системи торгівлі||Algorithmic trading}}), [[добування даних]], унаочнення, [[машинний переклад]], соціально-мережеве фільтрування<ref>{{Cite news|url=https://www.wsj.com/articles/facebook-boosts-a-i-to-block-terrorist-propaganda-1497546000|title=Facebook Boosts A.I. to Block Terrorist Propaganda|last=Schechner|first=Sam|date=2017-06-15|work=Wall Street Journal|accessdate=2017-06-16|language=en-US|issn=0099-9660}} {{ref-en}}</ref> та фільтрування {{нп|Спам електронної пошти|спаму електронної пошти||Email spam}}.

ШНМ застосовували в діагностуванні раку, включно з [[Рак легені|раком легені]],<ref>{{cite web|last=Ganesan|first=N|title=Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data|url=http://www.ijcaonline.org/journal/number26/pxc387783.pdf|publisher=International Journal of Computer Applications}}
{{ref-en}}</ref> [[Рак простати|простати]], [[Колоректальний рак|колоректальним раком]],<ref>{{cite web|url=http://www.lcc.uma.es/~jja/recidiva/042.pdf|title=Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions|last=Bottaci|first=Leonardo|publisher=The Lancet}} {{ref-en}}</ref> а також щоби відрізнювати лінії ракових клітин, сильно схильні до розповсюдження, від менш схильних до розповсюдження ліній, із застосуванням лише інформації про форму клітин.<ref>{{cite journal|last2=Lyons|first2=Samanthe M|last3=Castle|first3=Jordan M|last4=Prasad|first4=Ashok|date=2016|title=Measuring systematic changes in invasive cancer cell shape using Zernike moments|url=http://pubs.rsc.org/en/Content/ArticleLanding/2016/IB/C6IB00100A#!divAbstract|journal=Integrative Biology|volume=8|issue=11|pages=1183–1193|doi=10.1039/C6IB00100A|pmid=27735002|last1=Alizadeh|first1=Elaheh}} {{ref-en}}</ref><ref>{{cite journal|date=2016|title=Changes in cell shape are correlated with metastatic potential in murine|url=http://bio.biologists.org/content/5/3/289|journal=Biology Open|volume=5|issue=3|pages=289–299|doi=10.1242/bio.013409|last1=Lyons|first1=Samanthe}} {{ref-en}}</ref>

ШНМ також використовували для побудови [[Чорна скринька|чорноскринькових]] моделей в [[Геонауки|геонауках]]: [[гідрологія]],<ref>{{Cite journal|last=null null|date=2000-04-01|title=Artificial Neural Networks in Hydrology. I: Preliminary Concepts|url=http://ascelibrary.org/doi/abs/10.1061/(ASCE)1084-0699(2000)5:2(115)|journal=Journal of Hydrologic Engineering|volume=5|issue=2|pages=115–123|doi=10.1061/(ASCE)1084-0699(2000)5:2(115)}} {{ref-en}}</ref><ref>{{Cite journal|last=null null|date=2000-04-01|title=Artificial Neural Networks in Hydrology. II: Hydrologic Applications|url=http://ascelibrary.org/doi/abs/10.1061/(ASCE)1084-0699(2000)5:2(124)|journal=Journal of Hydrologic Engineering|volume=5|issue=2|pages=124–137|doi=10.1061/(ASCE)1084-0699(2000)5:2(124)}} {{ref-en}}</ref> моделювання океану та {{нп|прибережна інженерія|||Coastal engineering}},<ref>{{Cite journal|last=Peres|first=D. J.|last2=Iuppa|first2=C.|last3=Cavallaro|first3=L.|last4=Cancelliere|first4=A.|last5=Foti|first5=E.|date=2015-10-01|title=Significant wave height record extension by neural networks and reanalysis wind data|url=http://www.sciencedirect.com/science/article/pii/S1463500315001432|journal=Ocean Modelling|volume=94|pages=128–140|doi=10.1016/j.ocemod.2015.08.002|bibcode=2015OcMod..94..128P}} {{ref-en}}</ref><ref>{{Cite journal|last=Dwarakish|first=G. S.|last2=Rakshith|first2=Shetty|last3=Natesan|first3=Usha|date=2013|title=Review on Applications of Neural Network in Coastal Engineering|url=http://www.ciitresearch.org/dl/index.php/aiml/article/view/AIML072013007|journal=Artificial Intelligent Systems and Machine Learning|language=English|volume=5|issue=7|pages=324–331}} {{ref-en}}</ref> та [[геоморфологія]]<ref>{{Cite journal|last=Ermini|first=Leonardo|last2=Catani|first2=Filippo|last3=Casagli|first3=Nicola|date=2005-03-01|title=Artificial Neural Networks applied to landslide susceptibility assessment|url=http://www.sciencedirect.com/science/article/pii/S0169555X04002272|journal=Geomorphology|series=Geomorphological hazard and human impact in mountain environments|volume=66|issue=1|pages=327–343|doi=10.1016/j.geomorph.2004.09.025|bibcode=2005Geomo..66..327E}} {{ref-en}}</ref> є лише деякими з прикладів такого роду.

=== Нейронаука ===

Теоретична на [[обчислювальна нейронаука]] займається теоретичним аналізом та обчислювальним моделюванням біологічних нейронних систем. Оскільки нейронні системи намагаються відображувати пізнавальні процеси та поведінку, ця область є тісно пов'язаною з пізнавальним та поведінковим моделюванням.

Щоби досягти розуміння цього, нейробіологи намагаються зв'язати спостережувані біологічні процеси (дані), біологічно правдоподібні механізми нейронної обробки та навчання (моделі [[Біологічна нейронна мережа|біологічних нейронних мереж]]) та теорію ([[Теорія статистичного навчання|теорію статистичного навчання]] та [[Теорія інформації|теорію інформації]]).

Дослідження мозку неодноразово приводили до нових підходів на основі ШНМ, таких як використання з'єднань для з'єднування нейронів у різних шарах, а не суміжних нейронів в одному шарі. Інше дослідження розвідувало використання декількох типів сигналу, або тоншого контролю, ніж [[Булева алгебра|булеві змінні (увімкнено/вимкнено)]]. Динамічні нейронні мережі можуть динамічно утворювати нові з'єднання, та навіть нові нейронні вузли, в той же час деактивуючи інші.<ref>{{Cite web|url=https://www.mathworks.com/help/nnet/ug/introduction-to-dynamic-neural-networks.html|title=Introduction to Dynamic Neural Networks - MATLAB & Simulink|website=www.mathworks.com|accessdate=2017-06-15}} {{ref-en}}</ref>

==== Типи моделей ====

Використовується багато типів моделей, визначених на різних рівнях абстрагування, та з моделюванням різних аспектів нейронних систем. Вони сягають від моделей короткотермінової поведінки [[Модель біологічного нейрона|окремих нейронів]],<ref>{{cite journal | author=Forrest MD |title=Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster |journal= BMC Neuroscience | volume=16 |issue=27 | date=April 2015 |doi=10.1186/s12868-015-0162-6 |url=http://www.biomedcentral.com/1471-2202/16/27 }} {{ref-en}}</ref> моделей того, як динаміка компонувань нейронних схем постає із взаємодії між окремими нейронами, і, нарешті, до моделей того, як може поставати поведінка з абстрактних нейронних модулів, які представляють цілі підсистеми. До них належать моделі короткотермінової та довготермінової пластичності, нейронних систем та їхнього відношення до навчанням та пам'яті від окремого нейрону й до рівня системи.

== Теоретичні властивості ==

=== Обчислювальна сила ===

Як доведено [[Теорема Цибенко|теоремою Цибенка]], [[багатошаровий перцептрон]] є універсальним наближувачем функцій. Проте, це доведення не є конструктивним відносно числа потрібних нейронів, топології мережі, ваг та параметрів навчання.

Особлива рекурентна архітектура з [[Раціональні числа|раціальнозначними]] вагами (на противагу до повноточнісних [[Дійсні числа|дійснозначних]] ваг) має повну силу [[Універсальна машина Тюрінга|універсальної машини Тюрінга]],<ref>{{Cite journal| title = Turing computability with neural nets | url = http://www.math.rutgers.edu/~sontag/FTPDIR/aml-turing.pdf | year = 1991 | journal = Appl. Math. Lett. | pages = 77–80 | volume = 4 | issue = 6 | last1 = Siegelmann | first1 = H.T. | last2 = Sontag | first2 = E.D. | doi = 10.1016/0893-9659(91)90080-F }} {{ref-en}}</ref> використовуючи скінченне число нейронів та стандартні лінійні з'єднання. Крім того, використання [[Ірраціональні числа|ірраціональних]] значень для ваг дає в результаті машину з [[Гіперобчислення|надтюринговою]] силою.<ref>{{cite journal |last1=Balcázar |first1=José |title=Computational Power of Neural Networks: A Kolmogorov Complexity Characterization |journal=Information Theory, IEEE Transactions on |date=Jul 1997 |volume=43 |issue=4 |pages=1175–1183 |doi=10.1109/18.605580 |url=http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=605580&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D605580 |accessdate=3 November 2014|citeseerx=10.1.1.411.7782 }} {{ref-en}}</ref>

=== Місткість ===

Властивість «місткості» ({{lang-en|"capacity"}}) моделі грубо відповідає її здатності моделювати будь-яку задану функцію. Вона пов'язана з обсягом інформації, яку може бути збережено в мережі, та з поняттям складності.{{citation needed|дата=січень 2018}}

=== Збіжність ===

Моделі можуть не збігатися послідовно на єдиному розв'язку, по-перше, через можливість існування багатьох локальних мінімумів, залежно від функції витрат та моделі. По-друге, вживаний метод оптимізації може не гарантувати збіжності, якщо він починається далеко від будь-якого локального мінімуму. По-третє, для достатньо великих даних або параметрів, деякі методи стають непрактичними. Проте, для тренування нейронної мережі {{нп|Артикуляційний контролер мозочкової моделі|АКММ||Cerebellar model articulation controller}} було представлено рекурсивний алгоритм найменших квадратів, і для цього алгоритму може бути гарантовано збіжність за один крок.<ref name="Qin1"/>

=== Узагальнення та статистика ===

Застосування, чиєю метою є створення системи, яка добре узагальнюється до небачених зразків, стикаються з можливістю [[перетренування]]. Воно виникає в закручених або надмірно визначених системах, коли місткість мережі значно перевершує потребу в вільних параметрах. Існує два підходи, як впоруватися з перетренуванням. Першим є використовувати [[Перехресна перевірка|перехресну перевірку]] та подібні методи, щоби перевіряти на наявність перетренування та оптимально обирати гіперпараметри для зведення похибки узагальнення до мінімуму. Другим є використовувати якийсь із видів ''[[Регуляризація (математика)|регуляризації]]''. Це поняття виникає в імовірнісній (баєсовій) системі, де регуляризацію можливо виконувати шляхом обирання більшої апріорної ймовірності над простішими моделями, але також і в теорії статистичного навчання, де метою є зводити до мінімуму дві величини: «емпіричний ризик» та «структурний ризик», що грубо відповідають похибці над тренувальним набором та передбаченій похибці в небачених даних через перенавчання.

<!-- [[Файл:Synapse deployment.jpg|thumb|right|Аналіз довіри до нейронної мережі]] -->
Керовані нейронні мережі, які використовують як функцію втрат {{нп|Cередньоквадратична похибка|середньоквадратичну похибку||Mean squared error}} (СКП), для визначення довіри до тренованої моделі можуть використовувати формальні статистичні методи. СКП на затверджувальному наборі можливо використовувати для оцінювання дисперсії. Це значення потім можливо використовувати для обчислення [[Довірчий інтервал|довірчого інтервалу]] виходу мережі, виходячи з [[Нормальний розподіл|нормального розподілу]]. Здійснений таким чином аналіз довіри є статистично чинним, поки [[розподіл імовірності]] виходу залишається незмінним, і не вноситься змін до мережі.

Призначаючи {{нп|Нормалізована експоненційна функція|нормалізовану експоненційну функцію||Softmax function}}, узагальнення [[Логістична функція|логістичної функції]], як функцію збудження шарові виходу нейронної мережі (або нормалізовану експоненційну складову в нейронній мережі на основі складових) для [[Категорійна змінна|категорійних]] цільових змінних, виходи можна інтерпретувати як апостеріорні ймовірності. Це є дуже корисним у класифікації, бо дає міру впевненості в класифікаціях.

Нормалізованою експоненційною функцією збудження є:

: <math>y_i=\frac{e^{x_i}}{\sum_{j=1}^c e^{x_j}}</math>

== Критика ==

=== Питання тренування ===

Поширеною критикою нейронних мереж, зокрема в робототехніці, є те, що для функціювання в реальному світі вони вимагають забагато тренування.{{Citation needed|дата=січень 2018}} До потенційних розв'язань належить випадкове переставляння тренувальних зразків, застосування алгоритму чисельної оптимізації, який не вимагає завеликих кроків при зміні з'єднань мережі слідом за зразком, та групування зразків до так званих міні-пакетів. Поліпшення дієвості навчання та здатності до збіжності для нейронних мереж завжди було областю постійних досліджень. Наприклад, завдяки введенню для нейронної мережі {{нп|Артикуляційний контролер мозочкової моделі|АКММ||Cerebellar model articulation controller}} алгоритму рекурсивних найменших квадратів, процесові навчання, щоби збігтися, потрібен лише один крок.<ref name="Qin1"/>

=== Теоретичні питання ===

Жодна нейронна мережа не розв'язала таких обчислювально складних задач, як [[задача про вісім ферзів]], [[задача комівояжера]] чи [[Розкладання цілих чисел|задача розкладання]] великих цілих чисел.

Фундаментальна перешкода полягає в тім, що вони не відображують роботу справжніх нейронів. Зворотне поширення є критичною частиною більшості штучних нейронних мереж, тоді як в біологічних нейронних мережах такого механізму не існує.<ref>{{cite journal | last1 = Crick | first1 = Francis | year = 1989 | title = The recent excitement about neural networks | journal = Nature | volume = 337 | issue = 6203 | pages = 129–132 | doi = 10.1038/337129a0 | url = http://europepmc.org/abstract/med/2911347 | pmid=2911347| bibcode = 1989Natur.337..129C }} {{ref-en}}</ref> Як інформацію кодовано справжніми нейронами&nbsp;— не відомо. {{нп|Сенсорний нейрон|Сенсо́рні нейрони||Sensory neuron}} генерують [[потенціал дії]] частіше, коли сенсор активовано, а [[м'язові клітини]] натягуються сильніше, коли пов'язані з ними [[мотонейрон]]и частіше отримують потенціал дії.<ref>{{cite journal | last1 = Adrian | first1 = Edward D. | year = 1926 | title = The impulses produced by sensory nerve endings | journal = The Journal of Physiology | volume = 61 | issue = 1 | pages = 49–72 | doi = 10.1113/jphysiol.1926.sp002273 | pmid = 16993776 | pmc = 1514809 | url = http://onlinelibrary.wiley.com/doi/10.1113/jphysiol.1926.sp002273/full }} {{ref-en}}</ref> Крім цієї справи передавання інформації від сенсорного нейрону до мотонейрону, про принципи обробки інформації біологічною нейронною мережею не відомо майже нічого.

Мотиви, що стоять за ШНМ, полягають не обов'язково в точному відтворенні нейронної функціональності, а в використанні біологічних нейронних мереж як натхнення. Тож головною претензією ШНМ є те, що вона втілює якийсь новий та потужний загальний принцип обробки інформації. На жаль, ці загальні принципи не є чітко визначеними. Часто претендують на те, що вони {{нп|Емерджентні властивості|виникають||Emergent properties}} із самої мережі. Це дозволяє простій статистичній асоціації (основній функції штучних нейронних мереж) бути описуваною як навчання або розпізнавання. {{нп|Олександр Дьюдні|||Alexander Dewdney}} зауважив, що, в результаті, штучні нейронні мережі мають «риси чогось дармового, чогось наділеного особливою аурою ледарства та виразної відсутності зацікавлення хоч би тим, наскільки добрими ці комп'ютерні системи є. Жодного втручання людської руки (та розуму), розв'язки знаходяться мов чарівною силою, і ніхто, схоже, так нічого й не навчився».<ref>{{cite book|url={{google books |plainurl=y |id=KcHaAAAAMAAJ|page=82}}|title=Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science|last=Dewdney|first=A. K.|date=1 April 1997|publisher=Wiley|year=|isbn=978-0-471-10806-1|location=|pages=82}}
{{ref-en}}</ref>

Біологічні мізки використовують як поверхневі, так і глибинні схеми, як про це каже анатомія мозку,<ref name="VanEssen1991">D. J. Felleman and D. C. Van Essen, "[http://cercor.oxfordjournals.org/content/1/1/1.1.full.pdf+html Distributed hierarchical processing in the primate cerebral cortex]," ''Cerebral Cortex'', 1, pp. 1-47, 1991. {{ref-en}}</ref> демонструючи велику різноманітність інваріантності. Венг<ref name="Weng2012">J. Weng, "[https://www.amazon.com/Natural-Artificial-Intelligence-Introduction-Computational/dp/0985875720 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind]," BMI Press, {{ISBN|978-0985875725}}, 2012. {{ref-en}}</ref> стверджував, що мозок самоз'єднується великою мірою відповідно до статистики сигналів, і, відтак, послідовний каскад не здатен вловлювати всі важливі статистичні залежності.

=== Апаратні питання ===

Великі та ефективні обчислювальні нейронні мережі вимагають значних обчислювальних ресурсів.<ref name=":0">{{cite journal|last1=Edwards|first1=Chris|title=Growing pains for deep learning|journal=Communications of the ACM|date=25 June 2015|volume=58|issue=7|pages=14–16|doi=10.1145/2771283}} {{ref-en}}</ref> В той час як мозок має апаратне забезпечення, ідеально пристосоване для задачі обробки сигналів [[Граф (математика)|графом]] нейронів, імітування навіть спрощеного нейрону на [[Архітектура фон Неймана|архітектурі фон Неймана]] може змушувати розробника нейронної мережі заповнювати багато мільйонів рядків [[База даних|бази даних]] для його з'єднань, що може вимагати споживання незмірної кількості [[Оперативна пам'ять|пам'яті]] та дискового простору. Крім того, розробникові часто потрібно передавати сигнали багатьма цими з'єднаннями та пов'язаними з ними нейронами, і цій задачі часто мусить відповідати величезна обчислювальна потужність та час [[ЦП]].

{{нп|Юрген Шмідгубер|Шмідгубер||Juergen Schmidhuber}} зауважує, що реанімацію нейронних мереж у двадцять першому сторіччі великою мірою обумовлено досягненнями в апаратному забезпеченні: з 1991 до 2015 року обчислювальна потужність, особливо забезпечувана [[ГПЗП]] (на [[ГП]]), зросла приблизно в мільйон разів, зробивши стандартний алгоритм зворотного поширення придатним для тренування мереж, які є на декілька шарів глибшими, ніж раніше.<ref>{{cite journal |last=Schmidhuber |first=Jürgen |title=Deep learning in neural networks: An overview |journal=Neural Networks |volume=61 |year=2015 |pages=85–117 |arxiv=1404.7828 |doi=10.1016/j.neunet.2014.09.003|pmid=25462637 }} {{ref-en}}</ref> Застосування паралельних ГП може скорочувати тривалості тренування з місяців до днів.{{r|:0}}

{{нп|Нейроморфна інженерія|||Neuromorphic engineering}} розв'язує цю апаратну складність безпосередньо, конструюючи не-фон-нейманові мікросхеми для безпосереднього втілення нейронних мереж у схемах. Ще одна мікросхема, оптимізована для обробки нейронних мереж, зветься {{нп|Тензорний процесор|тензорним процесором||Tensor processing unit}}, або ТП ({{lang-en|Tensor Processing Unit, TPU}}).<ref>{{cite news |url=https://www.wired.com/2016/05/google-tpu-custom-chips/ |author=Cade Metz |newspaper=Wired |date=May 18, 2016 |title=Google Built Its Very Own Chips to Power Its AI Bots}} {{ref-en}}</ref>

=== Практичні контрприклади до критики ===

Аргументами проти позиції Дьюдні є те, що нейронні мережі успішно застосовувалися для розв'язання багатьох складних і різнотипних задач, починаючи від автономних літальних апаратів,<ref>[http://www.nasa.gov/centers/dryden/news/NewsReleases/2003/03-49.html NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE]. Nasa.gov. Retrieved on 2013-11-20. {{ref-en}}</ref> і до виявлення шахрайств із кредитними картками та опанування гри [[Ґо (гра)|Ґо]].

Технічний письменник Роджер Бріджмен прокоментував це так:

{{Quote|Нейронні мережі, наприклад, знаходяться в обоймі не лише тому, що їх було піднесено до високих небес (що не було?), але також і тому, що ви можете створити успішну мережу без розуміння того, як вона працює: жмут чисел, що охоплює її поведінку, за всією ймовірністю буде «непрозорою, нечитабельною таблицею... нічого не вартою, як науковий ресурс».
Незважаючи на його рішучу заяву, що наука не є технологією, Дьюдні тут, здається, ганьбить нейронні мережі як погану науку, тоді як більшість із тих, хто їх розробляє, просто намагаються бути добрими інженерами. Нечитабельна таблиця, яку може читати корисна машина, все одно буде вельми варта того, щоби її мати.{{oq|en|Neural networks, for instance, are in the dock not only because they have been hyped to high heaven, (what hasn't?) but also because you could create a successful net without understanding how it worked: the bunch of numbers that captures its behaviour would in all probability be "an opaque, unreadable table...valueless as a scientific resource".
In spite of his emphatic declaration that science is not technology, Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers. An unreadable table that a useful machine could read would still be well worth having.}}|Роджер Бріджмен|Roger Bridgman's defence of neural networks<ref>[http://members.fortunecity.com/templarseries/popper.html Roger Bridgman's defence of neural networks] {{ref-en}}</ref>}}

Незважаючи на те, що аналізувати, чого навчилася штучна нейронна мережа, дійсно складно, робити це набагато простіше, ніж аналізувати, чого навчилася нейронна мережа біологічна. Крім того, дослідники, які беруть участь в пошуку алгоритмів навчання для нейронних мереж, поступово розкривають загальні принципи, що дозволяють машині, що вчиться, бути успішною. Наприклад, локальне й нелокальне навчання, та поверхнева й глибинна архітектура.<ref>{{cite web|url=http://www.iro.umontreal.ca/~lisa/publications2/index.php/publications/show/4|title=Scaling Learning Algorithms towards {AI} - LISA - Publications - Aigaion 2.0|publisher=}} {{ref-en}}</ref>

=== Гібридні підходи ===

Прибічники гібридних моделей (що поєднують нейронні мережі та символьні підходи) стверджують, що така суміш може схоплювати механізми людського розуму краще.<ref>Sun and Bookman (1990) {{ref-en}}</ref><ref>{{Cite journal| last1 = Tahmasebi | last2 = Hezarkhani | title = A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation | url = http://www.sciencedirect.com/science/article/pii/S0098300412000398 | year = 2012| journal = Computers & Geosciences | pages = 18–27 | volume = 42| doi = 10.1016/j.cageo.2012.02.004 | bibcode = 2012CG.....42...18T }} {{ref-en}}</ref>

== Типи ==
{{Докладніше1|{{нп|Типи штучних нейронних мереж|||Types of artificial neural networks}}}}

Штучні нейронні мережі мають багато різновидів. Найпростіші, статичні, типи мають одну або більше статичних складових, включно з числом вузлів, числом шарів, вагами вузлів та [[Топологія|топологією]]. Динамічні типи дозволяють одній або більше з них змінюватися в процесі навчання. Останні є набагато складнішими, але можуть скорочувати періоди навчання та давати кращі результати. Деякі типи дозволяють/вимагають, щоби навчання було «керованим» оператором, тоді як інші діють незалежно. Деякі типи працюють виключно в апаратному забезпеченні, тоді як інші є чисто програмними, і працюють на комп'ютерах загального призначення.

=== За типом вхідної інформації ===
* Аналогові нейронні мережі (використовують інформацію у формі дійсних чисел);
* Двійкові нейронні мережі (оперують з інформацією, представленою в двійковому вигляді).

=== За характером налаштування синапсів ===
* Мережі з фіксованими зв'язками (вагові коефіцієнти нейронної мережі вибираються відразу, виходячи з умов завдання, при цьому: '''dW / dt = 0''' , де '''W'''&nbsp;— вагові коефіцієнти мережі);
* Мережі з динамічними зв'язками (для них в процесі навчання відбувається налаштування синаптичних зв'язків, тобто '''dW / dt ≠ 0''', де '''W'''&nbsp;— вагові коефіцієнти мережі).

=== За представленнями ===
Якщо обчислювальна мережа має представляти елементи з якоїсь множини і кожному елементу відповідає якийсь вузол мережі, таке представлення називається '''локальним представленням'''. Його просто зрозуміти і реалізувати. Проте іноді представляти елементи множини вигідніше певним шаблоном активності, розподіленої на багатьох елементах мережі. Таке представлення називають '''розподіленим'''. Використання такого представлення може збільшити ефективність мережі.<ref name="Hinton, Geoffrey E 1984">{{Cite web|url=http://repository.cmu.edu/cgi/viewcontent.cgi?article=2841&context=compsci|title=Distributed representations|last=Hinton|first=Geoffrey E.|date=1984|website=|archive-url=|archive-date=|dead-url=|accessdate=}} {{ref-en}}</ref>

== Галерея ==
<gallery widths="260">
Файл:Single layer ann.svg|Одношарова штучна нейронна мережа прямого поширення. Стрілки, що виходять з <math>\scriptstyle x_2</math>, для наочності опущено. Є ''p'' входів до цієї мережі, й ''q'' виходів. У цій системі значення ''q''-того виходу <math>\scriptstyle y_q</math> обчислюватиметься як <math>\scriptstyle y_q = K*(\sum(x_i*w_{iq})-b_q) </math>
Файл:Two layer ann.svg|Двошарова штучна нейронна мережа прямого поширення.
Файл:Artificial neural network uk.svg|Штучна нейронна мережа.
Файл:Ann dependency (graph).svg|Граф залежностей ШНМ.
Файл:Single-layer feedforward artificial neural network.png|Одношарова штучна нейронна мережа прямого поширення з 4 входами, 6 прихованими вузлами, та 2 виходами. Для заданого стану положення та напряму виводить значення керування для коліс.
Файл:Two-layer feedforward artificial neural network.png|Двошарова штучна нейронна мережа прямого поширення з 8 входами, 2x8 прихованими вузлами, та 2 виходами. Для заданого стану положення, напряму та інших змінних середовища, видає значення керування для маневрових двигунів.
Файл:cmac.jpg|Паралельно-конвеєрна структура нейронної мережі {{нп|Артикуляційний контролер мозочкової моделі|АКММ||Cerebellar model articulation controller}}. Цей алгоритм навчання здатен збігатися за один крок.
</gallery>


== Див. також ==
== Див. також ==
Рядок 103: Рядок 530:
{{columns-list|colwidth=25em|
{{columns-list|colwidth=25em|
* [[20Q]]
* [[20Q]]
* [[ADALINE]]
* {{нп|Адаптивне табулювання на місці|||In situ adaptive tabulation}} ({{lang-en|ISAT}})
* [[Автокодувальник]]
* [[Автокодувальник]]
* [[ADALINE]]
* {{нп|Адаптивне табулювання на місці|||In situ adaptive tabulation}}
* {{нп|Артикуляційний контролер мозочкової моделі|||Cerebellar model articulation controller}} (АКММ, {{lang-en|CMAC}})
* [[Асоціативна пам'ять]]
* [[Асоціативна пам'ять]]
* [[Біокібернетика]]
* [[Біокібернетика]]
Рядок 111: Рядок 539:
* [[Генетичне програмування]]
* [[Генетичне програмування]]
* [[Генетичний алгоритм]]
* [[Генетичний алгоритм]]
* {{нп|Генно-експресійне програмування|||Gene expression programming}} ({{lang-en|GEP}})
* {{нп|Генно-експресійне програмування|||Gene expression programming}}
* [[Глибинне навчання]]
* [[Глибинне навчання]]
* {{нп|Encog|''Encog''}}
* {{нп|Encog|''Encog''}}
* {{нп|Звикання|||Habituation}}
* {{нп|Звикання|||Habituation}}
* [[Згорткова нейронна мережа]]
* [[Згорткова нейронна мережа]] (ЗНМ, {{lang-en|CNN}})
* {{нп|Ієрархічна часова пам'ять|||Hierarchical temporal memory}}
* {{нп|Катастрофічна інтерференція|||Catastrophic interference}}
* {{нп|Катастрофічна інтерференція|||Catastrophic interference}}
* {{нп|Когнітивна архітектура|||Cognitive architecture}}
* {{нп|Когнітивна архітектура|||Cognitive architecture}}
* [[Когнітивна наука]]
* [[Когнітивна наука]]
* {{нп|Конективістська експертна система|||Connectionist expert system}}
* {{нп|Конектоміка|||Connectomics}}
* {{нп|Конектоміка|||Connectomics}}
* {{нп|Конекціоністська експертна система|||Connectionist expert system}}
* {{нп|Культивована нейронна мережа|||Cultured neuronal network}}
* {{нп|Культивована нейронна мережа|||Cultured neuronal network}}
* [[Мережа радіально-базисних функцій]]
* [[Мережа радіально-базисних функцій]]
* [[Метод групового урахування аргументів]]
* [[Метод групового урахування аргументів]]
* Мікросхема {{нп|Ni1000}}
* {{нп|Моделі нейронного обчислення|||Models of neural computation}}
* {{нп|Моделі нейронного обчислення|||Models of neural computation}}
* {{нп|Навчання полілінійного підпростору|||Multilinear subspace learning}}
* [[Нейроеволюція]]
* [[Нейроеволюція]]
* [[Нейронаука]]
* [[Нейронаука]]
* {{нп|Нейронна мережа з потенціалом дії|||Spiking neural network}} ({{lang-en|SNN}})
* {{нп|Нейронна мережа з потенціалом дії|||Spiking neural network}}
* [[Нейронна мережа з часовою затримкою]] ({{lang-en|TDNN}})
* [[Нейронна мережа з часовою затримкою]] ({{lang-en|TDNN}})
* {{нп|Нейронний газ|||Neural gas}}
* {{нп|Нейронний газ|||Neural gas}}
* {{нп|Нейронний машинний переклад|||Neural machine translation}} ({{lang-en|NMT}})
* {{нп|Нейронний машинний переклад|||Neural machine translation}}
* {{нп|Нелінійна ідентифікація систем|||Nonlinear system identification}}
* {{нп|Нелінійна ідентифікація систем|||Nonlinear system identification}}
* [[Нервове кодування]]
* [[Нервове кодування]]
* [[Нечітка логіка]]
* [[Нечітка логіка]]
* Мікросхема {{нп|Ni1000}}
* {{нп|Оптична нейронна мережа|||Optical neural network}}
* {{нп|Оптична нейронна мережа|||Optical neural network}}
* {{нп|Паралельна розподілена обробка|||Parallel distributed processing}}
* {{нп|Паралельна розподілена обробка|||Parallel distributed processing}}
* {{нп|Перелік понять машинного навчання|Поняття машинного навчання||List of machine learning concepts}}
* {{нп|Програмне забезпечення нейронних мереж|||Neural network software}}
* {{нп|Програмне забезпечення нейронних мереж|||Neural network software}}
* [[Проект Blue Brain|Проект ''Blue Brain'']]
* [[Проект Blue Brain|Проект ''Blue Brain'']]
Рядок 147: Рядок 576:
* {{нп|Тензорно-добуткова мережа|||Tensor product network}}
* {{нп|Тензорно-добуткова мережа|||Tensor product network}}
* {{нп|Теорія адаптивного резонансу|||Adaptive resonance theory}}
* {{нп|Теорія адаптивного резонансу|||Adaptive resonance theory}}
* {{нп|Церебральна модель артикуляційного контролера|||Cerebellar model articulation controller}} ({{lang-en|CMAC}})
* {{нп|Цифровий морфогенез|||Digital morphogenesis}}
* {{нп|Цифровий морфогенез|||Digital morphogenesis}}
* [[Штучне життя]]
* [[Штучне життя]]
}}
}}

== Примітки ==

{{Примітки|30em}}

== Література ==
* {{Cite journal| author=Bhadeshia H. K. D. H. | year=1999 |title=Neural Networks in Materials Science | journal=ISIJ International | volume=39 |pages=966–979 | doi=10.2355/isijinternational.39.966 | url=http://www.msm.cam.ac.uk/phase-trans/abstracts/neural.review.pdf| issue=10}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/33101074|title=Neural networks for pattern recognition|last=M.|first=Bishop, Christopher|date=1995|publisher=Clarendon Press|isbn=0198538499|oclc=33101074 }} {{ref-en}}
* {{cite book|title={{нп|Mathematics of Control, Signals, and Systems}}|last=Cybenko|first=G.V.|publisher=Springer International|year=2006|editor-last=van Schuppen|editor-first=Jan H.|chapter=Approximation by Superpositions of a Sigmoidal function|chapter-url={{google books |plainurl=y |id=4RtVAAAAMAAJ|page=303}}|pp=303–314}} [http://actcomm.dartmouth.edu/gvc/papers/approx_by_superposition.pdf PDF] {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/35558945|title=Yes, we have no neutrons : an eye-opening tour through the twists and turns of bad science|last=Dewdney |first=A. K.|isbn=9780471108061|oclc=35558945|year=1997|publisher=Wiley|location=New York}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/41347061|title=Pattern classification|first=Richard O.|last=Duda|last2=Hart |first2=Peter Elliot|last3=Stork |first3=David G.|year=2001|publisher=Wiley|isbn=0471056693|oclc=41347061|edition=2}} {{ref-en}}
* {{Cite journal | last1=Egmont-Petersen|first1=M. |last2=de Ridder |first2=D. |last3=Handels |first3=H. | year=2002 | title=Image processing with neural networks – a review | journal=Pattern Recognition | volume=35 | pages=2279–2301 | doi = 10.1016/S0031-3203(01)00178-9 | issue=10}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/37875698|title=An introduction to neural networks|last=Gurney |first=Kevin |year=1997|publisher=UCL Press|isbn=1857286731|oclc=37875698}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/38908586|title=Neural networks : a comprehensive foundation|last=Haykin|first= Simon S.|year=1999|publisher=Prentice Hall|isbn=0132733501|oclc=38908586}} {{ref-en}}
* {{cite web|last1=Fahlman |first1=S. |last2=Lebiere |first2=C |year=1991 |title=The Cascade-Correlation Learning Architecture|url=http://www.cs.iastate.edu/~honavar/fahlman.pdf}}created for [[Національний науковий фонд|National Science Foundation]], Contract Number EET-8716324, and [[Defense Advanced Research Projects Agency]] (DOD), ARPA Order No. 4976 under Contract F33615-87-C-1499. {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/21522159|title=Introduction to the theory of neural computation|last1=Hertz |first1=J.|last3=Krogh|first3=Anders S.|first2=Richard G.|last2=Palmer|year=1991|publisher=Addison-Wesley |isbn=0201515601|oclc=21522159}}</ref> {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/32179420|title=Introduction to neural networks : design, theory and applications|last=Lawrence|first=Jeanette|year=1994|publisher=California Scientific Software|isbn=1883157005|oclc=32179420}} {{ref-en}}
* {{Cite book|title=Information theory, inference, and learning algorithms|publisher=Cambridge University Press|isbn=9780521642989|oclc=52377690}} {{ref-en}}
* {{cite book| last=MacKay | first=David, J.C.| authorlink=Девід МакКей|year=2003|publisher=[[Cambridge University Press]]| isbn=9780521642989|url=http://www.inference.phy.cam.ac.uk/itprnn/book.pdf|title=Information Theory, Inference, and Learning Algorithms|ref=harv}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/29877717|title=Signal and image processing with neural networks : a C++ sourcebook|first=Timothy|last=Masters,|year=1994|publisher=J. Wiley|isbn=0471049638|oclc=29877717}} {{ref-en}}
* {{cite book|url={{google books |plainurl=y |id=m12UR8QmLqoC}}|title=Pattern Recognition and Neural Networks|last=Ripley|first=Brian D.|authorlink=Браян Ріплі|publisher=Cambridge University Press|year=2007|isbn=978-0-521-71770-0}} {{ref-en}}
* {{cite journal|last1=Siegelmann |first1=H.T. |first2=Eduardo D.|last2=Sontag|year=1994|title=Analog computation via neural networks |journal=Theoretical Computer Science |volume= 131 |issue= 2 |pp=331–360|url=https://pdfs.semanticscholar.org/861e/de32115d157e1568622b153e7ed3dca28467.pdf |doi=10.1016/0304-3975(94)90178-3}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/27145760|title=Neural networks for statistical modeling|last=1944-|first=Smith, Murray,|date=1993|publisher=Van Nostrand Reinhold|isbn=0442013108|oclc=27145760}}</ref> Smith, Murray (1993) ''Neural Networks for Statistical Modeling'', Van Nostrand Reinhold, {{ISBN|0-442-01310-8}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/27429729|title=Advanced methods in neural computing|last=Wasserman |first=Philip D.|year=1993|publisher=Van Nostrand Reinhold|isbn=0442004613|oclc=27429729}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/837524179|title=Computational intelligence : a methodological introduction|first1=Rudolf,|last=Kruse|first2=Christian|last2=Borgelt|first3=F.|last3=Klawonn|first4=Christian|last4=Moewes|first5=Matthias|last5=Steinbrecher|first6=Pascal|last6=Held,|year=2013|publisher=Springer|isbn=9781447150121|oclc=837524179}} {{ref-en}}
* {{Cite book|url=https://www.worldcat.org/oclc/76538146|title=Neuro-Fuzzy-Systeme : von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen|first=Christian|last=Borgelt,|year=2003|publisher=Vieweg|isbn=9783528252656|oclc=76538146}} {{ref-de}}


== Посилання ==
== Посилання ==
=== Укр. мовою ===
=== Українською ===
* [http://www.victoria.lviv.ua/html/neural_nets/zmist.htm Курс Лекцій «Штучні нейронні мережі»]
* [http://www.victoria.lviv.ua/html/wosserman/index.htm Книга Ф.Уосермена «Нейрокомп'ютерна техніка: Теорія і практика»]
* [http://www.victoria.lviv.ua/html/wosserman/index.htm книга Ф.Уосермена «Нейрокомп'ютерна техніка: Теорія і практика»]


=== Англ. мовою ===
=== Англійською ===
* [http://tunedit.org/results?e=&d=UCI%2F&a=neural+rbf+perceptron&n= Performance comparison of neural network algorithms tested on UCI data sets]
* [http://tunedit.org/results?e=&d=UCI%2F&a=neural+rbf+perceptron&n= Performance comparison of neural network algorithms tested on UCI data sets]
* [http://www.learnartificialneuralnetworks.com A close view to Artificial Neural Networks Algorithms]
* [http://www.learnartificialneuralnetworks.com A close view to Artificial Neural Networks Algorithms]
Рядок 164: Рядок 617:
* [http://www.ai-junkie.com/ann/evolved/nnt1.html A practical tutorial on Neural Networks]
* [http://www.ai-junkie.com/ann/evolved/nnt1.html A practical tutorial on Neural Networks]
* [http://www.peltarion.com/doc/index.php?title=Applications_of_adaptive_systems Applications of neural networks]
* [http://www.peltarion.com/doc/index.php?title=Applications_of_adaptive_systems Applications of neural networks]
* [http://deeplearning4j.org/neuralnet-overview.html An Introduction to Deep Neural Networks].
* [http://people.revoledu.com/kardi/tutorial/NeuralNetwork/index.html A Tutorial of Neural Network in Excel].
* {{youtube|id=q0pm3BrIUFo |title=MIT course on Neural Networks }}
* [https://www.academia.edu/25708860/A_Concise_Introduction_to_Machine_Learning_with_Artificial_Neural_Networks A Concise Introduction to Machine Learning with Artificial Neural Networks]
* [https://www.coursera.org/course/neuralnets Neural Networks for Machine Learning - a course by Geoffrey Hinton]
* [http://www.deeplearningbook.org/ Deep Learning]
* [http://ann.thwien.de Artificial Neural Network for PHP 5.x]
* [http://neuralmarkets.blogspot.com Forecasting Financial Markests using Artificial Neural Networks]


=== Рос. мовою ===
=== Російською ===
* [http://ann.thwien.de Artificial Neural Network for PHP 5.x — проект по разработке нейронных сетей на языке программирования PHP 5.X]
* [http://neurolectures.narod.ru Лекции по нейроинформатике]
* [http://neurolectures.narod.ru Лекции по нейроинформатике]
* [http://neuroproject.ru/forum Форум, посвященный Нейронным Сетям и Генетическим Алгоритмам]
* [http://www.basegroup.ru/forum/tech/category/neuralnets/ Форум по нейросетям на BaseGroup Labs]
* [http://www.basegroup.ru/forum/tech/category/neuralnets/ Форум по нейросетям на BaseGroup Labs]
* [http://www.basegroup.ru/library/analysis/neural/ Описание нейросетевых алгоритмов]
* [http://www.basegroup.ru/library/analysis/neural/ Описание нейросетевых алгоритмов]
* [http://www.softcraft.ru/neuro/ni/p00.shtml Миркес Е. М., Нейроинформатика: Учеб. пособие для студентов с программами для выполнения лабораторных работ.]
* [http://www.softcraft.ru/neuro/ni/p00/ Миркес Е. М., Нейроинформатика: Учеб. пособие для студентов с программами для выполнения лабораторных работ.]
* [http://neuralmarkets.blogspot.com Forecasting Financial Markests using Artificial Neural Networks]
* [http://chipnews.gaw.ru/html.cgi/arhiv/01_08/1.htm Пошаговые примеры реализации наиболее известных типов нейронных сетей на MATLAB, Neural Network Toolbox]
* [http://chipnews.gaw.ru/html.cgi/arhiv/01_08/1.htm Пошаговые примеры реализации наиболее известных типов нейронных сетей на MATLAB, Neural Network Toolbox]
* [http://www.intuit.ru/department/ds/neuronnets/ Лекции по нейронным сетям]
* [http://www.intuit.ru/department/ds/neuronnets/ Лекции по нейронным сетям]
* [http://neuro.net.ua Подборка материалов по нейронным сетям и интеллектуальному анализу]
* [http://csit.narod.ru Компьютерное моделирование и интеллектуальные системы: нейронные сети, нечеткая логика]
* [http://archive.is/20121225034359/www.gafourov.narod.ru/WAR-R.HTM Статья противника применения нейронных сетей в прогнозировании цен на акции]
* [http://archive.is/20121225034359/www.gafourov.narod.ru/WAR-R.HTM Статья противника применения нейронных сетей в прогнозировании цен на акции]
* [http://www.gotai.net/documents-neural_networks.aspx Подборка статей по нейронным сетям]
* [http://www.gotai.net/documents-neural_networks.aspx Подборка статей по нейронным сетям]
* [http://www.brain-lab.org Программные проекты с использованием нейросетей]
* [http://www.realme.ru/2008/06/17/iskustvennaja-nejjronnaja-set-primer/ Простой пример сети, с комментариями. Написан на php.]
* [http://www.artint.com.ua/index_a.htm Статьи о применении нейросетей в задачах идентификации и прогнозировании ]
* [http://alife.narod.ru/ Лекции по нейроинформатике и смежным вопросам обучения машин]
* [http://alife.narod.ru/ Лекции по нейроинформатике и смежным вопросам обучения машин]
* [http://www.neuropro.ru/memo17.shtml О приоритете авторства в вопросе пригодности любой нелинейной функции нейрона для возможности представления нейросетью любой функции многих переменных]
* [http://www.neuropro.ru/memo17.shtml О приоритете авторства в вопросе пригодности любой нелинейной функции нейрона для возможности представления нейросетью любой функции многих переменных]
* [http://freestee.ru/index.php/programming/neuralnetworks/10-matlabgreenwave Пример нейросети в MatLab]
* [http://ru.akinator.com/ Реализация ИНС в виде программы, угадывающей задуманного персонажа]



{{Перекласти|en|Artificial neural network}}
{{AI-stub}}


{{Штучний інтелект}}
{{Штучний інтелект}}

Версія за 00:40, 13 січня 2018

Штучна нейронна мережа — це взаємозв'язана мережа вузлів, уподібнена до безкрайої мережі нейронів у головному мозку. Тут кожним круговим вузлом представлено штучний нейрон, а стрілкою — з'єднання виходу одного штучного нейрону зі входом іншого.

Шту́чні нейро́нні мере́жі (ШНМ, англ. artificial neural networks, ANN), або конективістські системи (англ. connectionist systems) — це обчислювальні системи, натхнені біологічними нейронними мережами, що складають мозок тварин. Такі системи навчаються задач (поступально покращують свою продуктивність на них), розглядаючи приклади, загалом без спеціального програмування під задачу. Наприклад, у розпізнаванні зображень вони можуть навчатися ідентифікувати зображення, які містять котів, аналізуючи приклади зображень, мічені[en] як «кіт» і «не кіт», і використовуючи результати для ідентифікування котів в інших зображеннях. Вони роблять це без жодного апріорного знання про котів, наприклад, що вони мають хутро, хвости, вуса та котоподібні писки. Натомість, вони розвивають свій власний набір доречних характеристик з навчального матеріалу, який вони оброблюють.

ШНМ ґрунтується на сукупності з'єднаних вузлів, що називають штучними нейронами (аналогічно до біологічних нейронів у головному мозку тварин). Кожне з'єднання (аналогічне синапсові) між штучними нейронами може передавати сигнал від одного до іншого. Штучний нейрон, що отримує сигнал, може обробляти його, й потім сигналізувати штучним нейронам, приєднаним до нього.

В поширених реалізаціях ШНМ сигнал на з'єднанні між штучними нейронами є дійсним числом, а вихід кожного штучного нейрону обчислюється нелінійною функцією суми його входів. Штучні нейрони та з'єднання зазвичай мають вагу[en], яка підлаштовується в перебігу навчання. Вага збільшує або зменшує силу сигналу на з'єднанні. Штучні нейрони можуть мати такий поріг, що сигнал надсилається лише якщо сукупний сигнал перетинає цей поріг. Штучні нейрони зазвичай організовано в шари. Різні шари можуть виконувати різні види перетворень своїх входів. Сигнали проходять від першого (входового) до останнього (виходового) шару, можливо, після проходження шарами декілька разів.

Первинною метою підходу ШНМ було розв'язання задач таким же способом, як це робив би людський мозок. З часом увага зосередилася на відповідності певним розумовим здібностям, ведучи до відхилень від біології. ШНМ використовували в ряді різноманітних задач, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, соціально-мережевим фільтруванням, грою в настількі та відеоігри, та медичним діагностуванням.

Історія

Воррен Маккалох та Уолтер Піттс[en][1] (1943) створили обчислювальну модель для нейронних мереж на основі математики та алгоритмів, названою пороговою логікою. Ця модель проклала шлях до поділу досліджень нейронних мереж на два підходи. Один підхід зосереджується на біологічних процесах у мозку, тоді як інший зосереджується на застосуванні нейронних мереж до штучного інтелекту. Ця праця привела до роботи над мережами нервів та їхнього зв'язку зі скінченними автоматами.[2]

Геббове навчання

Наприкінці 1940-х років Дональд Гебб[3] створив гіпотезу навчання, засновану на механізмі нейропластичності, яка стала відомою як геббове навчання. Геббове навчання є спонтанним навчанням. Воно розвинулося в моделі довготривалого потенціювання. Дослідники почали застосовувати ці ідеї до обчислювальних моделей 1948 року в машинах Тюрінга типу B[en].

Фарлі та Кларк[en][4] (1954) вперше використали обчислювальні машини, звані тоді «калькуляторами» (англ. calculators), щоби відтворити геббову мережу. Інші нейромережеві обчислювальні машини було створено Рочестером[en], Голландом, Гебітом та Дудою (1956).[5]

Розенблат[6] (1958) створив перцептрон, алгоритм для розпізнавання образів. За допомогою математичного запису Розенблат описав схему не примітивного перцептрону, таку як схема виключного «або», яке в той час обробляти нейронними мережами було неможливо.[7]

1959 року біологічну модель, запропоновану нобелівськими лауреатами Г'юбелем та Візелем, було засновано на їхньому відкритті двох типів клітин у первинній зоровій корі: простих клітин[en] та складних клітин[en].[8]

Перші працездатні мережі з багатьма шарами було опубліковано Івахненком та Лапою 1965 року, вони стали методом групового урахування аргументів.[9][10][11]

Дослідження нейронних мереж зазнало застою після дослідження машинного навчання Мінського та Пейперта (1969),[12] які відкрили дві ключові проблеми з обчислювальними машинами, що обробляли нейронні мережі. Першою було те, що базові перцептрони були нездатні обробляти схему виключного «або». Другою було те, що комп'ютери не мали достатньої обчислювальної потужності для ефективного виконання роботи, потрібної великим нейронним мережам. Дослідження нейронних мереж уповільнилося, поки комп'ютери не досягли набагато більшої обчислювальної потужності.

Значну частину штучного інтелекту було зосереджено на оброблюваних алгоритмами високорівневих (символьних) моделях, які характеризують, наприклад, експертні системи зі знаннями, втіленими в правилах «якщо — то», поки наприкінці 1980-х років дослідження не поширилися на низькорівневе (суб-символьне) машинне навчання, що характеризується втіленням знання в параметрах пізнавальної моделі[en].[джерело?]

Зворотне поширення

Ключовим активатором відновлення зацікавленості нейронними мережами та навчанням був алгоритм зворотного поширення Вербоса[en] (1975), який ефективно розв'язував проблему виключного «або», і загалом прискорив навчання багатошарових мереж. Зворотне поширення розповсюджувало член похибки шарами в зворотному напрямку, змінюючи ваги в кожному вузлі.[7]

В середині 1980-х років набула популярності розподілена паралельна обробка під назвою конективізму. Румельхарт[en] та МакКлелланд (1986) описали застосування конективізму для моделювання нейронних процесів.[13]

Метод опорних векторів та інші, значно простіші методи, такі як лінійні класифікатори, поступово наздогнали нейронні мережі за популярністю в машинному навчанні.

Попередні виклики в тренуванні глибинних нейронних мереж було успішно розв'язано за допомогою таких методів, як спонтанне попереднє тренування, в той час як доступна обчислювальна потужність зросла через застосування ГП та розподілених обчислень. Нейронні мережі було розгорнуто в великому масштабі, зокрема, в задачах розпізнавання зображень та відео. Це стало відомим як «глибинне навчання», хоча глибинне навчання не є строго синонімічним до глибинних нейронних мереж.

1992 року було представлено максимізаційне агрегування, щоби допомогти з інваріантністю відносно найменшого зсуву та терпимістю до деформації для допомоги в розпізнаванні тривимірних об'єктів.[14][15][16]

Проблема зникання градієнту впливає на багатошарові мережі прямого поширення, які використовують зворотне поширення, а також на рекурентні нейронні мережі (РНМ).[17][18] З поширенням похибок від шару до шару, вони скорочуються експоненційно з кількістю шарів, стримуючи налаштування ваг нейронів, яке ґрунтується на цих похибках, й особливо вражаючи глибинні мережі.

Щоби подолати цю проблему, Шмідгубер обрав багатошарову ієрархію мереж (1992), попередньо тренованих по одному шарові за раз за допомогою спонтанного навчання, а потім тонко налаштовуваних зворотним поширенням.[19] Бенке (2003) в таких задачах, як відбудова зображень та визначення положень облич, покладався лише на знак градієнту (еластичне зворотне поширення[en]).[20]

Хінтон та ін. (2006) запропонували навчання високорівневих представлень із застосуванням послідовних шарів двійкових або дійснозначних латентних змінних з обмеженою машиною Больцмана[21] для моделювання кожного шару. Щойно навчено достатньо багато шарів, можна застосовувати глибинну архітектуру як породжувальну модель, відтворюючи дані здійсненням вибірки моделлю донизу («спадковий прохід») від збудження ознак верхнього рівня.[22][23] 2012 року Ин та Дін створили мережу, яка вчилася розпізнавати високорівневі поняття, такі як коти, лише з перегляду немічених зображень, взятих з відео YouTube.[24]

Апаратні конструкції

Було створювано обчислювальні пристрої в КМОН, як для біофізичного моделювання, так і для нейроморфних обчислень. Нанопристрої[25] для надвеликомасштабного аналізу головних компонент та згортки можуть утворити новий клас нейронних обчислень, оскільки вони є фундаментально аналоговими, а не цифровими (хоча перші втілення й можуть використовувати цифрові пристрої).[26] Чирешан з колегами (2010)[27] з групи Шмідгубера показали, що, незважаючи на проблему зникання градієнту, ГП роблять зворотне поширення придатним для багатошарових нейронних мереж прямого поширення.

Змагання

В період з 2009 по 2012 рік рекурентні нейронні мережі та глибинні нейронні мережі прямого поширення, розроблені в дослідницькій групі Шмідгубера, виграли вісім міжнародних змагань з розпізнавання образів та машинного навчання.[28][29] Наприклад, двоспрямована та багатовимірна довга короткочасна пам'ять (ДКЧП, англ. long short-term memory, LSTM)[30][31][32][33] Ґрейвса[en] та ін. виграла три змагання з розпізнаванні неперервного рукописного тексту на Міжнародній конференції з аналізу та розпізнавання документів[en] (англ. ICDAR) 2009 року без жодного попереднього знання про три мови, яких було потрібно навчитися.[32][31]

Чирешан з колегами виграли змагання з розпізнавання образів, включно зі Змаганням з розпізнавання дорожніх знаків IJCNN 2011 року,[34] Змаганням із сегментування нейронних структур у стеках електронної мікроскопії ISBI 2012 року[35] та іншими. Їхні нейронні мережі були першими, що досягли порівняної з людською, або навіть надлюдської продуктивності[36] на таких еталонах, як розпізнавання дорожніх знаків (IJCNN 2012) та задача рукописних цифр MNIST.

Дослідники показали (2010), що глибинні нейронні мережі, з'єднані з прихованою марковською моделлю з контекстно-залежними станами, які визначають шар виходу нейронної мережі, можуть докорінно знижувати похибки в задачах великословникового розпізнавання мовлення, таких як голосовий пошук.

Втілення цього підходу на основі ГП[37] виграли багато змагань з розпізнавання образів, включно зі Змаганням з розпізнавання дорожніх знаків IJCNN 2011 року,[34] Змаганням із сегментування нейронних структур в ЕМ-стеках ISBI 2012 року,[38] змаганням ImageNet[en][39] та іншими.

Глибинні, високонелінійні нейронні архітектури, подібні до неокогнітрону[40] та «стандартної архітектури бачення»,[41] натхнені простими[en] та складними клітинами[en], було попередньо треновано спонтанними методами Хінтоном.[42][22] Команда з його лабораторії виграла змагання 2012 року, спонсороване компанією Merck, для розробки програмного забезпечення для допомоги в пошуку молекул, які можуть ідентифікувати нові ліки.[43]

Згорткові мережі

Починаючи з 2011 року, передовою в мережах прямого поширення глибинного навчання була почерговість згорткових шарів та шарів максимізаційного агрегування,[37][44] увінчаних декількома повно- або частково зв'язаними шарами, за якими йде рівень остаточної класифікації. Навчання зазвичай виконується без спонтанного попереднього навчання.

Такі керовані методи глибинного навчання були першими, що досягли в певних задачах продуктивності, порівняної з людською.[36]

ШНМ змогли гарантувати інваріантність до зсуву, щоби обходитися з маленькими та великими природними об'єктами у великих загромаджених сценах, лише коли інваріантність поширилася за межі зсуву, на всі навчені ШНМ поняття, такі як розташування, тип (мітка класу об'єкта), масштаб, освітлення та інші. Це було реалізовано в еволюційних мережах (ЕМ, англ. Developmental Networks, DN),[45] чиїми втіленнями є мережі «де—що» (англ. Where-What Networks), від WWN-1 (2008)[46] до WWN-7 (2013).[47]

Моделі

(Штучна) нейронна мережа — це мережа простих елементів, званих нейронами, які отримують вхід, змінюють свій внутрішній стан (збудження) відповідно до цього входу, і виробляють вихід, залежний від входу та збудження. Мережа утворюється з'єднанням виходів певних нейронів зі входами інших нейронів з утворенням орієнтованого зваженого графу. Ваги, як і функції, що обчислюють збудження, можуть змінюватися процесом, званим навчанням, який керується правилом навчання.[48]

Складові штучної нейронної мережі

Нейрони

Нейрон з міткою , що отримує вхід від нейронів-попередників, складається з наступних складових:[48]

  • збудження (англ. activation) , що залежить від дискретного параметра часу,
  • можливо, порогу (англ. threshold) , що залишається незмінним, якщо його не змінить функція навчання,
  • функції збудження (англ. activation function) , яка обчислює нове збудження в заданий час з , та мережевого входу , даючи в результаті відношення
,
  • та функції виходу (англ. output function) , яка обчислює вихід з активації
.

Функція виходу часто є просто тотожною функцією.

Нейрон входу (англ. input neuron) не має попередників, а слугує інтерфейсом входу для всієї мережі. Аналогічно, нейрон виходу (англ. output neuron) не має наступників, і відтак слугує інтерфейсом виходу для всієї мережі.

З'єднання та ваги

Мережа (англ. network) складається зі з'єднань (англ. connection), кожне з яких передає вихід нейрону до входу нейрону . В цьому сенсі є попередником (англ. predecessor) , а є наступником (англ. successor) . Кожному з'єднанню призначено вагу (англ. weight) .[48]

Функція поширення

Функція поширення (англ. propagation function) обчислює вхід до нейрону з виходів нейронів-попередників, і зазвичай має вигляд[48]

.

Правило навчання

Правило навчання (англ. learning rule) — це правило або алгоритм, який змінює параметри нейронної мережі, щоби заданий вхід до мережі видавав придатний вихід. Цей процес навчання зазвичай полягає в зміні ваг та порогів змінних мережі.[48]

Нейронні мережі як функції

Див. також: Графічні моделі

Нейромережеві моделі можна розглядати як прості математичні моделі, що визначають функцію , або розподіл над , або над та . Іноді моделі тісно пов'язують з певним правилом навчання. Поширене використання фрази «модель ШНМ» насправді є визначенням класу таких функцій (де членів цього класу отримують варіюванням параметрів, ваг з'єднань, або особливостей архітектури, таких як число нейронів або їхня зв'язність).

З математичної точки зору, нейромережеву функцію визначають як композицію інших функцій , які може бути розкладено далі на інші функції. Це може бути зручно представляти як мережеву структуру, де стрілки зображують залежність між функціями. Широко вживаним способом компонування є нелінійна зважена сума, де , де (що часто називають функцією збудження, англ. activation function[49]) є визначеною наперед функцією, такою як гіперболічний тангенс, або сигмоїдна функція, або нормалізована експоненційна функція[en], або випрямляльна функція[en]. Важливою характеристикою функції збудження є те, що вона забезпечує плавний перехід при зміні значень входу, тобто, невелика зміна входу призводить до невеликої зміни виходу. Наведене нижче розглядає набір функцій як вектор .

Граф залежностей ШНМ

Ця схема зображує такий розклад , із залежностями між змінними, показаними стрілками. Їх може бути інтерпретовано двома способами.

Перший погляд є функційним: вхід перетворювано на 3-вимірний вектор , який відтак перетворювано на 2-вимірний вектор , який нарешті перетворювано на . Цей погляд найчастіше зустрічається в контексті оптимізації.

Другий погляд є ймовірнісним: випадкова змінна залежить від випадкової змінної , яка залежить від , яка залежить від випадкової змінної . Цей погляд найчастіше зустрічається в контексті графічних моделей.

Ці два погляди є здебільшого рівнозначними. В кожному з випадків, для цієї конкретної архітектури, складові окремих шарів не залежать одна від одної (наприклад, складові є незалежними одна від одної за заданого їхнього входу ). Це природно уможливлює якусь міру паралелізму в реалізації.

Два окремі зображення графу залежностей рекурентної ШНМ

Такі мережі, як попередня, зазвичай називають мережами прямого поширення, оскільки їхній граф є орієнтованим ациклічним графом. Мережі з циклами зазвичай називають рекурентними. Такі мережі зазвичай зображують у спосіб, показаний у верхній частині малюнка, де показано як залежну від самої себе. Проте, не показано часову залежність, що мається на увазі.

Навчання

Найбільше зацікавлення нейронними мережами викликала можливість навчання. Для заданої конкретної задачі для розв'язання та класу функцій навчання означає використання набору спостережень для знаходження , яка розв'язує цю задачу в певному оптимальному сенсі.

Це тягне за собою визначення такої функції витрат (англ. cost function) , що, для оптимального розв'язку ,  — тобто, жоден розв'язок не має витрат, менших за витрати оптимального розв'язку (див. математичну оптимізацію).

Функція витрат є важливим поняттям у навчанні, оскільки вона є мірою того, наскільки далеким є певний розв'язок від оптимального розв'язку задачі, яку потрібно розв'язати. Алгоритми навчання здійснюють пошук простором розв'язків, щоби знайти функцію, яка має найменші можливі витрати.

Для тих застосувань, де розв'язок залежить від даних, витрати обов'язково мусять бути функцією від спостережень, бо інакше модель не матиме зв'язку з даними. Їх часто визначають як статистику, для якої може бути зроблено лише наближення. Як простий приклад, розгляньмо задачу знаходження моделі , яка зводить до мінімуму для пар даних , що витягають з певного розподілу . В практичних ситуаціях ми матимемо лише зразків з , і, відтак, для наведеного вище прикладу ми будемо зводити до мінімуму лише . Таким чином, витрати зводяться до мінімуму над вибіркою з даних, а не над усім розподілом.

Коли , мусить застосовуватися якийсь різновид інтерактивного машинного навчання, в якому витрати знижуються з кожним побаченим зразком. І хоча інтерактивне машинне навчання часто застосовують за незмінного , найкориснішим воно є у випадку, коли цей розподіл повільно змінюється з часом. В нейромережевих методах якісь різновиди інтерактивного машинного навчання часто застосовують для скінченних наборів даних.

Обирання функції витрат

Навіть коли можливо визначити функцію витрат ad hoc, часто використовують конкретні витрати (функцію витрат), або через те, що вони мають бажані властивості (такі як опуклість), або через те, що вони природно виникають з певного формулювання задачі (наприклад, у ймовірнісному формулюванні як обернені витрати можна використовувати апостеріорну ймовірність моделі). Кінець кінцем, функція витрат залежить від задачі.

Зворотне поширення

ГНМ може бути треновано розрізнювально за допомогою стандартного алгоритму зворотного поширення (англ. backpropagation). Зворотне поширення — це метод обчислення градієнту функції втрат (видає витрати, пов'язані з заданим станом) по відношенню до ваг в ШНМ.

Основи неперервного зворотного поширення[9][50][51][52] було виведено в контексті теорії керування Келлі[en][53] 1960 року та Брайсоном[en] 1961 року[54] з використанням принципів динамічного програмування. 1962 року Дрейфус[en] опублікував простіше виведення, засноване лише на ланцюговому правилі.[55] Брайсон та Хо[en] описали його як метод багатоетапної оптимізації динамічних систем 1969 року.[56][57] 1970 року Ліннаінмаа[en] остаточно опублікував загальний метод автоматичного диференціювання (АД) дискретних зв'язних мереж вкладених диференційовних функцій.[58][59] Він відповідає сучасному баченню зворотного поширення, яке є ефективним навіть коли мережі є розрідженими.[9][50][60][61] 1973 року Дрейфус застосував зворотне поширення для пристосування параметрів контролерів пропорційно градієнтам похибок.[62] 1974 року Вербос[en] зазначив можливість застосування цього принципу до ШНМ,[63] і 1982 року він застосував метод АД Ліннаінмаа до нейронних мереж способом, який широко застосовується сьогодні.[50][64] 1986 року Румельхарт[en], Хінтон та Вільямс[en] зазначили, що цей метод може породжувати корисні внутрішні представлення вхідних даних в прихованих шарах нейронних мереж.[65] 1993 року Ван став першим[9] переможцем міжнародного змагання з розпізнавання образів за допомогою зворотного поширення.[66]

Уточнення ваг зворотного поширення можливо здійснювати за допомогою стохастичного градієнтного спуску із застосуванням наступного рівняння:

де є темпом навчання, є функцією витрат (втрат), а  — стохастичним членом. Вибір функції витрат залежить від таких чинників як тип навчання (кероване, спонтанне, з підкріпленням тощо) та функції збудження. Наприклад, при здійсненні керованого навчання на задачі багатокласової класифікації[en] поширеними варіантами вибору функції збудження та функції витрат є нормалізована експоненційна функція[en] та функція перехресної ентропії відповідно. Нормалізовану експоненційну функцію визначають як , де представляє ймовірність класу (вихід вузла ), а та представляють загальний вхідний сигнал вузлів та одного й того ж рівня відповідно. Перехресну ентропію визначають як , де представляє цільову ймовірність для вузла виходу , а є виходом ймовірності для після застосування функції збудження.[67]

Це можливо використовувати для виведення обмежувальних коробок об'єкта у вигляді двійкової маски. Їх також використовують для багатомасштабної регресії для підвищення точності визначення положення. Регресія на основі ГНМ може навчатися ознак, що схоплюють геометричну інформацію, на додачу до того, що вони слугують добрим класифікатором. Вони усувають вимогу явного моделювання частин та їхніх взаємозв'язків. Це допомагає розширити розмаїття об'єктів, яких можна навчитися. Модель складається з декількох шарів, кожен з яких має випрямляльний лінійний вузол як функцію збудження для нелінійного перетворення. Деякі шари є згортковими, тоді як деякі є повнозв'язними. Кожен згортковий шар має додаткове максимізаційне агрегування. Мережу тренують для зведення до мінімуму похибки L2 для передбачування маски, що пробігає весь тренувальний набір, що містить обмежувальні коробки, представлені як маски.

До альтернатив зворотному поширенню належать машини екстремального навчання,[68] «безпоширні» (англ. «No-prop») мережі,[69] тренування без пошуку з вертанням,[70] «безвагові» (англ. weightless) мережі[71][72] та не-конективістські нейронні мережі[en].

Парадигми навчання

Існує три основні парадигми навчання, кожна з яких відповідає певній навчальній задачі. Ними є кероване навчання, спонтанне навчання та навчання з підкріпленням.

Кероване навчання

Кероване навчання (англ. supervised learning) використовує набір прикладів пар , і має на меті пошук функції в дозволеному класі функцій, яка відповідає цим прикладам. Іншими словами, ми хочемо вивести відображення, на яке натякають ці дані; функцію витрат пов'язано з невідповідністю між нашим відображенням та даними, і вона неявно містить апріорне знання про предметну область.[73]

Широко вживаними витратами є середньоквадратична похибка, яка намагається звести до мінімуму усереднену квадратичну похибку між виходом мережі, , та цільовим значення над усіма прикладами пар. Зведення до мінімуму цих витрат за допомогою градієнтного спуску для класу нейронних мереж, званого багатошаровими перцептронами (БШП), дає алгоритм зворотного поширення для тренування нейронних мереж.

Задачами, що вписуються до парадигми керованого навчання, є розпізнавання образів (відоме також як класифікація) та регресія (відома також як наближення функцій). Парадигма керованого навчання є застосовною також і до послідовнісних даних (наприклад, до розпізнавання писання вручну, мовлення та жестів). Його можна розглядати як навчання з «учителем» у вигляді функції, яка забезпечує постійний зворотний зв'язок стосовно якості отриманих досі розв'язків.

Спонтанне навчання

У спонтанному навчанні (англ. unsupervised learning) даються якісь дані та функція витрат для зведення до мінімуму, якою може бути будь-яка функція від даних та виходу мережі .

Функція витрат залежить від задачі (предметної області моделі) та наявних апріорних припущень (неявних властивостей моделі, її параметрів, та спостережуваних змінних).

Як тривіальний приклад, розгляньмо модель , де є сталою, а витрати . Зведення до мінімуму цих витрат дає значення , яке дорівнює середньому значенню даних. Функція витрат може бути набагато складнішою. Її вигляд залежить від застосування: наприклад, у стисненні її може бути пов'язано зі взаємною інформацією між та , тоді як у статистичному моделюванні її може бути пов'язано з апостеріорною ймовірністю моделі за заданих даних (зауважте, що в обох цих прикладах ці величини зводитимуться до максимуму, а не до мінімуму).

Задачі, що вписуються до парадигми спонтанного навчання, є загалом задачами оцінювання; до застосувань належать кластерування, оцінювання статистичних розподілів, стиснення та фільтрування.

Навчання з підкріпленням

У навчанні з підкріпленням (англ. reinforcement learning) дані зазвичай не надаються, а породжуються взаємодією агента з середовищем. В кожен момент часу агент виконує дію , а середовище породжує спостереження та миттєві витрати відповідно до якоїсь (зазвичай невідомої) динаміки. Метою є визначити таку стратегію (англ. policy) вибору дій, яка зводить до мінімуму якусь міру довготривалих витрат, наприклад, очікувані сукупні витрати. Динаміка середовища та довготривалі витрати для кожної зі стратегій є зазвичай невідомими, але їх може бути оцінено.

Формальніше, середовище моделюють як марковський процес вирішування (МПВ) зі станами та діями з наступними розподілами ймовірності: розподілом миттєвих витрат , розподілом спостережень та переходом , тоді як стратегію визначають як умовний розподіл над діями за заданих спостережень. Взята разом, ця двійка відтак утворює марковський ланцюг (МЛ). Метою є визначити таку стратегію (тобто, МЛ), що зводить витрати до мінімуму.

ШНМ часто використовують у навчанні з підкріпленням як частину загального алгоритму.[74][75] Динамічне програмування було зв'язано з ШНМ (давши нейродинамічне програмування) Берцекасом[en] та Цициклісом[en][76] і застосовано до багатовимірних нелінійних задач, таких як присутні в маршрутизувані транспорту[en],[77] природокористуванні[78][79] та медицині,[80] через здатність ШНМ пом'якшувати втрати точності навіть при зниженні щільності ґратки дискретизації для чисельного наближення розв'язків первинних задач керування.

Задачами, які вписуються до парадигми навчання з підкріпленням, є задачі керування, ігри та інші задачі послідовного ухвалювання рішень.

Алгоритм збіжного рекурсивного навчання

Алгоритм збіжного рекурсивного навчання (англ. convergent recursive learning algorithm) — метод навчання, розроблений спеціально для нейронних мереж артикуляційних контролерів мозочкової моделі[en] (АКММ, англ. cerebellar model articulation controller, CMAC). 2004 року було представлено рекурсивний алгоритм найменших квадратів для інтерактивного тренування нейронної мережі АКММ[en].[81] Цей алгоритм може збігатися за один крок та уточнювати всі ваги за один крок із будь-якими новими вхідними даними. Початково він мав обчислювальну складність O(N3). На основі QR-розкладу цей рекурсивний алгоритм навчання було спрощено до O(N).[82]

Алгоритми навчання

Тренування нейронної мережі по суті означає вибирання однієї моделі з множини дозволених моделей (або, в баєсовій системі, визначення розподілу над множиною дозволених моделей), що зводить витрати до мінімуму. Доступні численні алгоритми для тренування нейромережевих моделей; більшість із них можна розглядати як безпосереднє застосування теорії оптимізації та статистичного оцінювання.

Більшість використовують градієнтний спуск якогось вигляду, застосовуючи зворотне поширення для обчислення фактичних градієнтів. Це здійснюється просто взяттям похідної від функції витрат по відношенню до параметрів мережі, з наступною зміною цих параметрів у пов'язаному з градієнтом[en] напрямку. Алгоритми тренування зворотним поширенням поділяються на три категорії:

Іншими методами для тренування нейронних мереж є еволюційні методи,[84] генно-експресійне програмування[en],[85] імітування відпалювання,[86] очікування-максимізація, непараметричні методи[en] та метод рою часток.[87]

Варіанти

Метод групового урахування аргументів

Метод групового урахування аргументів (МГУА, англ. Group Method of Data Handling, GMDH)[88] демонструє повністю автоматичну структурну та параметричну оптимізацію моделей. Функціями збудження вузлів є поліноми Колмогорова — Габора, що дозволяють додавання та множення. Він використовує глибинний багатошаровий перцептрон прямого поширення з вісьмома шарами.[89] Він є мережею керованого навчання, що росте шар за шаром, де кожен з шарів треновано регресійним аналізом. Непотрібні елементи виявляються застосуванням затверджувального набору[en] та обрізаються щляхом регуляризації. Розмір та глибина отримуваної в результаті мережі залежить від задачі.[90]

Згорткові нейронні мережі

Згорткова нейронна мережа (ЗНМ, англ. convolutional neural network, CNN) — це клас глибинних мереж прямого поширення, складених з одного чи більше згорткових шарів, із повноз'єднаними шарами (що відповідають шарам звичайних ШНМ) на верхівці. Він використовує зв'язані ваги та шари агрегування. Зокрема, за згортковою архітектурою Фукусіми[91] часто зорганізовують максимізаційне агрегування.[15] Ця архітектура дозволяє ЗНМ отримувати користь від двовимірної структури вхідних даних.

ЗНМ є зручними для обробки візуальних та інших двовимірних даних.[92][93] Вони показали чудові результати в застосуваннях як для зображень, так і для мовлення. Їх може бути треновано стандартним зворотним поширенням. ЗНМ є простішими для тренування за інші звичайні глибинні нейронні мережі прямого поширення, і мають набагато менше параметрів, що треба оцінювати.[94] До прикладів застосування в комп'ютерному баченні належить DeepDream[en].[95]

Довга короткочасна пам'ять

Мережі довгої короткочасної пам'яті (ДКЧП, англ. long short-term memory, LSTM) — це РНМ, які уникають проблеми зникання градієнту.[96] ДКЧП зазвичай доповнювано рекурентними вентилями, які називають забувальними (англ. forget gates).[97] Мережі ДКЧП попереджають зникання та вибухання зворотно поширюваних похибок.[17] Натомість, похибки можуть плинути в зворотному напрямку необмеженим числом віртуальних шарів розгорнутої в просторі ДКЧП. Таким чином, ДКЧП може вчитися задач «дуже глибокого навчання» (англ. "very deep learning"),[9] що потребують спогадів про події, які сталися тисячі або навіть мільйони дискретних кроків часу тому. Можливо виводити проблемно-орієнтовані ДКЧП-подібні архітектури.[98] ДКЧП може мати справу з тривалими затримками та сигналами, які містять суміш низько- та високочастотних складових.

Стопки РНМ ДКЧП,[99] треновані нейромережевою часовою класифікацією (НЧК, англ. Connectionist Temporal Classification, CTC),[100] можуть знаходити матрицю ваг РНМ, яка зводить до максимуму ймовірність послідовностей міток у тренувальному наборі для відповідних заданих вхідних послідовностей. НЧК досягає як вирівнювання, так і розпізнавання.

2003 року ДКЧП почала ставати конкурентноздатною в порівнянні з традиційними розпізнавачами мовлення.[101] 2007 року, в поєднанні з НЧК, досягла перших добрих результатів на даних мовлення.[102] 2009 року ДКЧП, тренована НЧК, стала першою РНМ, яка перемогла в змаганнях із розпізнавання образів, коли вона виграла кілька змагань із неперервного рукописного розпізнавання.[9][32] 2014 року Baidu використала ДКЧП на основі НЧК, щоби перевершити еталон розпізнавання мовлення Switchboard Hub5'00, без традиційних методів обробки мовлення.[103] ДКЧП також поліпшила велико-словникове розпізнавання мовлення,[104][105] синтез мовлення з тексту,[106] для Google Android,[50][107] і фото-реалістичні голови, що розмовляють.[108] 2015 року розпізнавання мовлення Google зазнало 49-відсоткового покращення завдяки ДКЧП, тренованій НЧК.[109]

ДКЧП набула популярності в обробці природної мови. На відміну від попередніх моделей на основі ПММ та подібних концепцій, ДКЧП може навчатися розпізнавання контекстно-чутливих мов[en].[110] ДКЧП поліпшила машинний переклад,[111] моделювання мов[112] та багатомовну обробку мов.[113] ДКЧП у поєднанні з ЗНМ поліпшила автоматичний опис зображень.[114]

Глибинне резервуарне обчислення

Глибинне резервуарне обчислення (англ. Deep Reservoir Computing) та глибинні мережі з відлунням стану (англ. Deep Echo State Networks, deepESN)[115][116] забезпечують систему для ефективного тренування моделей для ієрархічної обробки часових даних, в той же час уможливлюючи дослідження властивої ролі шаруватого компонування РНМ.

Глибинні мережі переконань

Обмежена машина Больцмана (ОМБ, англ. restricted Boltzmann machine, RBM) з повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднання прихований-прихований та видимий-видимий відсутні.

Глибинна мережа переконань (ГМП, англ. deep belief network, DBN) — це ймовірнісна породжувальна модель, складена з декількох шарів прихованих вузлів. Її можна розглядати як композицію простих модулів навчання, що складають кожен з шарів.[117]

ГМП можливо використовувати для породжувального попереднього тренування ГНМ шляхом використання навчених ваг ГМП як початкових ваг ГНМ. Ці ваги потім може налаштовувати зворотне поширення або інші розрізнювальні алгоритми. Це є особливо корисним, коли тренувальні дані є обмеженими, оскільки ваги з погано заданими початковими значеннями можуть значно заважати продуктивності моделі. Ці попередньо натреновані ваги перебувають в області простору ваг, що є ближчою до оптимальних ваг, ніж якби їх було обрано випадково. Це уможливлює як поліпшене моделювання, так і швидшу збіжність фази тонкого налаштування.[118]

Нейронні мережі зберігання та вибірки великої пам'яті

Нейронні мережі зберігання та вибірки великої пам'яті (англ. large memory storage and retrieval, LAMSTAR)[119][120] є швидкими нейронними мережами глибинного навчання з багатьма шарами, які можуть використовувати багато фільтрів одночасно. Ці фільтри можуть бути нелінійними, стохастичними, логічними, не стаціонарними та навіть не аналітичними. Вони є біологічно натхненними, і навчаються безперервно.

Нейронна мережа LAMSTAR може слугувати динамічною нейронною мережею в просторовій, часовій області визначення, та в обох. Її швидкість забезпечується геббовими вагами з'єднань,[121] що об'єднують різні та, як правило, несхожі фільтри (функції попередньої обробки) у її численні шари, і для динамічного ранжування значимості різних шарів та функцій по відношенню до заданої задачі для навчання. Це грубо імітує біологічне навчання, що об'єднує різні попередні обробники (зави́тку, сітківку тощо), кори (слухову[en], зорову тощо) та різні їхні області. Її здатність до глибинного навчання додатково підсилюється використанням пригнічування, кореляції та її здатністю впоруватися з неповними даними, або «втраченими» нейронами чи шарами навіть посеред завдання. Через свої ваги з'єднань вона є повністю прозорою. Ці ваги з'єднань також уможливлюють динамічне визначення нововведення й надмірності, та слугують ранжуванню по відношенню до завдання шарів, фільтрів та окремих нейронів.

LAMSTAR застосовували в багатьох областях, включно з медичними[122][123][124] та фінансовими прогнозуваннями,[125] адаптивним фільтруванням зашумленого мовлення в невідомому шумі,[126] розпізнаванням нерухомих зображень,[127] розпізнаванням відеозображень,[128] безпекою програмного забезпечення[129] та адаптивним керуванням нелінійними системами.[130] LAMSTAR мала значно вищу швидкість навчання та дещо нижчий рівень похибок, ніж ЗНМ на основі фільтрів на випрямляльних функціях та максимізаційному агрегуванні, у 20 порівняльних дослідженнях.[131]

Ці застосування показують занурення в аспекти даних, що є прихованими від мереж поверхневого навчання та людських чуттів, як у випадках передбачення настання подій апное уві сні,[123] електрокардіограми плоду при записі з електродів, розташованих на поверхні шкіри живота матері в ранній період вагітності,[124] фінансового прогнозування[119] та сліпого фільтрування зашумленого мовлення.[126]

LAMSTAR було запропоновано 1996 року (A U.S. Patent 5 920 852 A), і розвинуто далі Ґраупе та Кордилевським у 1997—2002 роках.[132][133][134] Видозмінену версію, відому як LAMSTAR 2, було розроблено Шнайдером та Ґраупе 2008 року.[135][136]

Складені (знешумлювальні) автокодувальники

Ідею автокодувальника продиктовано поняттям доброго представлення. Наприклад, для класифікатора добре представлення може бути визначено як таке, що дає ефективніший класифікатор.

Кодувальник (англ. encoder) — це детерміністське відображення , що перетворює вхідний вектор x на приховане представлення y, де , є ваговою матрицею, а b є вектором зсуву (англ. offset, bias). Декодувальник (англ. decoder) відображає приховане представлення y назад на відтворюваний вхід z через . Весь процес автокодування є порівнянням цього відтвореного входу з оригінальним, і намаганням мінімізувати цю похибку, щоби зробити відтворене значення якомога ближчим до оригінального.

В складених знешумлювальних автокодувальниках (англ. stacked denoising auto encoders) частково спотворений вихід очищується (знешумлюється, англ. de-noised). Цю ідею було представлено 2010 року Венсаном та ін.[137] разом з особливим підходом до доброго представлення, добре представлення є таким, що може бути надійно отримано зі спотвореного входу, і буде корисним для відновлення відповідного чистого входу. Неявними в цьому визначенні є наступні ідеї:

  • Представлення вищого рівня є відносно стабільними й стійкими до спотворень входу;
  • Необхідно виділяти ознаки, що є корисними для представлення розподілу входу.

Алгоритм починається зі стохастичного відображення на через , це є спотворювальним кроком. Потім спотворений вхід проходить основним процесом автокодування, і відображується на приховане представлення . З цього прихованого представлення ми можемо відтворити . На останній стадії з метою отримання z якомога ближче до неспотвореного входу виконується алгоритм мінімізації. Похибка відтворення може бути або перехресно-ентропійною втратою з афінно-сигмоїдним декодувальником, або квадратично-похибковою втратою з афінним декодувальником.[137]

Для отримання глибинної архітектури автокодувальники накладають.[138] Щойно кодувальної функції першого знешумлювального автокодувальника навчено, й використано її для знеспотворення входу (спотвореного входу), то може бути треновано другий рівень.[137]

Щойно складений автокодувальник натреновано, його вихід може бути використано як вхід до алгоритму керованого навчання, такого як класифікатор методом опорних векторів або багатокласова логістична регресія.[137]

Глибинні складальні мережі

Глибинна складальна мережа (ГСМ, англ. deep stacking network, DSN)[139] (глибинна опукла мережа, англ. deep convex network) ґрунтується на ієрархії блоків спрощених нейромережевих модулів. Її було представлено 2011 року Деном та Доном.[140] Вона формулює навчання як задачу опуклої оптимізації з розв'язком замкненого вигляду, підкреслюючи подібність цього механізму до складеного узагальнення (англ. stacked generalization).[141] Кожен блок ГСМ є простим модулем, який легко тренувати сам по собі керованим чином без зворотного поширення для всіх блоків.[142]

Кожен блок складається зі спрощеного багатошарового перцептрону (БШП) з єдиним прихованим шаром. Прихований шар h має логістичні сигмоїдні вузли, а шар виходу має лінійні вузли. З'єднання між цими шарами представлено ваговою матрицею U; з'єднання з вхідного до прихованого шару мають вагову матрицю W. Цільові вектори t утворюють стовпчики матриці T, а вектори вхідних даних x утворюють стовпчики матриці X. Матрицею прихованих вузлів є . Модулі тренуються по черзі, тож ваги нижчого рівня W на кожному етапі є відомими. Функція виконує поелементну логістичну сигмоїдну дію. Кожен із блоків оцінює один і той самий клас кінцевих міток y, і його оцінка поєднується з первинним входом X, утворюючи розширений вхід для наступного блоку. Таким чином, вхід до першого блоку містить лише первинні дані, тоді як до входів блоків нижче за течією додається також і вихід попередніх блоків. Тоді навчання вагової матриці U вищого рівня за заданих ваг в мережі може бути сформульовано як задачу опуклої оптимізації:

що має розв'язок замкненого вигляду.

На відміну від інших глибинних архітектур, таких як ГМП, метою є не відкриття представлення в перетворених ознаках. Структура ієрархії цього типу архітектури робить паралельне тренування прямолінійним, як задачу оптимізації в пакетному режимі. В чисто розрізнювальних задачах ГСМ працюють краще за звичайні ГМП.[139]

Тензорні глибинні складальні мережі

Ця архітектура є розширенням глибинних складальних мереж (ГСМ). Вона пропонує два важливі поліпшення: вона використовує інформацію вищого порядку з коваріаційних статистик, і перетворює неопуклу задачу нижчого рівня на опуклу підзадачу вищого рівня.[143] ТГСМ використовують коваріаційні статистики у білінійному відображенні з кожного з двох окремих наборів прихованих вузлів одного й того ж рівня на передбачення, через тензор третього порядку.

Хоча розпаралелювання та масштабованість і не розглядаються серйозно в звичайних ГНМ,[144][145][146] все навчання ГСМ і ТГСМ здійснюється в пакетному режимі, щоби уможливлювати розпаралелювання.[140][139] Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.

Основна архітектура є придатною для різнопланових задач, таких як класифікація та регресія.

Піково-пластинові обмежені машини Больцмана

Потреба в глибинному навчанні з дійснозначними входами, як у ґаусових обмежених машинах Больцмана, привела до піково-пластинових ОМБ (ппОМБ, англ. spike and slab Restricted Boltzmann machine, ssRBM), які моделюють безперервнозначні входи строго двійковими[en] латентними змінними.[147] Подібно до базових ОМБ та її варіантів, піково-пластинова ОМБ є двочастковим графом, але, як у ҐОМБ, видимі вузли (входи) є дійснозначними. Відмінність є в прихованому шарі, де кожен прихований вузол має змінну двійкового піку (англ. spike) та змінну дійснозначної пластини (англ. slab). Пік є дискретною масою ймовірності на нулі, тоді як пластина є густиною ймовірності над безперервною областю визначення;[148] їхня суміш формує апріорне.[149]

Розширення ппОМБ, що називається µ-ппОМБ, забезпечує додаткові моделювальні потужності, використовуючи додаткові члени в енергетичній функції. Один із цих членів дає моделі можливість формувати умовний розподіл пікових змінних знеособленням пластинових змінних за заданого спостереження.

Змішані ієрархічно-глибинні моделі

Змішані ієрархічно-глибинні моделі (англ. compound hierarchical-deep models, compound HD models) компонують глибинні мережі з непараметричними баєсовими моделями. Ознак можливо навчатися із застосуванням таких глибинних архітектур як ГМП,[150] ГМБ,[151] глибинні автокодувальники,[152] згорткові варіанти,[153][154] ппОМБ,[148] мережі глибинного кодування,[155] ГМП з розрідженим навчанням ознак,[156] РНМ,[157] умовні ГМП,[158] знешумлювальні автокодувальники.[159] Це забезпечує краще представлення, уможливлюючи швидше навчання та точнішу класифікацію із даними високої розмірності. Проте ці архітектури є слабкими в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до представлення входу (розподілене представлення), і мусить бути приладжувано разом (високий ступінь свободи). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. Ієрархічні баєсові (ІБ) моделі (англ. Hierarchical Bayesian (HB) models) забезпечують навчання з кількох прикладів, наприклад,[160][161][162][163][164] для комп'ютерного бачення, статистики та когнітивної науки.

Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибинних мереж. Змішана архітектура ІПД-ГМБ є ієрархічним процесом Діріхле[en] (ІПД) як ієрархічною моделлю, об'єднаною з архітектурою ГМБ. Вона є повністю породжувальною моделлю, узагальнюваною з абстрактних понять, що течуть крізь шари цієї моделі, яка є здатною синтезувати нові приклади нововведених класів, що виглядають «досить» природними. Навчання всіх рівнів відбувається спільно, зведенням до максимуму функції внеску логарифмічної ймовірності.[165]

У ГМБ з трьома прихованими шарами ймовірністю видимого входу ν є

де є набором прихованих вузлів, а є параметрами моделі, що представляють умови симетричної взаємодії видимі-приховані та приховані-приховані.

Навчена модель ГМБ є неорієнтованою моделлю, що визначає спільний розподіл . Одним із шляхів вираження того, чого було навчено, є умовна модель та апріорний член .

Тут представляє умовну модель ГМБ, що можливо розглядати як двошарову ГМБ, але з умовами зсуву, що задаються станами :

Глибинні передбачувальні кодувальні мережі

Глибинна передбачувальна кодувальна мережа (ГПКМ, англ. Deep predictive coding network, DPCN) — це передбачувальна схема кодування, що використовує спадну інформацію для емпіричного підлаштовування апріорних, необхідних для процедури висхідного висновування, засобами глибинної локально з'єднаної породжувальної моделі. Це працює шляхом виділяння розріджених ознак зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних представлень ознак застосовується стратегія агрегування (англ. pooling). Ці блоки компонуються, щоби сформувати глибинну архітектуру, і тренуються жадібним пошаровим спонтанним навчанням. Шари утворюють щось на зразок марковського ланцюга, такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.

ГПКМ передбачують представлення шару, використовуючи спадний підхід із застосуванням інформації з вищого шару та часових залежностей від попередніх станів.[166]

ГПКМ можливо розширювати таким чином, щоби утворювати згорткову мережу.[166]

Мережі з окремими структурами пам'яті

Поєднання зовнішньої пам'яті з ШНМ бере свій початок у ранніх дослідженнях розподілених представлень[167] та самоорганізаційних відображень Кохонена. Наприклад, у розрідженій розподіленій пам'яті[en] та ієрархічній часовій пам'яті зразки, закодовані нейронними мережами, використовуються як адреси для асоціативної пам'яті, з «нейронами», що по суті слугують шифраторами та дешифраторами адреси. Проте, ранні контролери таких типів пам'яті не були диференційовними.

Диференційовні структури пам'яті, пов'язані з ДКЧП

Окрім довгої короткочасної пам'яті (ДКЧП), диференційовну пам'ять до рекурентних функцій також додали й інші підходи. Наприклад:

  • Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, що називаються нейронними стековими машинами (англ. neural stack machines)[168][169]
  • Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагах іншої мережі[170]
  • Забувальні вентилі ДКЧП[171]
  • Автореферентні РНМ з особливими вузлами виходу для адресування та швидкого маніпулювання власними вагами РНМ на диференційовний манір (внутрішнє сховище)[172][173]
  • Навчання перетворення з необмеженою пам'яттю[174]
Нейронні машини Тюрінга

Нейронні машини Тюрінга (англ. Neural Turing machines)[175] спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги (англ. attentional processes). Ця зв'язана система є аналогічною машині Тюрінга, але є диференційовною з краю в край, що дозволяє їй дієво навчатися градієнтним спуском. Попередні результати показують, що нейронні машини Тюрінга можуть виводити з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядкування та асоціативне пригадування.

Диференційовні нейронні комп'ютери[en] (англ. Differentiable neural computers, DNC) — це розширення нейронних машин Тюрінга. На задачах обробки послідовностей вони перевершили нейронні машини Тюрінга, системи довгої короткочасної пам'яті та мережі з пам'яттю.[176][177][178][179][180]

Семантичне гешування

Підходи, які представляють попередній досвід безпосередньо, і використовують схожий досвід для формування локальної моделі, часто називають методами найближчого сусіда[en] або k-найближчих сусідів.[181] В семантичному гешуванні (англ. semantic hashing) є корисним глибинне навчання,[182] де з великого набору документів отримується глибинна графічна модель векторів кількостей слів.[183] Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можливо знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від розрідженої розподіленої пам'яті[en], що оперує 1000-бітними адресами, семантичне гешування працює на 32- або 64-бітних адресах, що зустрічаються в традиційній комп'ютерній архітектурі.

Мережі з пам'яттю

Мережі з пам'яттю (англ. memory networks)[184][185] є іншим розширенням нейронних мереж, що включає довготривалу пам'ять[en]. Довготривала пам'ять може читатися або записуватися з метою використання її для передбачення. Ці моделі застосовувалися в контексті питально-відповідальних систем (англ. question answering, QA), де довготривала пам'ять ефективно діє як (динамічна) база знань, а вихід є текстовою відповіддю.[186]

Вказівникові мережі

Глибинні мережі може бути потенційно поліпшено поглибленням та скороченням параметрів, за збереження здатності до навчання. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути непрактичним, ЦП-подібні архітектури, такі як вказівникові мережі (англ. pointer networks)[187] та нейронні машини з довільним доступом (англ. neural random-access machines),[188] долають це обмеження завдяки застосуванню зовнішньої пам'яті з довільним доступом та інших складових, що зазвичай належать до комп'ютерної архітектури, таких як регістри, АЛП та вказівники. Такі системи працюють на векторах розподілів імовірностей, що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель є повністю диференційовною, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та число параметрів можливо змінювати незалежно — на відміну від моделей на кшталт ДКЧП, чиє число параметрів зростає квадратично з розміром пам'яті.

Кодувально-декодувальні мережі

Кодувально-декодувальні системи (англ. encoder–decoder frameworks) ґрунтуються на нейронних мережах, що відображують високоструктурований вхід на високоструктурований вихід. Цей підхід виник у контексті машинного перекладу,[189][190][191] де вхід та вихід є писаними реченнями двома природними мовами. В тій праці РНМ або ЗНМ ДКЧП використовувалася як кодувальник для отримання зведення про вхідне речення, і це зведення декодувалося умовною РНМ-моделлю мови для продукування перекладу.[192] Для цих систем є спільними будівельні блоки: вентильні (англ. gated) РНМ та ЗНМ, і треновані механізми уваги.

Багатошарова ядрова машина

Багатошарові ядрові машини (БЯМ, англ. Multilayer Kernel Machine, MKM) — це спосіб навчання високо нелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують ядровий метод головних компонент[en] (ЯМГК, англ. kernel principal component analysis, KPCA)[193] як метод для спонтанного жадібного пошарового передтренувального кроку архітектури глибинного навчання.[194]

-й шар навчається представлення попереднього шару , виділяючи головних компонент (ГК, англ. principal component, PC) проекції, яку шар виводить в область визначення ознак під дією ядра. Заради зниження в кожному шарі розмірності уточненого представлення пропонується керована стратегія для вибору найінформативніших ознак серед виділених ЯМГК. Цей процес є таким:

  • вишикувати ознак відповідно до їхньої взаємної інформації з мітками класів;
  • для різних значень K та обчислити рівень похибки класифікації методом K-найближчих сусідів (К-НС, англ. K-nearest neighbor, K-NN), використовуючи лише ознак, найінформативніших на затверджувальному наборі;
  • значення , з яким класифікатор досяг найнижчого рівня похибки, визначає число ознак для збереження.

Метод ЯМГК як будівельні блоки для БЯМ супроводжують деякі недоліки.

Для розуміння усного мовлення було розроблено простіший спосіб застосування ядрових машин для глибинного навчання.[195] Головна ідея полягає у використанні ядрової машини для наближення поверхневої нейронної мережі з нескінченним числом прихованих вузлів, і подальшому застосуванні складання для зрощування виходу цієї ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Число рівнів у цій глибинній опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресною перевіркою.

Використання

Використання ШНМ вимагає розуміння їхніх характеристик.

  • Вибір моделі: Це залежить від представлення даних та застосування. Надмірно складні моделі уповільнюють навчання.
  • Алгоритм навчання: Існують численні компроміси між алгоритмами навчання. Майже кожен алгоритм працюватиме добре з правильними гіперпараметрами[en] для тренування на певному наборі даних. Проте, обрання та налаштування алгоритму для тренування на небачених даних вимагає значного експериментування.
  • Робастність: Якщо модель, функція витрат та алгоритм навчання обрано належним чином, то отримувана в результаті ШНМ може стати робастною.

Можливості ШНМ підпадають під наступні широкі категорії:[джерело?]

Застосування

Через свою здатність відтворювати та моделювати нелінійні процеси, ШНМ знайшли застосування в широкому діапазоні дисциплін.

До обласлей застосування належать ідентифікація систем[en] та керування (керування транспортними засобами, передбачування траєкторії,[196] автоматизація виробничих процесів, природокористування), квантова хімія,[197] гра в ігри та ухвалювання рішень (короткі нарди, шахи, покер), розпізнавання образів (радарні системи, ідентифікування облич, класифікування сигналів,[198] розпізнавання об'єктів та ін.), розпізнавання послідовностей (жестів, мовлення, рукописного тексту), медична діагностика, фінанси[199] (наприклад, автоматизовані системи торгівлі[en]), добування даних, унаочнення, машинний переклад, соціально-мережеве фільтрування[200] та фільтрування спаму електронної пошти[en].

ШНМ застосовували в діагностуванні раку, включно з раком легені,[201] простати, колоректальним раком,[202] а також щоби відрізнювати лінії ракових клітин, сильно схильні до розповсюдження, від менш схильних до розповсюдження ліній, із застосуванням лише інформації про форму клітин.[203][204]

ШНМ також використовували для побудови чорноскринькових моделей в геонауках: гідрологія,[205][206] моделювання океану та прибережна інженерія[en],[207][208] та геоморфологія[209] є лише деякими з прикладів такого роду.

Нейронаука

Теоретична на обчислювальна нейронаука займається теоретичним аналізом та обчислювальним моделюванням біологічних нейронних систем. Оскільки нейронні системи намагаються відображувати пізнавальні процеси та поведінку, ця область є тісно пов'язаною з пізнавальним та поведінковим моделюванням.

Щоби досягти розуміння цього, нейробіологи намагаються зв'язати спостережувані біологічні процеси (дані), біологічно правдоподібні механізми нейронної обробки та навчання (моделі біологічних нейронних мереж) та теорію (теорію статистичного навчання та теорію інформації).

Дослідження мозку неодноразово приводили до нових підходів на основі ШНМ, таких як використання з'єднань для з'єднування нейронів у різних шарах, а не суміжних нейронів в одному шарі. Інше дослідження розвідувало використання декількох типів сигналу, або тоншого контролю, ніж булеві змінні (увімкнено/вимкнено). Динамічні нейронні мережі можуть динамічно утворювати нові з'єднання, та навіть нові нейронні вузли, в той же час деактивуючи інші.[210]

Типи моделей

Використовується багато типів моделей, визначених на різних рівнях абстрагування, та з моделюванням різних аспектів нейронних систем. Вони сягають від моделей короткотермінової поведінки окремих нейронів,[211] моделей того, як динаміка компонувань нейронних схем постає із взаємодії між окремими нейронами, і, нарешті, до моделей того, як може поставати поведінка з абстрактних нейронних модулів, які представляють цілі підсистеми. До них належать моделі короткотермінової та довготермінової пластичності, нейронних систем та їхнього відношення до навчанням та пам'яті від окремого нейрону й до рівня системи.

Теоретичні властивості

Обчислювальна сила

Як доведено теоремою Цибенка, багатошаровий перцептрон є універсальним наближувачем функцій. Проте, це доведення не є конструктивним відносно числа потрібних нейронів, топології мережі, ваг та параметрів навчання.

Особлива рекурентна архітектура з раціальнозначними вагами (на противагу до повноточнісних дійснозначних ваг) має повну силу універсальної машини Тюрінга,[212] використовуючи скінченне число нейронів та стандартні лінійні з'єднання. Крім того, використання ірраціональних значень для ваг дає в результаті машину з надтюринговою силою.[213]

Місткість

Властивість «місткості» (англ. "capacity") моделі грубо відповідає її здатності моделювати будь-яку задану функцію. Вона пов'язана з обсягом інформації, яку може бути збережено в мережі, та з поняттям складності.[джерело?]

Збіжність

Моделі можуть не збігатися послідовно на єдиному розв'язку, по-перше, через можливість існування багатьох локальних мінімумів, залежно від функції витрат та моделі. По-друге, вживаний метод оптимізації може не гарантувати збіжності, якщо він починається далеко від будь-якого локального мінімуму. По-третє, для достатньо великих даних або параметрів, деякі методи стають непрактичними. Проте, для тренування нейронної мережі АКММ[en] було представлено рекурсивний алгоритм найменших квадратів, і для цього алгоритму може бути гарантовано збіжність за один крок.[81]

Узагальнення та статистика

Застосування, чиєю метою є створення системи, яка добре узагальнюється до небачених зразків, стикаються з можливістю перетренування. Воно виникає в закручених або надмірно визначених системах, коли місткість мережі значно перевершує потребу в вільних параметрах. Існує два підходи, як впоруватися з перетренуванням. Першим є використовувати перехресну перевірку та подібні методи, щоби перевіряти на наявність перетренування та оптимально обирати гіперпараметри для зведення похибки узагальнення до мінімуму. Другим є використовувати якийсь із видів регуляризації. Це поняття виникає в імовірнісній (баєсовій) системі, де регуляризацію можливо виконувати шляхом обирання більшої апріорної ймовірності над простішими моделями, але також і в теорії статистичного навчання, де метою є зводити до мінімуму дві величини: «емпіричний ризик» та «структурний ризик», що грубо відповідають похибці над тренувальним набором та передбаченій похибці в небачених даних через перенавчання.

Керовані нейронні мережі, які використовують як функцію втрат середньоквадратичну похибку[en] (СКП), для визначення довіри до тренованої моделі можуть використовувати формальні статистичні методи. СКП на затверджувальному наборі можливо використовувати для оцінювання дисперсії. Це значення потім можливо використовувати для обчислення довірчого інтервалу виходу мережі, виходячи з нормального розподілу. Здійснений таким чином аналіз довіри є статистично чинним, поки розподіл імовірності виходу залишається незмінним, і не вноситься змін до мережі.

Призначаючи нормалізовану експоненційну функцію[en], узагальнення логістичної функції, як функцію збудження шарові виходу нейронної мережі (або нормалізовану експоненційну складову в нейронній мережі на основі складових) для категорійних цільових змінних, виходи можна інтерпретувати як апостеріорні ймовірності. Це є дуже корисним у класифікації, бо дає міру впевненості в класифікаціях.

Нормалізованою експоненційною функцією збудження є:

Критика

Питання тренування

Поширеною критикою нейронних мереж, зокрема в робототехніці, є те, що для функціювання в реальному світі вони вимагають забагато тренування.[джерело?] До потенційних розв'язань належить випадкове переставляння тренувальних зразків, застосування алгоритму чисельної оптимізації, який не вимагає завеликих кроків при зміні з'єднань мережі слідом за зразком, та групування зразків до так званих міні-пакетів. Поліпшення дієвості навчання та здатності до збіжності для нейронних мереж завжди було областю постійних досліджень. Наприклад, завдяки введенню для нейронної мережі АКММ[en] алгоритму рекурсивних найменших квадратів, процесові навчання, щоби збігтися, потрібен лише один крок.[81]

Теоретичні питання

Жодна нейронна мережа не розв'язала таких обчислювально складних задач, як задача про вісім ферзів, задача комівояжера чи задача розкладання великих цілих чисел.

Фундаментальна перешкода полягає в тім, що вони не відображують роботу справжніх нейронів. Зворотне поширення є критичною частиною більшості штучних нейронних мереж, тоді як в біологічних нейронних мережах такого механізму не існує.[214] Як інформацію кодовано справжніми нейронами — не відомо. Сенсо́рні нейрони[en] генерують потенціал дії частіше, коли сенсор активовано, а м'язові клітини натягуються сильніше, коли пов'язані з ними мотонейрони частіше отримують потенціал дії.[215] Крім цієї справи передавання інформації від сенсорного нейрону до мотонейрону, про принципи обробки інформації біологічною нейронною мережею не відомо майже нічого.

Мотиви, що стоять за ШНМ, полягають не обов'язково в точному відтворенні нейронної функціональності, а в використанні біологічних нейронних мереж як натхнення. Тож головною претензією ШНМ є те, що вона втілює якийсь новий та потужний загальний принцип обробки інформації. На жаль, ці загальні принципи не є чітко визначеними. Часто претендують на те, що вони виникають із самої мережі. Це дозволяє простій статистичній асоціації (основній функції штучних нейронних мереж) бути описуваною як навчання або розпізнавання. Олександр Дьюдні[en] зауважив, що, в результаті, штучні нейронні мережі мають «риси чогось дармового, чогось наділеного особливою аурою ледарства та виразної відсутності зацікавлення хоч би тим, наскільки добрими ці комп'ютерні системи є. Жодного втручання людської руки (та розуму), розв'язки знаходяться мов чарівною силою, і ніхто, схоже, так нічого й не навчився».[216]

Біологічні мізки використовують як поверхневі, так і глибинні схеми, як про це каже анатомія мозку,[217] демонструючи велику різноманітність інваріантності. Венг[218] стверджував, що мозок самоз'єднується великою мірою відповідно до статистики сигналів, і, відтак, послідовний каскад не здатен вловлювати всі важливі статистичні залежності.

Апаратні питання

Великі та ефективні обчислювальні нейронні мережі вимагають значних обчислювальних ресурсів.[219] В той час як мозок має апаратне забезпечення, ідеально пристосоване для задачі обробки сигналів графом нейронів, імітування навіть спрощеного нейрону на архітектурі фон Неймана може змушувати розробника нейронної мережі заповнювати багато мільйонів рядків бази даних для його з'єднань, що може вимагати споживання незмірної кількості пам'яті та дискового простору. Крім того, розробникові часто потрібно передавати сигнали багатьма цими з'єднаннями та пов'язаними з ними нейронами, і цій задачі часто мусить відповідати величезна обчислювальна потужність та час ЦП.

Шмідгубер зауважує, що реанімацію нейронних мереж у двадцять першому сторіччі великою мірою обумовлено досягненнями в апаратному забезпеченні: з 1991 до 2015 року обчислювальна потужність, особливо забезпечувана ГПЗП (на ГП), зросла приблизно в мільйон разів, зробивши стандартний алгоритм зворотного поширення придатним для тренування мереж, які є на декілька шарів глибшими, ніж раніше.[220] Застосування паралельних ГП може скорочувати тривалості тренування з місяців до днів.[219]

Нейроморфна інженерія розв'язує цю апаратну складність безпосередньо, конструюючи не-фон-нейманові мікросхеми для безпосереднього втілення нейронних мереж у схемах. Ще одна мікросхема, оптимізована для обробки нейронних мереж, зветься тензорним процесором, або ТП (англ. Tensor Processing Unit, TPU).[221]

Практичні контрприклади до критики

Аргументами проти позиції Дьюдні є те, що нейронні мережі успішно застосовувалися для розв'язання багатьох складних і різнотипних задач, починаючи від автономних літальних апаратів,[222] і до виявлення шахрайств із кредитними картками та опанування гри Ґо.

Технічний письменник Роджер Бріджмен прокоментував це так:

Нейронні мережі, наприклад, знаходяться в обоймі не лише тому, що їх було піднесено до високих небес (що не було?), але також і тому, що ви можете створити успішну мережу без розуміння того, як вона працює: жмут чисел, що охоплює її поведінку, за всією ймовірністю буде «непрозорою, нечитабельною таблицею... нічого не вартою, як науковий ресурс». Незважаючи на його рішучу заяву, що наука не є технологією, Дьюдні тут, здається, ганьбить нейронні мережі як погану науку, тоді як більшість із тих, хто їх розробляє, просто намагаються бути добрими інженерами. Нечитабельна таблиця, яку може читати корисна машина, все одно буде вельми варта того, щоби її мати.
Оригінальний текст (англ.)
Neural networks, for instance, are in the dock not only because they have been hyped to high heaven, (what hasn't?) but also because you could create a successful net without understanding how it worked: the bunch of numbers that captures its behaviour would in all probability be "an opaque, unreadable table...valueless as a scientific resource". In spite of his emphatic declaration that science is not technology, Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers. An unreadable table that a useful machine could read would still be well worth having.
— Роджер Бріджмен, Roger Bridgman's defence of neural networks[223]

Незважаючи на те, що аналізувати, чого навчилася штучна нейронна мережа, дійсно складно, робити це набагато простіше, ніж аналізувати, чого навчилася нейронна мережа біологічна. Крім того, дослідники, які беруть участь в пошуку алгоритмів навчання для нейронних мереж, поступово розкривають загальні принципи, що дозволяють машині, що вчиться, бути успішною. Наприклад, локальне й нелокальне навчання, та поверхнева й глибинна архітектура.[224]

Гібридні підходи

Прибічники гібридних моделей (що поєднують нейронні мережі та символьні підходи) стверджують, що така суміш може схоплювати механізми людського розуму краще.[225][226]

Типи

Детальніші відомості з цієї теми ви можете знайти в статті Типи штучних нейронних мереж.

Штучні нейронні мережі мають багато різновидів. Найпростіші, статичні, типи мають одну або більше статичних складових, включно з числом вузлів, числом шарів, вагами вузлів та топологією. Динамічні типи дозволяють одній або більше з них змінюватися в процесі навчання. Останні є набагато складнішими, але можуть скорочувати періоди навчання та давати кращі результати. Деякі типи дозволяють/вимагають, щоби навчання було «керованим» оператором, тоді як інші діють незалежно. Деякі типи працюють виключно в апаратному забезпеченні, тоді як інші є чисто програмними, і працюють на комп'ютерах загального призначення.

За типом вхідної інформації

  • Аналогові нейронні мережі (використовують інформацію у формі дійсних чисел);
  • Двійкові нейронні мережі (оперують з інформацією, представленою в двійковому вигляді).

За характером налаштування синапсів

  • Мережі з фіксованими зв'язками (вагові коефіцієнти нейронної мережі вибираються відразу, виходячи з умов завдання, при цьому: dW / dt = 0 , де W — вагові коефіцієнти мережі);
  • Мережі з динамічними зв'язками (для них в процесі навчання відбувається налаштування синаптичних зв'язків, тобто dW / dt ≠ 0, де W — вагові коефіцієнти мережі).

За представленнями

Якщо обчислювальна мережа має представляти елементи з якоїсь множини і кожному елементу відповідає якийсь вузол мережі, таке представлення називається локальним представленням. Його просто зрозуміти і реалізувати. Проте іноді представляти елементи множини вигідніше певним шаблоном активності, розподіленої на багатьох елементах мережі. Таке представлення називають розподіленим. Використання такого представлення може збільшити ефективність мережі.[227]

Галерея

Див. також

Примітки

  1. McCulloch, Warren; Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics. 5 (4): 115—133. doi:10.1007/BF02478259. (англ.)
  2. Kleene, S.C. (1956). Representation of Events in Nerve Nets and Finite Automata. Annals of Mathematics Studies (англ.). № 34. Princeton University Press. с. 3—41. Процитовано 17 червня 2017. (англ.)
  3. Hebb, Donald (1949). The Organization of Behavior. New York: Wiley. ISBN 978-1-135-63190-1. (англ.)
  4. Farley, B.G.; W.A. Clark (1954). Simulation of Self-Organizing Systems by Digital Computer. IRE Transactions on Information Theory. 4 (4): 76—84. doi:10.1109/TIT.1954.1057468. (англ.)
  5. Rochester, N.; J.H. Holland; L.H. Habit; W.L. Duda (1956). Tests on a cell assembly theory of the action of the brain, using a large digital computer. IRE Transactions on Information Theory. 2 (3): 80—93. doi:10.1109/TIT.1956.1056810. (англ.)
  6. Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain. Psychological Review. 65 (6): 386—408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. (англ.)
  7. а б Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. (англ.)
  8. David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. с. 106. ISBN 978-0-19-517618-6. (англ.)
  9. а б в г д е Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. (англ.)
  10. Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. (англ.)
  11. Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co. (англ.)
  12. Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 0-262-63022-2. (англ.)
  13. Rumelhart, D.E; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN 978-0-262-63110-5. (англ.)
  14. J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992. (англ.)
  15. а б J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993. (англ.)
  16. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997. (англ.)
  17. а б S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
  18. Hochreiter, S. та ін. (15 January 2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kolen, John F.; Kremer, Stefan C. (ред.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5. {{cite book}}: Явне використання «та ін.» у: |last2= (довідка) (англ.)
  19. J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992. (англ.)
  20. Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation (PDF). Lecture Notes in Computer Science. Т. 2766. Springer. (англ.)
  21. Smolensky, P. (1986). Information processing in dynamical systems: Foundations of harmony theory.. У D. E. Rumelhart, J. L. McClelland, & the PDP Research Group (ред.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Т. 1. с. 194—281.
  22. а б Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation[en]. 18 (7): 1527—1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. (англ.)
  23. Hinton, G. (2009). Deep belief networks. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  24. Ng, Andrew; Dean, Jeff (2012). Building High-level Features Using Large Scale Unsupervised Learning. arXiv:1112.6209 [cs.LG]. (англ.)
  25. Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). Memristive switching mechanism for metal/oxide/metal nanodevices. Nat. Nanotechnol. 3 (7): 429—433. doi:10.1038/nnano.2008.160. (англ.)
  26. Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). The missing memristor found. Nature. 453 (7191): 80—83. Bibcode:2008Natur.453...80S. doi:10.1038/nature06932. PMID 18451858. (англ.)
  27. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 вересня 2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation. 22 (12): 3207—3220. doi:10.1162/neco_a_00052. ISSN 0899-7667. (англ.)
  28. 2012 Kurzweil AI Interview with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009–2012 (англ.)
  29. How bio-inspired deep learning keeps winning competitions | KurzweilAI. www.kurzweilai.net (амер.). Процитовано 16 червня 2017. (англ.)
  30. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7–10 December 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552. (англ.)
  31. а б Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). A Novel Connectionist System for Improved Unconstrained Handwriting Recognition (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. doi:10.1109/tpami.2008.137. (англ.)
  32. а б в Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris editor-K. I.; Culotta, Aron (ред.). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Neural Information Processing Systems (NIPS) Foundation: 545—552. (англ.)
  33. Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). A Novel Connectionist System for Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. doi:10.1109/tpami.2008.137. ISSN 0162-8828. (англ.)
  34. а б Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (August 2012). Multi-column deep neural network for traffic sign classification. Neural Networks. Selected Papers from IJCNN 2011. 32: 333—338. doi:10.1016/j.neunet.2012.02.023. (англ.)
  35. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. с. 2843—2851. (англ.)
  36. а б Ciresan, Dan; Meier, U.; Schmidhuber, J. (June 2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition: 3642—3649. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. (англ.)
  37. а б Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. (англ.)
  38. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. с. 2843—2851. (англ.)
  39. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). ImageNet Classification with Deep Convolutional Neural Networks (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. (англ.)
  40. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics. 36 (4): 93—202. doi:10.1007/BF00344251. PMID 7370364. (англ.)
  41. Riesenhuber, M; Poggio, T (1999). Hierarchical models of object recognition in cortex. Nature Neuroscience. 2 (11): 1019—1025. doi:10.1038/14819. (англ.)
  42. Hinton, Geoffrey (31 травня 2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947. ISSN 1941-6016.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  43. Markoff, John (23 листопада 2012). Scientists See Promise in Deep-Learning Programs. New York Times. (англ.)
  44. Martines, H.; Bengio, Y.; Yannakakis, G. N. (2013). Learning Deep Physiological Models of Affect. IEEE Computational Intelligence. 8 (2): 20—33. doi:10.1109/mci.2013.2247823. (англ.)
  45. J. Weng, "Why Have We Passed `Neural Networks Do not Abstract Well'?," Natural Intelligence: the INNS Magazine, vol. 1, no.1, pp. 13-22, 2011. (англ.)
  46. Z. Ji, J. Weng, and D. Prokhorov, "Where-What Network 1: Where and What Assist Each Other Through Top-down Connections," Proc. 7th International Conference on Development and Learning (ICDL'08), Monterey, CA, Aug. 9-12, pp. 1-6, 2008. (англ.)
  47. X. Wu, G. Guo, and J. Weng, "Skull-closed Autonomous Development: WWN-7 Dealing with Scales," Proc. International Conference on Brain-Mind, July 27–28, East Lansing, Michigan, pp. +1-9, 2013. (англ.)
  48. а б в г д Zell, Andreas (1994). chapter 5.2. Simulation Neuronaler Netze [Simulation of Neural Networks] (German) (вид. 1st). Addison-Wesley. ISBN 3-89319-554-8. (нім.)
  49. The Machine Learning Dictionary. (англ.)
  50. а б в г Schmidhuber, Jürgen (2015). Deep Learning. Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  51. Dreyfus, Stuart E. (1 вересня 1990). Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure. Journal of Guidance, Control, and Dynamics. 13 (5): 926—928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422. ISSN 0731-5090. (англ.)
  52. Eiji Mizutani, Stuart Dreyfus[en], Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. Online (англ.)
  53. Kelley, Henry J. (1960). Gradient theory of optimal flight paths. Ars Journal. 30 (10): 947—954. doi:10.2514/8.5282. (англ.)
  54. Arthur E. Bryson[en] (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications. (англ.)
  55. Dreyfus, Stuart (1962). The numerical solution of variational problems. Journal of Mathematical Analysis and Applications. 5 (1): 30—45. doi:10.1016/0022-247x(62)90004-5. (англ.)
  56. Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence A Modern Approach. Prentice Hall. с. 578. ISBN 978-0-13-604259-4. The most popular method for learning in multilayer networks is called Back-propagation. (англ.)
  57. Bryson, Arthur Earl (1969). Applied Optimal Control: Optimization, Estimation and Control. Blaisdell Publishing Company or Xerox College Publishing. с. 481. (англ.)
  58. Seppo Linnainmaa[en] (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. (англ.)
  59. Linnainmaa, Seppo (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics. 16 (2): 146—160. doi:10.1007/bf01931367. (англ.)
  60. Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation? (PDF). Documenta Matematica, Extra Volume ISMP: 389—400. (англ.)
  61. Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1. (англ.)
  62. Dreyfus, Stuart (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control. 18 (4): 383—385. doi:10.1109/tac.1973.1100330. (англ.)
  63. Paul Werbos[en] (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University. (англ.)
  64. Werbos, Paul (1982). Applications of advances in nonlinear sensitivity analysis. System modeling and optimization (PDF). Springer. с. 762—770. (англ.)
  65. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986). Learning representations by back-propagating errors. Nature. 323 (6088): 533—536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. (англ.)
  66. Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195-195). Addison-Wesley Publishing Co. (англ.)
  67. Hinton, G.; Deng, L.; Yu, D.; Dahl, G. E.; Mohamed, A. r; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P. (November 2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups. IEEE Signal Processing Magazine. 29 (6): 82—97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. ISSN 1053-5888. (англ.)
  68. Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). Extreme learning machine: theory and applications. Neurocomputing. 70 (1): 489—501. doi:10.1016/j.neucom.2005.12.126. (англ.)
  69. Widrow, Bernard та ін. (2013). The no-prop algorithm: A new learning algorithm for multilayer neural networks. Neural Networks. 37: 182—188. doi:10.1016/j.neunet.2012.09.020. (англ.)
  70. Ollivier, Yann; Charpiat, Guillaume (2015). Training recurrent networks without backtracking. arXiv:1507.07680 [cs.NE]. (англ.)
  71. ESANN. 2009 (англ.)
  72. Hinton, G. E. (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003,. (англ.)
  73. Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 квітня 2017). Metaheuristic design of feedforward neural networks: A review of two decades of research. Engineering Applications of Artificial Intelligence. 60: 97—116. doi:10.1016/j.engappai.2017.01.013. (англ.)
  74. Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). Genetic reinforcement learning for neural networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE. doi:10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1. Процитовано 29 July 2012. (англ.)
  75. Hoskins, J.C.; Himmelblau, D.M. (1992). Process control via artificial neural networks and reinforcement learning. Computers & Chemical Engineering. 16 (4): 241—251. doi:10.1016/0098-1354(92)80045-B. (англ.)
  76. Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. с. 512. ISBN 1-886529-10-8. (англ.)
  77. Secomandi, Nicola (2000). Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands. Computers & Operations Research. 27 (11–12): 1201—1225. doi:10.1016/S0305-0548(99)00146-X. (англ.)
  78. de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). Neuro-dynamic programming for the efficient management of reservoir networks (PDF). Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN 0-867405252. Процитовано 29 July 2012. (англ.)
  79. Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). Genetic algorithms and neuro-dynamic programming: application to water supply networks. Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. La Jolla, California, USA: IEEE. doi:10.1109/CEC.2000.870269. ISBN 0-7803-6375-2. Процитовано 29 July 2012. (англ.)
  80. Deng, Geng; Ferris, M.C. (2008). Neuro-dynamic programming for fractionated radiotherapy planning. Springer Optimization and Its Applications. Springer Optimization and Its Applications. 12: 47—70. CiteSeerX 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5. (англ.)
  81. а б в Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61. (англ.)
  82. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array." Neural Processing Letters 22.1 (2005): 1-16. (англ.)
  83. M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic; S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation (PDF). 4th Int. Workshop Soft Computing Applications. Arad, Romania: IEEE. {{cite conference}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
  84. de Rigo, D., Castelletti, A., Rizzoli, A.E., Soncini-Sessa, R., Weber, E. (January 2005). A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management. У Pavel Zítek (ред.). Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16th IFAC World Congress. Т. 16. Prague, Czech Republic: IFAC. doi:10.3182/20050703-6-CZ-1902.02172. ISBN 978-3-902661-75-3. Процитовано 30 December 2011. (англ.)
  85. Ferreira, C. (2006). Designing Neural Networks Using Gene Expression Programming (PDF). In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag. (англ.)
  86. Da, Y.; Xiurun, G. (July 2005). T. Villmann (ред.). An improved PSO-based ANN with simulated annealing technique. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Elsevier. doi:10.1016/j.neucom.2004.07.002. (англ.)
  87. Wu, J.; Chen, E. (May 2009). Wang, H., Shen, Y., Huang, T., Zeng, Z. (ред.). A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network. 6th International Symposium on Neural Networks, ISNN 2009. Springer. doi:10.1007/978-3-642-01513-7-6. ISBN 978-3-642-01215-0. (англ.)
  88. Ivakhnenko, Alexey Grigorevich (1968). The group method of data handling – a rival of the method of stochastic approximation. Soviet Automatic Control. 13 (3): 43—55. (англ.)
  89. Ivakhnenko, Alexey (1971). Polynomial theory of complex systems. IEEE Transactions on Systems, Man and Cybernetics (4) (4): 364—378. doi:10.1109/TSMC.1971.4308320. (англ.)
  90. Kondo, T.; Ueno, J. (2008). Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels. International Journal of Innovative Computing, Information and Control. 4 (1): 175—187. (англ.)
  91. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. (англ.)
  92. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989. (англ.)
  93. Yann LeCun (2016). Slides on Deep Learning Online (англ.)
  94. Unsupervised Feature Learning and Deep Learning Tutorial. (англ.)
  95. Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). Going Deeper with Convolutions. Computing Research Repository: 1. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0. (англ.)
  96. Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. (англ.)
  97. Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available). ResearchGate (англ.). с. 115—143. Процитовано 13 червня 2017. (англ.)
  98. Bayer, Justin; Wierstra, Daan; Togelius, Julian; Schmidhuber, Jürgen (14 вересня 2009). Evolving Memory Cell Structures for Sequence Learning. Artificial Neural Networks – ICANN 2009. Lecture Notes in Computer Science (англ.). Springer, Berlin, Heidelberg. 5769: 755—764. doi:10.1007/978-3-642-04277-5_76. ISBN 978-3-642-04276-8. (англ.)
  99. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). Sequence labelling in structured domains with hierarchical recurrent neural networks. In Proc. 20th Int. Joint Conf. on Artificial In℡ligence, Ijcai 2007: 774—779. (англ.)
  100. Graves, Alex; Fernández, Santiago; Gomez, Faustino (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, ICML 2006: 369—376. (англ.)
  101. Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). Biologically Plausible Speech Recognition with LSTM Neural Nets (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. с. 175—184. (англ.)
  102. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). An Application of Recurrent Neural Networks to Discriminative Keyword Spotting. Proceedings of the 17th International Conference on Artificial Neural Networks. ICANN'07. Berlin, Heidelberg: Springer-Verlag: 220—229. ISBN 3540746935. (англ.)
  103. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho (17 грудня 2014). Deep Speech: Scaling up end-to-end speech recognition. arXiv:1412.5567 [cs.CL]. (англ.)
  104. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling (PDF). (англ.)
  105. Li, Xiangang; Wu, Xihong (15 жовтня 2014). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. arXiv:1410.4281 [cs.CL]. (англ.)
  106. Fan, Y.; Qian, Y.; Xie, F.; Soong, F. K. (2014). TTS synthesis with bidirectional LSTM based Recurrent Neural Networks. ResearchGate (англ.). Процитовано 13 червня 2017. (англ.)
  107. Zen, Heiga; Sak, Hasim (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis (PDF). Google.com. ICASSP. с. 4470—4474. (англ.)
  108. Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). Photo-Real Talking Head with Deep Bidirectional LSTM (PDF). Proceedings of ICASSP. (англ.)
  109. Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). Google voice search: faster and more accurate. (англ.)
  110. Gers, Felix A.; Schmidhuber, Jürgen (2001). LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE TNN. 12 (6): 1333—1340. doi:10.1109/72.963769. (англ.)
  111. Sutskever, L.; Vinyals, O.; Le, Q. (2014). Sequence to Sequence Learning with Neural Networks (PDF). NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems. 2: 3104—3112. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. {{cite journal}}: Проігноровано невідомий параметр |class= (довідка) (англ.)
  112. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (7 лютого 2016). Exploring the Limits of Language Modeling. arXiv:1602.02410 [cs.CL]. (англ.)
  113. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (30 листопада 2015). Multilingual Language Processing From Bytes. arXiv:1512.00103 [cs.CL]. (англ.)
  114. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (17 листопада 2014). Show and Tell: A Neural Image Caption Generator. arXiv:1411.4555 [cs.CV]. (англ.)
  115. Gallicchio, Claudio; Micheli, Alessio; Pedrelli, Luca (2017). Deep reservoir computing: A critical experimental analysis. Neurocomputing. 268: 87. doi:10.1016/j.neucom.2016.12.089. (англ.)
  116. Gallicchio, Claudio; Micheli, Alessio (2017). Echo State Property of Deep Reservoir Computing Networks. Cognitive Computation (англ.). 9 (3): 337—350. doi:10.1007/s12559-017-9461-9. ISSN 1866-9956. (англ.)
  117. Hinton, G.E. (2009). Deep belief networks. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  118. Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation. Proceedings of the 24th International Conference on Machine Learning. ICML '07. New York, NY, USA: ACM: 473—480. doi:10.1145/1273496.1273556. ISBN 9781595937933. (англ.)
  119. а б Graupe, Daniel (2013). Principles of Artificial Neural Networks. World Scientific. с. 1–. ISBN 978-981-4522-74-8. (англ.)
  120. A US 5920852 A  D. Graupe," Large memory storage and retrieval (LAMSTAR) network, April 1996 (англ.)
  121. D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers, 2013, pp.203-274. (англ.)
  122. Nigam, Vivek Prakash; Graupe, Daniel (1 січня 2004). A neural-network-based detection of epilepsy. Neurological Research. 26 (1): 55—60. doi:10.1179/016164104773026534. ISSN 0161-6412. PMID 14977058. (англ.)
  123. а б Waxman, Jonathan A.; Graupe, Daniel; Carley, David W. (1 квітня 2010). Automated Prediction of Apnea and Hypopnea, Using a LAMSTAR Artificial Neural Network. American Journal of Respiratory and Critical Care Medicine. 181 (7): 727—733. doi:10.1164/rccm.200907-1146oc. ISSN 1073-449X. (англ.)
  124. а б Graupe, D.; Graupe, M. H.; Zhong, Y.; Jackson, R. K. (2008). Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities. Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine. 222 (8): 1221—1234. doi:10.1243/09544119jeim417. (англ.)
  125. Graupe, 2013, с. 240—253
  126. а б Graupe, D.; Abon, J. (2002). A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech. Intelligent Engineering Systems Through Artificial Neural Networks (англ.). Technische Informationsbibliothek (TIB). 12: 683—688. Процитовано 14 червня 2017. (англ.)
  127. D. Graupe, "Principles of Artificial Neural Networks.3rd Edition", World Scientific Publishers", 2013, pp.253-274. (англ.)
  128. Girado, J. I.; Sandin, D. J.; DeFanti, T. A. (2003). Real-time camera-based face detection using a modified LAMSTAR neural network system. Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII. Applications of Artificial Neural Networks in Image Processing VIII. 5015: 36. Bibcode:2003SPIE.5015...36G. doi:10.1117/12.477405. (англ.)
  129. Venkatachalam, V; Selvan, S. (2007). Intrusion Detection using an Improved Competitive Learning Lamstar Network. International Journal of Computer Science and Network Security. 7 (2): 255—263. (англ.)
  130. Graupe, D.; Smollack, M. (2007). Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks. ResearchGate (англ.). Proceedings of 10th IASTED on Intelligent Control, Sect.592,. с. 141—144. Процитовано 14 червня 2017. (англ.)
  131. Graupe, Daniel (7 July 2016). Deep Learning Neural Networks: Design and Case Studies. World Scientific Publishing Co Inc. с. 57—110. ISBN 978-981-314-647-1. (англ.)
  132. Graupe, D.; Kordylewski, H. (August 1996). Network based on SOM (Self-Organizing-Map) modules combined with statistical decision tools. Proceedings of the 39th Midwest Symposium on Circuits and Systems. 1: 471–474 vol.1. doi:10.1109/mwscas.1996.594203. ISBN 0-7803-3636-4. (англ.)
  133. Graupe, D.; Kordylewski, H. (1 березня 1998). A Large Memory Storage and Retrieval Neural Network for Adaptive Retrieval and Diagnosis. International Journal of Software Engineering and Knowledge Engineering. 08 (1): 115—138. doi:10.1142/s0218194098000091. ISSN 0218-1940. (англ.)
  134. Kordylewski, H.; Graupe, D; Liu, K. (2001). A novel large-memory neural network as an aid in medical diagnosis applications. IEEE Transactions on Information Technology in Biomedicine. 5 (3): 202—209. doi:10.1109/4233.945291. (англ.)
  135. Schneider, N.C.; Graupe (2008). A modified LAMSTAR neural network and its applications. International journal of neural systems. 18 (4): 331—337. doi:10.1142/s0129065708001634. (англ.)
  136. Graupe, 2013, с. 217 (англ.)
  137. а б в г Vincent, Pascal; Larochelle, Hugo; Lajoie, Isabelle; Bengio, Yoshua; Manzagol, Pierre-Antoine (2010). Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion. The Journal of Machine Learning Research. 11: 3371—3408. (англ.)
  138. Ballard, Dana H. (1987). Modular learning in neural networks (PDF). Proceedings of AAAI. с. 279—284. (англ.)
  139. а б в Deng, Li; Yu, Dong; Platt, John (2012). Scalable stacking and learning for building deep architectures (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133—2136. (англ.)
  140. а б Deng, Li; Yu, Dong (2011). Deep Convex Net: A Scalable Architecture for Speech Pattern Classification (PDF). Proceedings of the Interspeech: 2285—2288. (англ.)
  141. David, Wolpert (1992). Stacked generalization. Neural Networks. 5 (2): 241—259. doi:10.1016/S0893-6080(05)80023-1. (англ.)
  142. Bengio, Y. (15 листопада 2009). Learning Deep Architectures for AI. Foundations and Trends® in Machine Learning (English) . 2 (1): 1—127. doi:10.1561/2200000006. ISSN 1935-8237. (англ.)
  143. Hutchinson, Brian; Deng, Li; Yu, Dong (2012). Tensor deep stacking networks. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1—15 (8): 1944—1957. doi:10.1109/tpami.2012.268. (англ.)
  144. Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). Reducing the Dimensionality of Data with Neural Networks. Science. 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. (англ.)
  145. Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30—42. doi:10.1109/tasl.2011.2134090. (англ.)
  146. Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14—22. doi:10.1109/tasl.2011.2109382. (англ.)
  147. Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). A Spike and Slab Restricted Boltzmann Machine (PDF). JMLR: Workshop and Conference Proceeding. 15: 233—241. (англ.)
  148. а б Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). Unsupervised Models of Images by Spike-and-Slab RBMs. Proceedings of the 28th International Conference on Machine Learning (PDF). Т. 10. с. 1—8. (англ.)
  149. Mitchell, T; Beauchamp, J (1988). Bayesian Variable Selection in Linear Regression. Journal of the American Statistical Association. 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694. (англ.)
  150. Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). Neural Computation[en]. 18 (7): 1527—1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. (англ.)
  151. Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). Efficient Learning of Deep Boltzmann Machines (PDF). 3: 448—455. (англ.)
  152. Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). Exploring Strategies for Training Deep Neural Networks. The Journal of Machine Learning Research. 10: 1—40. (англ.)
  153. Coates, Adam; Carpenter, Blake (2011). Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning (PDF): 440—445. (англ.)
  154. Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning: 1—8. (англ.)
  155. Lin, Yuanqing; Zhang, Tong (2010). Deep Coding Network (PDF). Advances in Neural . . .: 1—9. (англ.)
  156. Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). Sparse Feature Learning for Deep Belief Networks (PDF). Advances in Neural Information Processing Systems. 23: 1—8. (англ.)
  157. Socher, Richard; Lin, Clif (2011). Parsing Natural Scenes and Natural Language with Recursive Neural Networks (PDF). Proceedings of the 26th International Conference on Machine Learning. (англ.)
  158. Taylor, Graham; Hinton, Geoffrey (2006). Modeling Human Motion Using Binary Latent Variables (PDF). Advances in Neural Information Processing Systems. (англ.)
  159. Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th international conference on Machine learning - ICML '08: 1096—1103. (англ.)
  160. Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). Learning overhypotheses with hierarchical Bayesian models. Developmental Science. 10 (3): 307—21. doi:10.1111/j.1467-7687.2007.00585.x. PMID 17444972. (англ.)
  161. Xu, Fei; Tenenbaum, Joshua (2007). Word learning as Bayesian inference. Psychol. Rev. 114 (2): 245—72. doi:10.1037/0033-295X.114.2.245. PMID 17500627. (англ.)
  162. Chen, Bo; Polatkan, Gungor (2011). The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning (PDF). Machine Learning . . . (англ.)
  163. Fei-Fei, Li; Fergus, Rob (2006). One-shot learning of object categories. IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594—611. doi:10.1109/TPAMI.2006.79. PMID 16566508. (англ.)
  164. Rodriguez, Abel; Dunson, David (2008). The Nested Dirichlet Process. Journal of the American Statistical Association. 103 (483): 1131—1154. doi:10.1198/016214508000000553. (англ.)
  165. Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). Learning with Hierarchical-Deep Models. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1958—71. doi:10.1109/TPAMI.2012.269. PMID 23787346. (англ.)
  166. а б Chalasani, Rakesh; Principe, Jose (2013). Deep Predictive Coding Networks. arXiv:1301.3541 [cs.LG]. (англ.)
  167. Hinton, Geoffrey E. (1984). Distributed representations. (англ.)
  168. S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory," Proc. 14th Annual Conf. of the Cog. Sci. Soc., p. 79, 1992. (англ.)
  169. Mozer, M. C.; Das, S. (1993). A connectionist symbol manipulator that discovers the structure of context-free languages. NIPS 5. с. 863—870. (англ.)
  170. Schmidhuber, J. (1992). Learning to control fast-weight memories: An alternative to recurrent nets. Neural Computation. 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. (англ.)
  171. Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). Learning precise timing with LSTM recurrent networks (PDF). JMLR. 3: 115—143. (англ.)
  172. Jürgen Schmidhuber (1993). An introspective network that can learn to run its own weight change algorithm. In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton. IEE. с. 191—195. (англ.)
  173. Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). Learning to Learn Using Gradient Descent. ICANN. 2130: 87—94. (англ.)
  174. Grefenstette, Edward, et al. "Learning to Transduce with Unbounded Memory."arXiv:1506.02516 (2015). (англ.)
  175. Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural Turing Machines." arXiv:1410.5401 (2014). Шаблон:Ref-eb
  176. Burgess, Matt. DeepMind's AI learned to ride the London Underground using human-like reason and memory. WIRED UK (брит.). Процитовано 19 жовтня 2016. (англ.)
  177. DeepMind AI 'Learns' to Navigate London Tube. PCMAG. Процитовано 19 жовтня 2016. (англ.)
  178. Mannes, John. DeepMind’s differentiable neural computer helps you navigate the subway with its memory. TechCrunch. Процитовано 19 жовтня 2016. (англ.)
  179. Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 жовтня 2016). Hybrid computing using a neural network with dynamic external memory. Nature (англ.). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. (англ.)
  180. Differentiable neural computers | DeepMind. DeepMind. Процитовано 19 жовтня 2016. (англ.)
  181. Atkeson, Christopher G.; Schaal, Stefan (1995). Memory-based neural networks for robot learning. Neurocomputing. 9 (3): 243—269. doi:10.1016/0925-2312(95)00033-6. (англ.)
  182. Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." International Journal of Approximate Reasoning 50.7 (2009): 969-978. (англ.)
  183. Le, Quoc V.; Mikolov, Tomas (2014). Distributed representations of sentences and documents. arXiv:1405.4053 [cs.CL]. (англ.)
  184. Weston, Jason, Sumit Chopra, and Antoine Bordes. "Memory networks." arXiv:1410.3916 (2014). (англ.)
  185. Sukhbaatar, Sainbayar, et al. "End-To-End Memory Networks." arXiv:1503.08895 (2015). (англ.)
  186. Bordes, Antoine, et al. "Large-scale Simple Question Answering with Memory Networks." arXiv:1506.02075 (2015). (англ.)
  187. Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." arXiv:1506.03134 (2015). (англ.)
  188. Kurach, Karol, Andrychowicz, Marcin and Sutskever, Ilya. "Neural Random-Access Machines." arXiv:1511.06392 (2015). (англ.)
  189. Kalchbrenner, N.; Blunsom, P. (2013). Recurrent continuous translation models. EMNLP’2013. (англ.)
  190. Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). Sequence to sequence learning with neural networks (PDF). NIPS’2014. (англ.)
  191. Cho, K.; van Merrienboer, B.; Gulcehre, C.; Bougares, F.; Schwenk, H.; Bengio, Y. (October 2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of the Empiricial Methods in Natural Language Processing. 1406: arXiv:1406.1078. arXiv:1406.1078. Bibcode:2014arXiv1406.1078C. (англ.)
  192. Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. "Describing Multimedia Content using Attention-based Encoder--Decoder Networks." arXiv:1507.01053 (2015). (англ.)
  193. Scholkopf, B; Smola, Alexander (1998). Nonlinear component analysis as a kernel eigenvalue problem. Neural computation. (44) (5): 1299—1319. doi:10.1162/089976698300017467. (англ.)
  194. Cho, Youngmin (2012). Kernel Methods for Deep Learning (PDF): 1—9. (англ.)
  195. Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (1 грудня 2012). Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding. Microsoft Research (амер.). (англ.)
  196. Zissis, Dimitrios (October 2015). A cloud based architecture capable of perceiving and predicting multiple vessel behaviour. Applied Soft Computing. 35: 652—661. doi:10.1016/j.asoc.2015.07.002. (англ.)
  197. Roman M. Balabin; Ekaterina I. Lomakina (2009). Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies. J. Chem. Phys. 131 (7): 074104. Bibcode:2009JChPh.131g4104B. doi:10.1063/1.3206326. PMID 19708729. (англ.)
  198. Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). Lung sound classification using cepstral-based statistical features. Computers in Biology and Medicine. 75 (1): 118—129. doi:10.1016/j.compbiomed.2016.05.013. (англ.)
  199. French, Jordan. The time traveller's CAPM. Investment Analysts Journal. 46 (2): 81—96. doi:10.1080/10293523.2016.1255469. (англ.)
  200. Schechner, Sam (15 червня 2017). Facebook Boosts A.I. to Block Terrorist Propaganda. Wall Street Journal (амер.). ISSN 0099-9660. Процитовано 16 червня 2017. (англ.)
  201. Ganesan, N. Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data (PDF). International Journal of Computer Applications. (англ.)
  202. Bottaci, Leonardo. Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions (PDF). The Lancet. (англ.)
  203. Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). Measuring systematic changes in invasive cancer cell shape using Zernike moments. Integrative Biology. 8 (11): 1183—1193. doi:10.1039/C6IB00100A. PMID 27735002. (англ.)
  204. Lyons, Samanthe (2016). Changes in cell shape are correlated with metastatic potential in murine. Biology Open. 5 (3): 289—299. doi:10.1242/bio.013409. (англ.)
  205. null null (1 квітня 2000). Artificial Neural Networks in Hydrology. I: Preliminary Concepts. Journal of Hydrologic Engineering. 5 (2): 115—123. doi:10.1061/(ASCE)1084-0699(2000)5:2(115). (англ.)
  206. null null (1 квітня 2000). Artificial Neural Networks in Hydrology. II: Hydrologic Applications. Journal of Hydrologic Engineering. 5 (2): 124—137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124). (англ.)
  207. Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 жовтня 2015). Significant wave height record extension by neural networks and reanalysis wind data. Ocean Modelling. 94: 128—140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002. (англ.)
  208. Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). Review on Applications of Neural Network in Coastal Engineering. Artificial Intelligent Systems and Machine Learning (English) . 5 (7): 324—331. (англ.)
  209. Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 березня 2005). Artificial Neural Networks applied to landslide susceptibility assessment. Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327—343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025. (англ.)
  210. Introduction to Dynamic Neural Networks - MATLAB & Simulink. www.mathworks.com. Процитовано 15 червня 2017. (англ.)
  211. Forrest MD (April 2015). Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster. BMC Neuroscience. 16 (27). doi:10.1186/s12868-015-0162-6.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  212. Siegelmann, H.T.; Sontag, E.D. (1991). Turing computability with neural nets (PDF). Appl. Math. Lett. 4 (6): 77—80. doi:10.1016/0893-9659(91)90080-F. (англ.)
  213. Balcázar, José (Jul 1997). Computational Power of Neural Networks: A Kolmogorov Complexity Characterization. Information Theory, IEEE Transactions on. 43 (4): 1175—1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580. Процитовано 3 November 2014. (англ.)
  214. Crick, Francis (1989). The recent excitement about neural networks. Nature. 337 (6203): 129—132. Bibcode:1989Natur.337..129C. doi:10.1038/337129a0. PMID 2911347. (англ.)
  215. Adrian, Edward D. (1926). The impulses produced by sensory nerve endings. The Journal of Physiology. 61 (1): 49—72. doi:10.1113/jphysiol.1926.sp002273. PMC 1514809. PMID 16993776. (англ.)
  216. Dewdney, A. K. (1 April 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. с. 82. ISBN 978-0-471-10806-1. (англ.)
  217. D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1-47, 1991. (англ.)
  218. J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind," BMI Press, ISBN 978-0985875725, 2012. (англ.)
  219. а б Edwards, Chris (25 June 2015). Growing pains for deep learning. Communications of the ACM. 58 (7): 14—16. doi:10.1145/2771283. (англ.)
  220. Schmidhuber, Jürgen (2015). Deep learning in neural networks: An overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. (англ.)
  221. Cade Metz (18 травня 2016). Google Built Its Very Own Chips to Power Its AI Bots. Wired. (англ.)
  222. NASA - Dryden Flight Research Center - News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE. Nasa.gov. Retrieved on 2013-11-20. (англ.)
  223. Roger Bridgman's defence of neural networks (англ.)
  224. Scaling Learning Algorithms towards {AI} - LISA - Publications - Aigaion 2.0. (англ.)
  225. Sun and Bookman (1990) (англ.)
  226. Tahmasebi; Hezarkhani (2012). A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation. Computers & Geosciences. 42: 18—27. Bibcode:2012CG.....42...18T. doi:10.1016/j.cageo.2012.02.004. (англ.)
  227. Hinton, Geoffrey E. (1984). Distributed representations. (англ.)

Література

Посилання

Українською

Англійською

Російською