Глибоке навчання: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
м Olexa Riznyk перейменував сторінку з Глибинне навчання на Глибоке навчання поверх перенаправлення: Помилка в назві
відділено «Типи штучних нейронних мереж», актуалізовано переклад «Deep learning»
Рядок 1: Рядок 1:
{{Short description|Галузь машинного навчання}}
{{Машинне навчання|Штучна нейронна мережа}}
{{Машинне навчання|Штучна нейронна мережа}}
[[Файл:Deep_Learning.jpg|альт=Подання зображень на кількох шарах абстракції в глибокому навчанні|міні|Подання зображень на кількох шарах абстракції в глибокому навчанні<ref>{{Cite journal|last1=Schulz|first1=Hannes|last2=Behnke|first2=Sven|date=1 November 2012|title=Deep Learning|journal=KI - Künstliche Intelligenz|language=en|volume=26|issue=4|pages=357–363|doi=10.1007/s13218-012-0198-z|s2cid=220523562|issn=1610-1987|url=https://www.semanticscholar.org/paper/51a80649d16a38d41dbd20472deb3bc9b61b59a0}}</ref>]]


'''Глибо́ке навча́ння'''<ref>{{Cite journal|last=Хома|first=Ю.&nbsp;В.|last2=Бенч|first2=А.&nbsp;Я.|year=2019|title=Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання|language=uk|url=https://science.lpnu.ua/sites/default/files/journal-paper/2020/feb/21058/var1ksm-19-99-104.pdf|journal=Комп'ютерні системи і мережі|volume=1|issue=1|pages=97—102}}</ref><ref>{{Cite conference|url=https://udhtu.edu.ua/wp-content/uploads/2021/11/kmoss-2021_05_11_2021.pdf#page=89|title=Розпізнавання зображень алгоритмом глибокого навчання|language=uk|last1=Дорош|first1=Н.&nbsp;Л.|last2=Цаплюк|first2=О.&nbsp;В.|date=3-5 листопада 2021|conference=VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем»|publisher=[[Український державний хіміко-технологічний університет|УДХТУ]]|location=Дніпро|pages=91—92|year=}}</ref><ref>{{Cite journal|last=Бродкевич|first=В.&nbsp;М.|last2=Ремесло|first2=В.&nbsp;Я.|year=2018|title=Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках|language=uk|url=https://www.inter-nauka.com/uploads/public/15305134116492.pdf#page=57|journal=Міжнародний науковий журнал «Інтернаука»|location=Київ|volume=1|issue=11 (51)|pages=56—60|issn=2520-2057}}</ref> ({{lang-en|deep learning}}, також іноді '''глиби́нне навча́ння''')&nbsp;— це частина ширшого сімейства методів [[Машинне навчання|машинного навчання]], яка ґрунтується на [[Штучна нейронна мережа|штучних нейронних мережах]] із [[Навчання подань|навчанням подань]]. Прикметник «глибоке» ({{lang-en|"deep"}}) у глибокому навчанні стосується використання декількох шарів у мережі. Використовувані методи можуть бути [[Кероване навчання|керованими]], {{нп|Слабокероване навчання|слабокерованими||Semi-supervised learning}}, та [[Некероване навчання|некерованими]].<ref name="NatureBengio">{{cite journal |last1=LeCun |first1= Yann|last2=Bengio |first2=Yoshua | last3=Hinton | first3= Geoffrey|s2cid=3074096 |year=2015 |title=Deep Learning |journal=Nature |volume=521 |issue=7553 |pages=436–444 |doi=10.1038/nature14539 |pmid=26017442|bibcode=2015Natur.521..436L|language=en }}</ref>
'''Глиби́нне навча́ння''' (також відоме як ''глибинне структурне навчання'', ''ієрархічне навчання'', ''глибинне машинне навчання'', {{lang-en|deep learning, deep structured learning, hierarchical learning, deep machine learning}})&nbsp;— це галузь [[Машинне навчання|машинного навчання]], що ґрунтується на наборі [[алгоритм]]ів, які намагаються моделювати високорівневі абстракції в даних, застосовуючи глибинний граф із декількома обробними шарами, що побудовано з кількох лінійних або не[[Лінійне перетворення|лінійних перетворень]].<ref name="goodfellow2016">Ian Goodfellow, Yoshua Bengio, and Aaron Courville (2016). Deep Learning. MIT Press. [http://www.deeplearningbook.org Online] {{Webarchive|url=https://web.archive.org/web/20160416111010/http://www.deeplearningbook.org/ |date=16 квітня 2016 }} {{ref-en}}</ref><ref name="BOOK2014">{{cite journal |last1=Deng |first1=L. |last2=Yu |first2=D. |year=2014 |title=Deep Learning: Methods and Applications |url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf |journal=Foundations and Trends in Signal Processing |volume=7 |issue=3-4 |pages=1-199 |doi=10.1561/2000000039 |accessdate=12 грудня 2015 |archive-date=14 березня 2016 |archive-url=https://web.archive.org/web/20160314152112/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf }} {{ref-en}}</ref><ref name="BENGIODEEP">{{cite journal |first=Yoshua |last=Bengio |year=2009 |title=Learning Deep Architectures for AI |url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf |journal=Foundations and Trends in Machine Learning |volume=2 |issue=1 |pages=1–127 |doi=10.1561/2200000006 |accessdate=12 грудня 2015 |archiveurl=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf |archivedate=4 березня 2016 |deadurl=yes }} {{ref-en}}</ref><ref name="BENGIO2012">{{cite journal |last1=Bengio |first1=Y. |last2=Courville |first2=A. |last3=Vincent |first3=P. |year=2013 |title=Representation Learning: A Review and New Perspectives |journal=IEEE Transactions on Pattern Analysis and Machine Intelligence |volume=35 |issue=8 |pages=1798–1828 |arxiv=1206.5538 |doi=10.1109/tpami.2013.50}} {{ref-en}}</ref><ref name="SCHIDHUB">{{cite journal |last=Schmidhuber |first=J. |year=2015 |title=Deep Learning in Neural Networks: An Overview |journal=Neural Networks |volume=61 |pages=85–117 |arxiv=1404.7828 |doi=10.1016/j.neunet.2014.09.003}} {{ref-en}}</ref><ref name="NatureBengio">{{cite journal |last1=Bengio |first1=Yoshua |last2=LeCun |first2= Yann| last3=Hinton | first3= Geoffrey|year=2015 |title=Deep Learning |journal=Nature |volume=521 |pages=436–444 |doi=10.1038/nature14539}} {{ref-en}}</ref><ref>Deep Machine Learning&nbsp;— A New Frontier in Artificial Intelligence Research&nbsp;— a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. IEEE Computational Intelligence Magazine, 2013 {{ref-en}}</ref><ref name="scholarpedia"/><ref name="DLPATTERNS">{{Cite web| title=A Pattern Language for Deep Learning| author=Carlos E. Perez| url=http://www.deeplearningpatterns.com| accessdate=12 червня 2022| archive-date=3 червня 2017| archive-url=https://web.archive.org/web/20170603205959/http://deeplearningpatterns.com/}} {{ref-en}}</ref>


Архітектури глибокого навчання, такі як [[#Глибокі нейронні мережі|глибокі нейронні мережі]], [[Глибока мережа переконань|глибокі мережі переконань]], {{нп|глибоке навчання з підкріпленням|||Deep reinforcement learning}}, [[рекурентні нейронні мережі]], [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], застосовували в таких галузях як [[комп'ютерне бачення]], [[розпізнавання мовлення]], [[обробка природної мови]], [[машинний переклад]], [[біоінформатика]], [[конструювання ліків]], {{нп|аналіз медичних зображень|||Medical image analysis}}, [[кліматологія]], перевірка матеріалів і програми [[Ігри на спеціальній дошці|настільних ігор]], де вони дали результати, порівнянні, а в деяких випадках і кращі за продуктивність експертів&nbsp;— людей.<ref name=":9">{{Cite book |doi=10.1109/cvpr.2012.6248110 |isbn=978-1-4673-1228-8|arxiv=1202.2745|chapter=Multi-column deep neural networks for image classification|title=2012 IEEE Conference on Computer Vision and Pattern Recognition|pages=3642–3649|year=2012|last1=Ciresan|first1=D.|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|s2cid=2161592|language=en}}</ref><ref name="krizhevsky2012">{{cite journal|last1=Krizhevsky|first1=Alex|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffrey|date=2012|title=ImageNet Classification with Deep Convolutional Neural Networks|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|access-date=2017-05-24|archive-date=2017-01-10|archive-url=https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|url-status=live|language=en}}</ref><ref>{{cite web |title=Google's AlphaGo AI wins three-match series against the world's best Go player |url=https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |website=TechCrunch |date=25 May 2017 |access-date=17 June 2018 |archive-date=17 June 2018 |archive-url=https://web.archive.org/web/20180617065807/https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |url-status=live |language=en }}</ref>
Глибинне навчання є частиною ширшого сімейства методів [[Машинне навчання|машинного навчання]], що ґрунтуються на [[Навчання ознак|навчанні ознак]] даних. Спостереження (наприклад, зображення) може бути представлено багатьма способами, такими як [[Векторний простір|вектор]] значень яскравості для пікселів, або абстрактнішим способом, як множина кромок, областей певної форми [[Масштабоінваріантне ознакове перетворення|тощо]]. Деякі представлення є кращими за інші у спрощенні задачі навчання (наприклад, розпізнаванню облич, або виразів облич<ref>{{cite book|last=Glauner |first=P. |year=2015 |title=Deep Convolutional Neural Networks for Smile Recognition |arxiv=1508.06535 |type=MSc Thesis |publisher=[[Imperial College London]], Department of Computing}} {{ref-en}}</ref>). Однією з обіцянок глибинного навчання є заміна [[Ознака (машинне навчання)|ознак]] ручної роботи дієвими алгоритмами [[Навчання без учителя|автоматичного]] або [[Напівавтоматичне навчання|напівавтоматичного]] [[навчання ознак]] та ієрархічного [[виділяння ознак]].<ref>{{cite book |last1=Song |first1=H.A. |last2=Lee |first2=S. Y. |year=2013 |chapter=Hierarchical Representation Using NMF |title=Neural Information Processing |series=Lectures Notes in Computer Sciences |volume=8226 |issue= |pages=466–473 |publisher=[[Springer Berlin Heidelberg]] |isbn=978-3-642-42053-5 |doi=10.1007/978-3-642-42054-2_58}} {{ref-en}}</ref>


[[Штучна нейронна мережа|Штучні нейронні мережі]] (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в [[Біологічна система|біологічних системах]]. ШНМ мають різноманітні відмінності від біологічного [[Головний мозок|мозку]]. Зокрема, штучні нейронні мережі мають тенденцію бути статичними та символьними, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.<ref>{{Cite journal|last1=Marblestone|first1=Adam H.|last2=Wayne|first2=Greg|last3=Kording|first3=Konrad P.|s2cid=1994856|date=2016|title=Toward an Integration of Deep Learning and Neuroscience |journal=Frontiers in Computational Neuroscience |volume=10|pages=94|doi=10.3389/fncom.2016.00094 |pmc=5021692|pmid=27683554|bibcode=2016arXiv160603813M|arxiv=1606.03813|doi-access=free|language=en}}</ref><ref>{{cite arXiv|last1=Bengio|first1=Yoshua|last2=Lee|first2=Dong-Hyun|last3=Bornschein|first3=Jorg|last4=Mesnard|first4=Thomas|last5=Lin|first5=Zhouhan|date=13 February 2015|title=Towards Biologically Plausible Deep Learning|eprint=1502.04156|class=cs.LG|language=en}}</ref>
Дослідження в цій області намагаються зробити кращі представлення та створити моделі для навчання цих представлень з великомасштабних немічених даних. Деякі з цих представлень було зроблено під натхненням досягнень в [[Нейронаука|нейронауці]] та з мотивів схем обробки та передавання інформації в [[Нервова система|нервовій системі]], таких як [[нервове кодування]], що намагається визначити зв'язок між різноманітними стимулами та пов'язаними нейронними реакціями в [[Головний мозок|мозку]].<ref>{{cite journal |last1=Olshausen |first1=B. A. |year=1996 |title=Emergence of simple-cell receptive field properties by learning a sparse code for natural images |journal=Nature |volume=381 |issue=6583 |pages=607–609 |doi=10.1038/381607a0}} {{ref-en}}</ref>


{{TOC limit|3}}
Різні архітектури глибинного навчання, такі як [[#Архітектури глибинних нейронних мереж|глибинні нейронні мережі]], [[Згорткова нейронна мережа|згорткові глибинні нейронні мережі]], [[Глибинна мережа переконань|глибинні мережі переконань]] та [[рекурентні нейронні мережі]] застосовувалися в таких областях, як [[комп'ютерне бачення]], [[автоматичне розпізнавання мовлення]], [[обробка природної мови]], розпізнавання звуків та [[біоінформатика]], де вони, як було показано, представляють передові результати в різноманітних задачах.


== Визначення ==
''Глибинне навчання'' характеризувалося як [[модне слово]], або ребрендинг [[Нейронна мережа|нейронних мереж]].<ref>{{cite video |last=Collobert |first=R. |date=April 2011 |title=Deep Learning for Efficient Discriminative Parsing |url=http://videolectures.net/aistats2011_collobert_deep/ |website=VideoLectures.net |time=7min 45s }} {{Cite web |url=http://videolectures.net/aistats2011_collobert_deep/ |title=Архівована копія |accessdate=2015-12-12 |archive-date=2020-10-19 |archive-url=https://web.archive.org/web/20201019161251/http://videolectures.net/aistats2011_collobert_deep/ }} {{ref-en}}</ref><ref>{{cite web |last=Gomes |first=L. |date=20 жовтня 2014 |title=Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts |url=http://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts |work=[[IEEE Spectrum]] |accessdate=12 грудня 2015 |archive-date=12 грудня 2019 |archive-url=https://web.archive.org/web/20191212230901/https://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts }} {{ref-en}}</ref>


Глибоке навчання&nbsp;— це клас [[алгоритм]]ів [[Машинне навчання|машинного навчання]], який<ref name="BOOK2014">{{cite journal|last2=Yu|first2=D.|year=2014|title=Deep Learning: Methods and Applications|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=1–199|doi=10.1561/2000000039|last1=Deng|first1=L.|access-date=2014-10-18|archive-date=2016-03-14|archive-url=https://web.archive.org/web/20160314152112/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|url-status=live|language=en}}</ref>{{rp|page=199–200 }} використовує декілька шарів для поступового виділяння з сирого входу ознак усе вищих рівнів. Наприклад, при [[Цифрова обробка зображень|обробці зображень]] нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.
== Введення ==


Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» ({{lang-en|“deeper”}}) та «найглибше» ({{lang-en|“deepest”}}) навчання.<ref>{{cite journal |last1=Zhang |first1=W. J. |last2=Yang |first2=G. |last3=Ji |first3=C. |last4=Gupta |first4=M. M. |title=On Definition of Deep Learning |journal=2018 World Automation Congress (WAC) |date=2018 |pages=1–5 |doi=10.23919/WAC.2018.8430387|isbn=978-1-5323-7791-4 |language=en }}</ref> Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.
=== Визначення ===
Є кілька способів, якими характеризувалася галузь глибинного навчання. Наприклад, 1986 року {{нп|Ріна Дехтер|||Rina Dechter}} ввела поняття глибинного навчання першого порядку та глибинного навчання другого порядку в контексті задоволення обмежень.<ref name="dechter1986"/> Пізніше глибинне навчання було охарактеризовано як клас [[алгоритм]]ів [[Машинне навчання|машинного навчання]], які<ref name="BOOK2014" />{{rp|199–200}}


== Огляд ==
* використовують каскад багатьох шарів вузлів [[Нелінійний фільтр|нелінійної обробки]] для [[виділяння ознак]] та перетворення. Кожен наступний шар використовує вихід із попереднього шару як вхід. Алгоритми можуть бути з [[Навчання з учителем|керованим]] або [[Навчання без учителя|спонтанним]] навчанням, а застосування включають [[Теорія розпізнавання образів|розпізнавання образів]] (спонтанне) та [[Задача класифікації|класифікацію]] (керовану).
* ґрунтуються на навчанні (спонтанному) декількох шарів ознак або представлень даних. Ознаки вищих рівнів виводяться з ознак нижчих рівнів для формування ієрархічного представлення.
* є частиною ширшої області машинного навчання з навчання представлень даних.
* навчаються кільком рівням представлень, що відповідають різним рівням абстракції; ці рівні формують ієрархію понять.


Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових [[Штучна нейронна мережа|штучних нейронних мережах]], таких як [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], хоча до них також можуть належати {{нп|Пропозиційна формула|пропозиційні формули||Propositional formula}} та латентні змінні, організовані пошарово в глибоких [[Породжувальна модель|породжувальних моделях]], такі як вузли в [[Глибока мережа переконань|глибоких мережах переконань]] чи глибоких [[Машина Больцмана|машинах Больцмана]].<ref name="BENGIODEEP">{{cite journal|last=Bengio|first=Yoshua|year=2009|title=Learning Deep Architectures for AI|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|journal=Foundations and Trends in Machine Learning|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|citeseerx=10.1.1.701.9550|s2cid=207178999 |access-date=3 September 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 March 2016|url-status=dead|language=en}}</ref>
Ці визначення мають спільними (1) декілька шарів вузлів нелінійної обробки та (2) кероване або спонтанне навчання представлень ознак у кожному з шарів, з формуванням шарами ієрархії від низькорівневих до високорівневих ознак.<ref name="BOOK2014" />{{rp|200}} Побудова шару вузлів нелінійної обробки, що застосовується в алгоритмі глибинного навчання, залежить від розв'язуваної задачі. Шари, що застосовувалися в глибинному навчанні, включають приховані шари [[Штучна нейронна мережа|штучної нейронної мережі]] та набори складних [[Висловлювання (логіка)|висловлень]].<ref name="BENGIODEEP" /> Вони також можуть включати [[Латентна змінна|латентні змінні]], організовані по шарах у глибинних [[Породжувальна модель|породжувальних моделях]], такі як вузли в [[Глибинна мережа переконань|глибинних мережах переконань]] та [[#Глибинні машини Больцмана|глибинних машинах Больцмана]].


У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути [[Матриця (математика)|матрицею]] пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати розташування контурів; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може ''самостійно'' вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного налаштування; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.<ref name="BENGIO2012">{{cite journal|last2=Courville|first2=A.|last3=Vincent|first3=P.|year=2013|title=Representation Learning: A Review and New Perspectives|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1798–1828|arxiv=1206.5538|doi=10.1109/tpami.2013.50|pmid=23787338|last1=Bengio|first1=Y.|s2cid=393948|language=en}}</ref><ref>{{cite journal|last1=LeCun|first1=Yann|last2=Bengio|first2=Yoshua|last3=Hinton|first3=Geoffrey|s2cid=3074096|title=Deep learning|journal=Nature|date=28 May 2015|volume=521|issue=7553|pages=436–444|doi=10.1038/nature14539|pmid=26017442|bibcode=2015Natur.521..436L|language=en}}</ref>
Алгоритми глибинного навчання перетворюють свої входи крізь більшу кількість шарів, ніж алгоритми поверхневого навчання. На кожному шарі сигнал перетворюється блоком обробки, таким як штучний нейрон, параметри якого «навчаються» шляхом тренування.<ref name="SCHIDHUB" />{{rp|6}} Ланцюг перетворень від входу до виходу є ''шляхом передачі довіри'' (ШПД, {{lang-en|credit assignment path, CAP}}). ШПД описують потенційно причинні зв'язки між входом та виходом, і можуть мати змінну довжину. Для [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] довжина шляхів передачі довіри, і відтак глибина цієї мережі, є числом прихованих шарів плюс один (вихідний шар також параметризовано). Для [[Рекурентні нейронні мережі|рекурентних нейронних мереж]], в яких сигнал може поширюватися через якийсь шар більше одного разу, ШПД має потенційно необмежену довжину. Універсально узгодженого порогу глибини, що відділяв би поверхневе навчання від глибинного, не існує, але більшість дослідників у цій галузі погоджуються, що глибинне навчання має декілька нелінійних шарів (ШПД > 2), а Шмідгубер розглядає ШПД > 10 як дуже глибинне навчання.<ref name="SCHIDHUB" />{{rp|7}}


Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину ''шляху розподілу внеску'' (ШРВ, {{lang-en|credit assignment path, CAP}}). ШРВ&nbsp;— це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] глибина ШРВ дорівнює глибині мережі та є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для [[Рекурентна нейронна мережа|рекурентних нейронних мереж]], у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.<ref name="SCHIDHUB" /> Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання ({{lang-en|shallow learning}}) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.<ref>{{Cite book|url=https://books.google.com/books?id=9CqQDwAAQBAJ&pg=PA15|title=Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities|last=Shigeki|first=Sugiyama|date=12 April 2019|publisher=IGI Global|isbn=978-1-5225-8218-2|language=en}}</ref> Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.
=== Фундаментальні поняття ===
Алгоритми глибинного навчання ґрунтуються на розподілених представленнях. Припущенням, що лежить в основі розподілених представлень, є те, що спостережувані дані породжено взаємодією факторів, організованих у рівні. Глибинне навчання додає припущення, що ці рівні факторів відповідають різним рівням абстракції або побудови. Для забезпечення різних ступенів абстракції можуть застосовуватися змінні кількості та розміри шарів.<ref name="BENGIO2012"/>


Архітектури глибокого навчання можливо конструювати пошарово [[Жадібний алгоритм|жадібним]] методом.<ref name="BENGIO2007">{{cite conference | first1=Yoshua | last1=Bengio | first2=Pascal | last2=Lamblin | first3=Dan | last3=Popovici | first4=Hugo | last4=Larochelle | title=Greedy layer-wise training of deep networks | year=2007 | url=http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | conference=Advances in neural information processing systems | pages=153–160 | access-date=2019-10-06 | archive-date=2019-10-20 | archive-url=https://web.archive.org/web/20191020195638/http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | url-status=live | language=en }}</ref> Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.<ref name="BENGIO2012" />
Глибинне навчання використовує цю ідею ієрархічних пояснювальних факторів, де з понять нижчого рівня відбувається навчання абстрактніших понять вищого рівня. Ці архітектури часто будуються за допомогою пошарового [[Жадібний алгоритм|жадібного]] методу. Глибинне навчання дозволяє розплутувати ці абстракції й вихоплювати ознаки, що є корисними для навчання.<ref name="BENGIO2012"/>


Для задач [[навчання з учителем|керованого навчання]] методи глибинного навчання уникають [[конструювання ознак]], перетворюючи дані у компактні проміжні представлення на кшталт [[Метод головних компонент|головних компонент]], і виводять шаруваті структури, що усувають надмірність у представленні.<ref name="BOOK2014"/>
Для завдань [[Кероване навчання|керованого навчання]] методи глибокого навчання усувають [[конструювання ознак]], переводячи дані до компактних проміжних подань, подібних до [[Метод головних компонент|головних компонент]], і виводять багатошарові структури, які усувають надмірність у поданні.


Багато алгоритмів глибинного навчання застосовуються до задач [[Навчання без учителя|спонтанного навчання]]. Це є важливою перевагою, оскільки немічені дані зазвичай є багатшими за мічені. Прикладами глибинних структур, які можуть тренуватися спонтанним чином, є нейронні стискачі історії<ref name="SCHMID1992"/> та [[Глибинна мережа переконань|глибинні мережі переконань]].<ref name="SCHOLARDBNS"/><ref name="BENGIO2012"/>
Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є [[Глибока мережа переконань|глибокі мережі переконань]].<ref name="BENGIO2012" /><ref name="SCHOLARDBNS">{{cite journal | last1 = Hinton | first1 = G.E. | year = 2009| title = Deep belief networks | journal = Scholarpedia | volume = 4 | issue = 5| page = 5947 | doi=10.4249/scholarpedia.5947| bibcode = 2009SchpJ...4.5947H| doi-access = free| language = en }}</ref>


== Інтерпретації ==
== Інтерпретації ==
Глибинні нейронні мережі зазвичай інтерпретують у термінах [[Теорема Цибенка|теореми про універсальне наближення]]<ref name="ReferenceB">Balázs Csanád Csáji. Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary {{ref-en}}</ref><ref name="cyb">{{cite journal | last1 = Cybenko | year = 1989 | title = Approximations by superpositions of sigmoidal functions | url = http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | format = PDF | journal = {{нп|Mathematics of Control, Signals, and Systems}} | volume = 2 | issue = 4 | pages = 303—314 | doi = 10.1007/bf02551274 | accessdate = 14 грудня 2015 | archiveurl = https://web.archive.org/web/20151010204407/http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | archivedate = 10 жовтня 2015 | deadurl = yes }} {{ref-en}}</ref><ref name="horn">{{cite journal | last1 = Hornik | first1 = Kurt | year = 1991 | title = Approximation Capabilities of Multilayer Feedforward Networks | url =https://archive.org/details/sim_neural-networks_1991_4_2/page/251| journal = Neural Networks | volume = 4 | issue = 2| pages = 251–257 | doi=10.1016/0893-6080(91)90009-t}} {{ref-en}}</ref><ref name="Haykin, Simon 1998">Haykin, Simon (1998). ''Neural Networks: A Comprehensive Foundation'', Volume 2, Prentice Hall. ISBN 0-13-273350-1. {{ref-en}}</ref><ref name="Hassoun, M. 1995 p. 48">Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48 {{ref-en}}</ref> або [[Баєсове висновування|ймовірнісного висновування]].<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS" /><ref name="MURPHY">Murphy, K.P. (2012) ''Machine learning: a probabilistic perspective'' MIT Press {{ref-en}}</ref>


Глибокі нейронні мережі зазвичай інтерпретують у термінах [[Теорема про універсальне наближення|теореми про універсальне наближення]]<ref name="cyb">{{cite journal | last1 = Cybenko | year = 1989 | title = Approximations by superpositions of sigmoidal functions | url = http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | journal = {{нп|Mathematics of Control, Signals, and Systems}} | volume = 2 | issue = 4 | pages = 303–314 | doi = 10.1007/bf02551274 | s2cid = 3958369 | url-status = dead | archive-url = https://web.archive.org/web/20151010204407/http://deeplearning.cs.cmu.edu/pdfs/Cybenko.pdf | archive-date = 10 October 2015 | author-link1 = Джордж Цибенко | language = en }}</ref><ref name="horn">{{cite journal | last1 = Hornik | first1 = Kurt | year = 1991 | title = Approximation Capabilities of Multilayer Feedforward Networks | journal = Neural Networks | volume = 4 | issue = 2| pages = 251–257 | doi=10.1016/0893-6080(91)90009-t| s2cid = 7343126| language = en }}</ref><ref name="Haykin, Simon 1998">{{cite book|first=Simon S. |last=Haykin|title=Neural Networks: A Comprehensive Foundation|url={{google books |plainurl=y |id=bX4pAQAAMAAJ}}|year=1999|publisher=Prentice Hall|isbn=978-0-13-273350-2|language=en}}</ref><ref name="Hassoun, M. 1995 p. 48">{{cite book|first=Mohamad H. |last=Hassoun|title=Fundamentals of Artificial Neural Networks|url={{google books |plainurl=y |id=Otk32Y3QkxQC|page=48}}|year=1995|publisher=MIT Press|isbn=978-0-262-08239-6|page=48|language=en}}</ref><ref name="ZhouLu">Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). [http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width The Expressive Power of Neural Networks: A View from the Width] {{Webarchive|url=https://web.archive.org/web/20190213005539/http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width |date=2019-02-13 }}. Neural Information Processing Systems, 6231-6239. {{ref-en}}</ref> або [[Баєсове висновування|ймовірнісного висновування]].<ref>{{cite journal |last1=Orhan |first1=A. E. |last2=Ma |first2=W. J. |date=2017 |title=Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback |journal=Nature Communications |volume=8 |issue=1 |pages=138 | pmid=28743932 | doi=10.1038/s41467-017-00181-8|pmc=5527101 |bibcode=2017NatCo...8..138O | doi-access=free | language=en}}</ref><ref name="BOOK2014" /><ref name="BENGIO2012" /><ref name="SCHIDHUB">{{cite journal|last=Schmidhuber|first=J.|s2cid=11715509|year=2015|title=Deep Learning in Neural Networks: An Overview|journal=Neural Networks|volume=61|pages=85–117|arxiv=1404.7828|doi=10.1016/j.neunet.2014.09.003|pmid=25462637|language=en}}</ref><ref name="MURPHY">{{cite book|first=Kevin P. |last=Murphy|title=Machine Learning: A Probabilistic Perspective|url={{google books |plainurl=y |id=NZP6AQAAQBAJ}}|date=24 August 2012|publisher=MIT Press|isbn=978-0-262-01802-9|language=en}}</ref>
=== Інтерпретація теореми про універсальне наближення ===
[[Теорема Цибенка|Теорема про універсальне наближення]] стосується здатності [[Нейронна мережа прямого поширення|нейронних мереж прямого поширення]] з єдиним прихованим шаром [[Апроксимація|наближувати]] [[Неперервна функція|неперервні функції]].<ref name="ReferenceB"/><ref name="cyb"/><ref name="horn"/><ref name="Haykin, Simon 1998"/><ref name="Hassoun, M. 1995 p. 48"/>


Класична теорема про універсальне наближення стосується здатності [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з одним прихованим шаром скінченного розміру наближувати [[Неперервна функція|неперервні функції]].<ref name="cyb" /><ref name="horn" /><ref name="Haykin, Simon 1998" /><ref name="Hassoun, M. 1995 p. 48" /> 1989 року [[Джордж Цибенко]] опублікував перше її доведення для [[Сигмоїда|сигмоїдних]] передавальних функцій,<ref name="cyb" /> а 1991 року {{нп|Курт Горнік|3=de|4=Kurt Hornik}} узагальнив його для багатошарових архітектур прямого поширення.<ref name="horn" /> Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як [[випрямлений лінійний вузол]] ({{lang-en|rectified linear unit}}) {{нп|Куніхіко Фукусіма|Куніхіко Фукусіми||Kunihiko Fukushima}}.<ref name="Fukushima1969" /><ref name="sonoda17">{{cite journal | last1 = Sonoda | first1 = Sho | last2=Murata | first2=Noboru | s2cid = 12149203 | year = 2017 | title = Neural network with unbounded activation functions is universal approximator | journal = Applied and Computational Harmonic Analysis | volume = 43 | issue = 2 | pages = 233–268 | doi = 10.1016/j.acha.2015.12.005| arxiv = 1505.03654| language = en }}</ref>
Її перше доведення було опубліковано 1989 року [[Джордж Цибенко|Джорджем Цибенком]] для [[Сигмоїда|сигмоїдних]] активаційних функцій,<ref name=cyb /> і було узагальнено для багатошарових архітектур прямого поширення 1991 року Куртом Горником.<ref name=horn />


Теорема про універсальне наближення для [[Глибока нейронна мережа|глибоких нейронних мереж]] розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.<ref name="ZhouLu" /> довели, що якщо ширина [[Глибока нейронна мережа|глибокої нейронної мережі]] з передавальною функцією ''[[ReLU]]'' строго більша за розмірність входу, то ця мережа може наближувати будь-яку [[Інтегровна за Лебегом функція|функцію, інтегровну за Лебегом]]; Якщо її ширина менша або дорівнює розмірності входу, то [[глибока нейронна мережа]] не є універсальним наближувачем.
=== Імовірнісна інтерпретація ===
[[Імовірність|Ймовірнісна]] інтерпретація<ref name="MURPHY" /> походить з галузі [[Машинне навчання|машинного навчання]]. Вона відводить провідне місце висновуванню,<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS" /><ref name="MURPHY" /> а також таким поняттям [[Оптимізація (математика)|оптимізації]], як [[Тренінг|тренування]] та [[тестування]], пов'язаним із узгодженням та [[узагальнення]]м відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність активації як [[Кумулятивна функція розподілу ймовірностей|кумулятивну функцію густини]].<ref name="MURPHY" /> Див. [[Глибинна мережа переконань|глибинну мережу переконань]]. Імовірнісна інтерпретація привела до запровадження [[Виключення (нейронні мережі)|виключення]] ({{lang-en|dropout}}) як [[Регуляризація (математика)|регуляризатора]] в нейронних мережах.<ref name="DROPOUT">{{cite arXiv |last1=Hinton |first1=G. E. |last2=Srivastava| first2 =N.|last3=Krizhevsky| first3=A.| last4 =Sutskever| first4=I.| last5=Salakhutdinov| first5=R.R.|eprint=1207.0580 |class=math.LG |title=Improving neural networks by preventing co-adaptation of feature detectors |date=2012}} {{ref-en}}</ref>


[[Імовірність|Імовірнісна]] інтерпретація<ref name="MURPHY" /> походить з галузі [[Машинне навчання|машинного навчання]]. Вона відводить провідне місце висновуванню,<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS"/><ref name="MURPHY" /> а також таким поняттям [[Оптимізація (математика)|оптимізації]] як [[тренування]] та [[Іспит|випробування]], пов'язаним із допасовуванням та [[Узагальнення|узагальнюванням]] відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як [[Кумулятивна функція розподілу ймовірності|кумулятивну функцію розподілу]].<ref name="MURPHY" /> Імовірнісна інтерпретація призвела до запровадження [[Виключення (нейронні мережі)|виключення]] ({{lang-en|dropout}}) як [[Регуляризація (математика)|регуляризатора]] в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з [[Джон Гопфілд|Гопфілдом]], {{нп|Бернард Уїдроу|Уїдроу||Bernard Widrow}} та {{нп|Кумпаті Нарендра|Нарендрою||Kumpati S. Narendra}}, й популяризовано в оглядах, таких як від {{нп|Крістофер Бішоп|Бішопа||Christopher Bishop}}.<ref name="prml">{{cite book|title=Pattern Recognition and Machine Learning|author=Bishop, Christopher M.|year=2006|publisher=Springer|url=http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|isbn=978-0-387-31073-2|access-date=2017-08-06|archive-date=2017-01-11|archive-url=https://web.archive.org/web/20170111005101/http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|url-status=live|language=en}}</ref>
Імовірнісну інтерпретацію було введено та популяризовано [[Джефрі Хінтон]]ом, {{нп|Джошуа Бенджо|||Yoshua Bengio}}, [[Ян ЛеКун|Яном ЛеКуном]] та [[Юрген Шмідгубер|Юргеном Шмідгубером]].


== Історія ==
== Історія ==
Перший загальний робочий [[алгоритм]] [[кероване навчання|керованого навчання]] багаторівневоі мережі [[персептрон]]ів було опубліковано 1965 року [[Івахненко Олексій Григорович|Олексієм Івахненком]] та [[Лапа Валентин Григорович|Валентином Лапою]].<ref name="ivak1965">{{Cite book|title=Кибернетические предсказывающие устройства|last1=Ивахненко|first1=А.Г.|last2=Лапа|first2=В.Г.|publisher=Наукова думка|year=1965|isbn=|location=Киев|pages=}} {{ref-ru}}</ref> В праці 1971 року ними вже було описано нейронну мережу з 8 шарами, навченими [[Метод групового урахування аргументів|методом групового урахування аргументів]], який широко використовують і досі.<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|date=1971|title=Polynomial theory of complex systems|url=http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.79.4277&rep=rep1&type=pdf|journal=IEEE Transactions on Systems, Man and Cybernetics (4)|pages=364–378|doi=|pmid=|access-date=|archive-date=30 грудня 2017|archive-url=https://web.archive.org/web/20171230230234/http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.79.4277&rep=rep1&type=pdf}} {{ref-en}}</ref><ref name="SCHMID1991" /> Ці ідеї було реалізовано в системі ідентифікації комп'ютера «Альфа», який продемонстрував сам процес навчання.<ref>{{cite web
|url = http://www.mgua.irtc.org.ua/ukr/index.php?page=OGI#5
|title = Біографія О. Г. Івахненка
|author =
|date =
|website = Відділ інформаційних технологій індуктивного моделювання
|publisher =
|accessdate = 30 березня 2016
|archive-date = 1 квітня 2016
|archive-url = https://web.archive.org/web/20160401201048/http://www.mgua.irtc.org.ua/ukr/index.php?page=OGI#5
}}</ref><ref>{{cite web
|url = http://www.gmdh.net/AG/AG.htm
|title = Олексій Григорович Івахненко: Життєвий і творчий шлях ученого. До 90-річного ювілею.
|author =
|date =
|website = Метод Групового Урахування Аргументів
|publisher = Національний Інститут Стратегічних Досліджень НАН України
|accessdate = 30 березня 2016
|quote = За виданням: Олексій Григорович Івахненко: Життєвий і творчий шлях ученого / Під ред. В.С. Степашка. — Київ: МННЦ ІТС НАН України та МОНУ. — 2003. — 29 с.
|archive-date = 12 березня 2016
|archive-url = https://web.archive.org/web/20160312201737/http://gmdh.net/AG/AG.htm
}}</ref> Інші архітектури глибинного навчання, зокрема побудовані зі [[Штучна нейронна мережа|штучних нейронних мереж]] (ШНМ), беруть свій початок щонайменше з [[неокогнітрон]]у, запровадженого Куніхіко Фукусімою 1980 року.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | url = | journal = Biol. Cybern. | volume = 36 | issue = | pages = 193–202 | doi=10.1007/bf00344251}} {{ref-en}}</ref> ШНМ самі по собі беруть свій початок ще раніше. Виклик полягав у тому, як тренувати мережі з декількома шарами.
1989 року [[Ян ЛеКун|Яну ЛеКуну]] та ін. вдалося застосувати до глибинної нейронної мережі стандартний алгоритм [[Метод зворотного поширення помилки|зворотного поширення]], що був відомим як зворотний режим [[Автоматичне диференціювання|автоматичного диференціювання]] з 1970 року,<ref name="lin1970"/><ref name="grie2012"/><ref name="WERBOS1974">P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences, " ''PhD thesis, Harvard University'', 1974. {{ref-en}}</ref> з метою розпізнавання рукописних [[Поштовий індекс|поштових індексів]] на поштових відправленнях. Незважаючи на успіх застосування алгоритму, тривалість тренування мережі на цьому наборі даних складала близько 3 днів, роблячи його практично недоцільним для загального використання.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition, " ''Neural Computation'', 1, pp. 541—551, 1989. {{ref-en}}</ref>
1993 року [[нейронний стискач історії]] [[Юрген Шмідгубер|Юргена Шмідгубера]], реалізований як стек [[Рекурентні нейронні мережі|рекурентних нейронних мереж]] (РНМ), розв'язав задачу «дуже глибокого навчання»,<ref name="SCHIDHUB"/> яка вимагає понад 1&nbsp;000 послідовних шарів в РНМ, розгорнутій у часі.<ref name="schmidhuber1993"/>
1995 року {{нп|Брендан Фрей|||Brendan Frey}} показав, що можливо натренувати мережу, що складається з шести повнозв'язних шарів та кількох сотень прихованих вузлів, застосовуючи {{нп|алгоритм неспання-сну|||Wake-sleep algorithm}}, який було розроблено спільно з {{нп|Пітер Даян|Пітером Даяном||Peter Dayan}} та [[Джефрі Хінтон]]ом.<ref>{{Cite journal|title = The wake-sleep algorithm for unsupervised neural networks |journal = Science|date = 1995-05-26|pages = 1158–1161|volume = 268|issue = 5214|doi = 10.1126/science.7761831|first = Geoffrey E.|last = Hinton|first2 = Peter|last2 = Dayan|first3 = Brendan J.|last3 = Frey|first4 = Radford|last4 = Neal}} {{ref-en}}</ref> Тим не менше, тренування зайняло два дні.


Існує два типи нейронних мереж: [[Нейронна мережа прямого поширення|нейронні мережі прямого поширення]] (НМПП, {{lang-en|feedforward neural network, FNN}}) та [[Рекурентна нейронна мережа|рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural network, RNN}}). РНМ мають цикли у структурі зв'язності, а НМПП&nbsp;— ні. У 1920-х роках {{нп|Вільгельм Ленц|||Wilhelm Lenz}} та {{нп|Ернст Ізінг|||Ernst Ising}} створили та проаналізували [[модель Ізінга]],<ref name="brush67">{{cite journal |doi=10.1103/RevModPhys.39.883|title=History of the Lenz-Ising Model|year=1967|last1=Brush|first1=Stephen G.|journal=Reviews of Modern Physics|volume=39|issue=4|pages=883–893|bibcode=1967RvMP...39..883B|language=en}}</ref> яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року {{нп|Шунічі Амарі|||Shun'ichi Amari}} зробив цю архітектуру адаптивною.<ref name="Amari1972">{{cite journal |last1=Amari |first1=Shun-Ichi |title=Learning patterns and pattern sequences by self-organizing nets of threshold elements|journal= IEEE Transactions |date=1972 |volume=C |issue=21 |pages=1197–1206 |language=en }}</ref><ref name="DLhistory" /> Його навчання РНМ популяризував [[Джон Гопфілд]] 1982 року.<ref name="Hopfield1982">{{cite journal |last1=Hopfield |first1=J. J. |title=Neural networks and physical systems with emergent collective computational abilities |journal= Proceedings of the National Academy of Sciences|date=1982 |volume=79 |issue=8 |pages=2554–2558 |doi=10.1073/pnas.79.8.2554 |pmid=6953413 |pmc=346238 |bibcode=1982PNAS...79.2554H |doi-access=free |language=en }}</ref> РНМ стали центральними для [[розпізнавання мовлення]] та {{нп|Обробка мови|обробки мови||Language processing}}.
В низьку швидкість роблять свій внесок багато факторів, одним з яких є [[проблема зникання градієнту]], проаналізована 1991 року {{нп|Зепп Хохрайтер|Зеппом Хохрайтером||Sepp Hochreiter}}.<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen] {{Webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=6 березня 2015 }}, " ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref><ref name="HOCH2001">S. Hochreiter ''et al.'', "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies, " ''In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press'', 2001. {{ref-en}}</ref>


Чарльз Тапперт пише, що [[Френк Розенблат]] розробив та дослідив усі основні складові сучасних систем глибокого навчання,<ref name="Who Is the Father of Deep Learning?">{{cite book |chapter-url=https://ieeexplore.ieee.org/document/9070967 |chapter=Who Is the Father of Deep Learning? |publisher=IEEE |doi=10.1109/CSCI49370.2019.00067 |accessdate=31 May 2021|title=2019 International Conference on Computational Science and Computational Intelligence (CSCI) |year=2019 |last1=Tappert |first1=Charles C. |pages=343–348 |isbn=978-1-7281-5584-5 |s2cid=216043128 |language=en }}</ref> посилаючись на книгу Розенблата 1962 року,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Френк Розенблат|title=Principles of Neurodynamics|year=1962|publisher=Spartan, New York|language=en}}</ref> якою було запроваджено [[багатошаровий перцептрон]] (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу.<ref name="DLhistory">{{cite arXiv|last=Schmidhuber|first=Jürgen|author-link=Юрген Шмідхубер|date=2022|title=Annotated History of Modern AI and Deep Learning |class=cs.NE|eprint=2212.11279|language=en}}</ref> Проте, оскільки з'єднання, що навчалися, мав лише шар виходу, глибоким навчанням це ще не було. Пізніше це назвали [[Машина екстремального навчання|машиною екстремального навчання]].<ref name="DLhistory" />
В той час як до 1991 року такі мережі застосовувалися для розпізнавання відокремлених двовимірних рукописних цифр, розпізнавання тривимірних об'єктів здійснювалося зіставленням двовимірних зображень із розробленою вручну тривимірною моделлю. Цзюян Вен та ін. висунули припущення, що людський мозок не використовує монолітні тривимірні моделі об'єктів, і 1992 року вони опублікували кресцептрон ({{lang-en|Cresceptron}}),<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively] {{Webarchive|url=https://web.archive.org/web/20170921205838/http://www.cse.msu.edu/%7Eweng/research/CresceptronIJCNN1992.pdf |date=21 вересня 2017 }}, " ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol
I, pp. 576—581, June, 1992. {{ref-en}}</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images] {{Webarchive|url=https://web.archive.org/web/20170921203756/http://www.cse.msu.edu/%7Eweng/research/CresceptronICCV1993.pdf |date=21 вересня 2017 }}, " ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121—128, May, 1993. {{ref-en}}</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron] {{Webarchive|url=https://web.archive.org/web/20210125215527/http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf |date=25 січня 2021 }}, " ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105—139, Nov. 1997. {{ref-en}}</ref> метод виконання розпізнавання тривимірних об'єктів безпосередньо із загромаджених сцен. Кресцептрон є каскадом багатьох шарів, подібних до [[неокогнітрон]]у. Але, на відміну від неокогнітрону, який вимагав ручного об'єднання ознак програмістом, кресцептрон повністю ''автоматично'' навчився відкритого ряду спонтанних ознак на кожному шарі, де кожна ознака представляється ядром згортки. На додачу, кресцептрон також [[Сегментація зображення|відділяв]] кожен вивчений об'єкт із загромадженої сцени шляхом зворотного аналізу через мережу. [[Максимізаційна підвибірка|Максимізаційну підвибірку]] ({{lang-en|max-pooling}}), що нині часто запозичується глибинними нейронними мережами (наприклад, перевірками {{нп|ImageNet}}), було вперше застосовано в кресцептроні для зменшення роздільної здатності положення на коефіцієнт (2×2) до 1 через каскад для кращого узагальнення. Незважаючи на ці переваги, популярним вибором у 1990-х та 2000-х роках були простіші моделі, що використовують розроблені вручну ознаки, орієнтовані на конкретні задачі, такі як [[фільтр Ґабора]] та [[Метод опорних векторів|методи опорних векторів]] ({{lang-en|support vector machines, SVM}}), з причини тодішніх обчислюваних витрат ШНМ, та браку розуміння того, як мозок автономно зв'язує свої біологічні мережі.


Перший загальний, робочий алгоритм навчання для глибоких багатошарових [[перцептрон]]ів прямого поширення керованим навчанням опублікували 1967 року [[Івахненко Олексій Григорович|Олексій Івахненко]] та [[Лапа Валентин Григорович|Валентин Лапа]].<ref name="ivak1965">{{cite book|first1=A. G. |last1=Ivakhnenko |author-link1=Івахненко Олексій Григорович |first2=V. G. |last2=Lapa |title=Cybernetics and Forecasting Techniques|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|year=1967|publisher=American Elsevier Publishing Co.|isbn=978-0-444-00020-0|language=en}}</ref> У статті 1971 року описано глибоку мережу з восьми шарів, треновану [[Метод групового урахування аргументів|методом групового урахування аргументів]].<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|author-link1=Івахненко Олексій Григорович|date=1971|title=Polynomial theory of complex systems|url=http://gmdh.net/articles/history/polynomial.pdf|journal=IEEE Transactions on Systems, Man, and Cybernetics|pages=364–378|doi=10.1109/TSMC.1971.4308320|volume=SMC-1|issue=4|access-date=2019-11-05|archive-date=2017-08-29|archive-url=https://web.archive.org/web/20170829230621/http://www.gmdh.net/articles/history/polynomial.pdf|url-status=live|language=en}}</ref>
В довгій історії розпізнавання мовлення протягом багатьох років досліджувалося як поверхневе, так і глибинне навчання (наприклад, рекурентні мережі) штучних нейронних мереж.<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) «Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI» {{ref-en}}</ref><ref name="Robinson1992">T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP. {{ref-en}}</ref><ref name="Waibel1989">Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) «Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing.» {{ref-en}}</ref> Але ці методи ніколи не перемагали неоднорідну внутрішньо-ручну технологію ґаусових {{нп|Сумішева модель|сумішевих моделей||Mixture model}}/[[Прихована марковська модель|прихованих марковських моделей]] (ҐСМ-ПММ, {{lang-en|GMM-HMM}}), що ґрунтується на породжувальних моделях мовлення, натренованих [[Розрізнювальна модель|розрізнювально]].<ref name="Baker2009">{{cite journal | last1 = Baker | first1 = J. | last2 = Deng | first2 = Li | last3 = Glass | first3 = Jim | last4 = Khudanpur | first4 = S. | last5 = Lee | first5 = C.-H. | last6 = Morgan | first6 = N. | last7 = O'Shaughnessy | first7 = D. | year = 2009 | title = Research Developments and Directions in Speech Recognition and Understanding, Part 1 | url = | journal = IEEE Signal Processing Magazine | volume = 26 | issue = 3| pages = 75–80 | doi=10.1109/msp.2009.932166}} {{ref-en}}</ref> Було методично проаналізовано ряд ключових труднощів, включно зі зменшенням градієнту<ref name="HOCH1991"/> та слабкою структурою часової кореляції в нейронних передбачувальних моделях.<ref name="Bengio1991">Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition, " Ph.D. thesis, McGill University, Canada.{{ref-en}}</ref><ref name="Deng1994">{{cite journal | last1 = Deng | first1 = L. | last2 = Hassanein | first2 = K. | last3 = Elmasry | first3 = M. | year = 1994 | title = Analysis of correlation structure for a neural predictive model with applications to speech recognition | url =https://archive.org/details/sim_neural-networks_1994_7_2/page/331| journal = Neural Networks | volume = 7 | issue = 2| pages = 331–339 | doi=10.1016/0893-6080(94)90027-2}} {{ref-en}}</ref> Додатковими утрудненнями в ті ранні дні були брак великих тренувальних даних та слабші обчислювальні потужності. Отже, більшість дослідників розпізнавання мовлення, які розуміли такі перешкоди, відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був {{нп|SRI International}} в кінці 1990-х років. Фінансований агенціями [[Агентство національної безпеки|АНБ]] та [[Агентство передових оборонних дослідницьких проектів США|DARPA]] уряду США, SRI здійснював дослідження з глибинних нейронних мереж у розпізнаванні мовлення та мовника. Команда розпізнавання мовника під проводом [https://www.linkedin.com/in/larryheck Ларрі Гека] ({{lang-en|Larry Heck}}) досягла першого значного успіху з глибинними нейронними мережами в обробці мовлення, який було продемонстровано 1998 року на [http://www.nist.gov/itl/iad/mig/sre.cfm Оцінці розпізнавання мовника NIST (National Institute of Standards and Technology)] {{Webarchive|url=https://web.archive.org/web/20160510154238/http://www.nist.gov/itl/iad/mig/sre.cfm |date=10 травня 2016 }}, і пізніше опубліковано в журналі Speech Communication.<ref name="Heck2000">{{cite journal | last1 = Heck | first1 = L. | last2 = Konig | first2 = Y. | last3 = Sonmez | first3 = M. | last4 = Weintraub | first4 = M. | year = 2000 | title = Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design | url = | journal = Speech Communication | volume = 31 | issue = 2| pages = 181–192 | doi=10.1016/s0167-6393(99)00077-1}} {{ref-en}}</ref> І хоча SRI досяг успіху з глибинними мережами в розпізнаванні мовника, вони були безуспішними в демонстрації подібного успіху в розпізнаванні мовлення. Хінтон та ін. і Ден та ін. зробили огляд цієї нещодавньої історії про те, як їхня співпраця між собою, а потім і з колегами з-поміж чотирьох груп (Університету Торонто, Microsoft, Google та IBM), запалила відродження глибинних нейронних мереж в розпізнаванні мовлення.<ref name=HintonDengYu2012/><ref name="ReferenceICASSP2013">{{cite journal|last1=Deng|first1=L.|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.|title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)| date=2013}} {{ref-en}}</ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton). {{ref-en}}</ref><ref name="interspeech2014Keynote">Keynote talk: "Achievements and Challenges of Deep Learning&nbsp;— From Speech Analysis and Recognition To Language and Multimodal Processing, " Interspeech, September 2014. {{ref-en}}</ref>


Перший [[багатошаровий перцептрон]] глибокого навчання, тренований [[Стохастичний градієнтний спуск|стохастичним градієнтним спуском]],<ref name="robbins1951">{{Cite journal | last1 = Robbins | first1 = H. | author-link = Герберт Роббінс| last2 = Monro | first2 = S. | doi = 10.1214/aoms/1177729586 | title = A Stochastic Approximation Method | journal = The Annals of Mathematical Statistics | volume = 22 | issue = 3 | pages = 400 | year = 1951 | doi-access = free | language = en }}</ref> опублікував 1967 року {{нп|Шунічі Амарі|||Shun'ichi Amari}}.<ref name="Amari1967">{{cite journal |last1=Amari |first1=Shun'ichi |author-link=Шунічі Амарі|title=A theory of adaptive pattern classifier|journal= IEEE Transactions |date=1967 |volume=EC |issue=16 |pages=279–307 |language=en}}</ref><ref name="DLhistory"/> У комп'ютерних експериментах, проведених учнем Амарі, Сайто, п'ятишаровий БШП із двома змінними шарами навчився [[Подання знань|внутрішніх подань]] для класифікування нелінійно роздільних класів образів.<ref name="DLhistory" /> 1987 року Метью Бренд повідомив, що широкі 12-шарові нелінійні перцептрони можливо повністю наскрізно тренувати відтворювати логічні функції нетривіальної глибини ланцюга за допомогою градієнтного спуску на невеликих пакетах випадкових вибірок входів/виходів, але зробив висновок, що час тренування на тогочасному обладнанні (домегафлопних комп'ютерах) зробив цю методику непрактичною, та запропонував використовувати незмінні випадкові ранні шари як хеш входу для єдиного змінюваного рівня.<ref name="Brand1988">Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987 {{ref-en}}</ref> Натомість подальші розробки апаратного забезпечення та підлаштовування гіперпараметрів зробили наскрізний [[стохастичний градієнтний спуск]] нині переважною методикою тренування.
Сьогодні, проте, багато аспектів розпізнавання мовлення було перебрано методом глибинного навчання, який називається [[Довга короткочасна пам'ять|довгою короткочасною пам'яттю]] (ДКЧП, {{lang-en|long short-term memory, LSTM}}), [[Рекурентна нейронна мережа|рекурентною нейронною мережею]], опублікованою {{нп|Зепп Хохрайтер|Зеппом Хохрайтером||Sepp Hochreiter}} та [[Юрген Шмідгубер|Юргеном Шмідгубером]] 1997 року.<ref name=lstm/> РНМ ДКЧП уникають [[Проблема зникання градієнту|проблеми зникання градієнту]], і можуть навчатися задач «дуже глибокого навчання»,<ref name="SCHIDHUB"/> які вимагають спогадів про події, які сталися тисячі дискретних кроків часу тому, що є важливим у мовлені. 2003 року ДКЧП почала ставати конкурентноспроможною у порівнянні з традиційними розпізнавачами мовлення в деяких задачах.<ref name="graves2003"/> Пізніше її було поєднано з {{H:title|Нейромережева часова класифікація|НЧК}} ({{lang-en|CTC}})<ref name="graves2006"/> у стеках РНМ ДКЧП.<ref name="fernandez2007keyword"/> 2015 року в розпізнаванні мовлення Google, як повідомляється, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яка тепер доступна через {{нп|Google Voice}} користувачам усіх смартфонів,<ref name="sak2015"/> і стала зразково-показовим прикладом глибинного навчання.


1970 року {{нп|Сеппо Ліннаінмаа|||Seppo Linnainmaa}} опублікував зворотний режим [[Автоматичне диференціювання|автоматичного диференціювання]] дискретно зв'язаних мереж вкладених [[Диференційовна функція|диференційовних]] функцій.<ref name="lin1970">{{cite thesis|first=Seppo|last=Linnainmaa|author-link=Сеппо Ліннаінмаа|year=1970|type=Masters|title=The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors|language=fi|publisher=University of Helsinki|pages=6–7}}</ref><ref name="lin1976">{{cite journal|last1=Linnainmaa|first1=Seppo|author-link=Сеппо Ліннаінмаа|year=1976|title=Taylor expansion of the accumulated rounding error|journal=BIT Numerical Mathematics|volume=16|issue=2|pages=146–160|doi=10.1007/bf01931367|s2cid=122357351|language=en}}</ref><ref name="grie2012">{{Cite journal|last=Griewank|first=Andreas|date=2012|title=Who Invented the Reverse Mode of Differentiation?|url=http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|journal=Documenta Mathematica|issue=Extra Volume ISMP|pages=389–400|access-date=11 June 2017|archive-url=https://web.archive.org/web/20170721211929/http://www.math.uiuc.edu/documenta/vol-ismp/52_griewank-andreas-b.pdf|archive-date=21 July 2017|url-status=dead|language=en}}</ref> Він став відомим як [[зворотне поширення]].<ref name="SCHIDHUB" /> Це ефективне застосування [[Ланцюгове правило|ланцюгового правила]], виведеного [[Готфрід Вільгельм Лейбніц|Готфрідом Вільгельмом Лейбніцем]] 1673 року,<ref name="leibniz1676">{{Cite book|last=Leibniz|first=Gottfried Wilhelm Freiherr von|url=https://books.google.com/books?id=bOIGAAAAYAAJ&q=leibniz+altered+manuscripts&pg=PA90|title=The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir)|date=1920|publisher=Open court publishing Company|isbn=9780598818461 |language=en}}</ref> до мереж диференційовних вузлів.<ref name="DLhistory"/> Термінологію «зворотно поширювані похибки» ({{lang-en|"back-propagating errors"}}) фактично запровадив 1962 року Розенблат,<ref name="rosenblatt1962" /><ref name="DLhistory" /> але він не знав, як це втілити, хоча {{нп|Генрі Келлі|||Henry J. Kelley}} вже 1960 року мав безперервного попередника [[Зворотне поширення|зворотного поширення]]<ref name="kelley1960">{{cite journal|last1=Kelley|first1=Henry J.|author-link=Генрі Келлі|year=1960|title=Gradient theory of optimal flight paths|journal=ARS Journal|volume=30|issue=10|pages=947–954|doi=10.2514/8.5282|language=en}}</ref> в контекст [[Теорія керування|теорії керування]].<ref name="DLhistory" /> 1982 року {{нп|Пол Вербос|||Paul Werbos}} застосував [[зворотне поширення]] до БШП у спосіб, який став стандартним.<ref name="werbos1982">{{Cite book|title=System modeling and optimization|last=Werbos|first=Paul|publisher=Springer|year=1982|pages=762–770|chapter=Applications of advances in nonlinear sensitivity analysis|language=en}}</ref><ref name="WERBOS1974">{{Cite journal|last=Werbos|first=P.|date=1974|title=Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences |url=https://www.researchgate.net/publication/35657389 |journal=Harvard University |access-date=12 June 2017 |language=en}}</ref><ref name="DLhistory" /> 1985 року {{нп|Девід Румельхарт|||David Rumelhart}} зі співавт. опублікували експериментальний аналіз цієї методики.<ref name="rumelhart1986">Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "[https://apps.dtic.mil/dtic/tr/fulltext/u2/a164453.pdf Learning Internal Representations by Error Propagation]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986. {{ref-en}}</ref>
Згідно дослідження,<ref name="scholarpedia">{{cite journal | last1 = Schmidhuber | first1 = Jürgen | authorlink = Юрген Шмідгубер | year = 2015 | title = Deep Learning | url = http://www.scholarpedia.org/article/Deep_Learning | journal = Scholarpedia | volume = 10 | issue = 11 | page = 32832 | doi = 10.4249/scholarpedia.32832 | accessdate = 13 травня 2016 | archive-date = 19 квітня 2016 | archive-url = https://web.archive.org/web/20160419024349/http://www.scholarpedia.org/article/Deep_Learning }} {{ref-en}}</ref> вираз «глибинне навчання» ({{lang-en|Deep Learning}}) було введено до спільноти [[Машинне навчання|машинного навчання]] {{нп|Ріна Дехтер|Ріною Дехтер||Rina Dechter}} 1986 року,<ref name="dechter1986">{{нп|Ріна Дехтер|Rina Dechter||Rina Dechter}} (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online] {{Webarchive|url=https://web.archive.org/web/20160419054654/https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems |date=19 квітня 2016 }} {{ref-en}}</ref> і пізніше до [[Штучна нейронна мережа|штучних нейронних мереж]]&nbsp;— Ігорем Айзенбергом з колегами 2000 року.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media. {{ref-en}}</ref> Графік Google Ngram показує, що застосування цього терміну набрало обертів (фактично, злетіло) з 2000 року.<ref name="DLchart">Графік Google Ngram застосування виразу «deep learning», опублікований Юргеном Шмідгубером (2015) [https://plus.google.com/100849856540000067209/posts/7N6z251w2Wd?pid=6127540521703625346&oid=100849856540000067209 Online] {{Webarchive|url=https://web.archive.org/web/20160620211503/https://plus.google.com/100849856540000067209/posts/7N6z251w2Wd?pid=6127540521703625346&oid=100849856540000067209 |date=20 червня 2016 }}</ref>
2006 року публікація [[Джефрі Хінтон]]а та Руслана Салахутдінова привернула додаткову увагу, показавши, як багатошарову [[Нейронна мережа прямого поширення|нейронну мережу прямого поширення]] може бути попередньо натреновано шар за шаром, з розглядом кожного шару в свою чергу як [[Навчання без учителя|спонтанної]] [[Обмежена машина Больцмана|обмеженої машини Больцмана]], а потім здійснено її тонке налаштування із застосуванням [[Навчання з учителем|керованого]] [[Метод зворотного поширення помилки|зворотного поширення]].<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation, " ''Trends in Cognitive Sciences'', 11, pp. 428—434, 2007. {{ref-en}}</ref> 1992 року Шмідгубер вже реалізував дуже подібну ідею для загальнішого випадку спонтанних глибинних ієрархій [[Рекурентні нейронні мережі|рекурентних нейронних мереж]], і також експериментально показав її переваги для прискорення керованого навчання.<ref name="SCHMID1992">J. Schmidhuber., [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.49.3934&rep=rep1&type=pdf "Learning complex, extended sequences using the principle of history compression, "] {{Webarchive|url=https://web.archive.org/web/20130604104837/http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.49.3934&rep=rep1&type=pdf |date=4 червня 2013 }} ''Neural Computation'', 4, pp. 234—242, 1992. {{ref-en}}</ref><ref name="SCHMID1991">{{cite web
| url = http://people.idsia.ch/~juergen/firstdeeplearner.html
| title = My First Deep Learning System of 1991.+ Deep Learning Timeline 1960-2013
| author = Jürgen Schmidhuber
| authorlink = Юрген Шмідхубер
| arxiv = 1312.5548v1
| accessdate = 30 березня 2016
| archive-date = 14 квітня 2016
| archive-url = https://web.archive.org/web/20160414090909/http://people.idsia.ch/~juergen/firstdeeplearner.html
}} {{ref-en}}</ref>


Ахітектури глибокого навчання для [[Згорткова нейронна мережа|згорткових нейронних мереж]] (ЗНМ, {{lang-en|convolutional neural networks, CNN}}) зі згортковими шарами та шарами зниження роздільності почалися з [[неокогнітрон]]а, запропонованого {{нп|Куніхіко Фукусіма|Куніхіко Фукусімою||Kunihiko Fukushima}} 1980 року.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | journal = Biol. Cybern. | volume = 36 | issue = 4| pages = 193–202 | doi=10.1007/bf00344251 | pmid=7370364| s2cid = 206775608| language = en }}</ref> 1969 року він також запропонував [[Передавальна функція штучного нейрона|передавальну функцію]] ''[[ReLU]]'' ({{lang-en|rectified linear unit}}, випрямлений лінійний вузол).<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=Visual feature extraction by a multilayered network of analog threshold elements |journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225 |language=en}}</ref><ref name="DLhistory" /> Цей випрямляч ({{lang-en|rectifier}}) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=October 16, 2017 |title=Searching for Activation Functions |eprint=1710.05941 |class=cs.NE |language=en}}</ref> ЗНМ стали важливим інструментом [[Комп'ютерне бачення|комп'ютерного бачення]].
З моменту свого відродження, глибинне навчання стало частиною багатьох передових систем у різноманітних дисциплінах, зокрема таких як [[комп'ютерне бачення]] та [[автоматичне розпізнавання мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}). Результати на широко вживаних оцінкових наборах, таких як {{нп|TIMIT}} (АРМ) та [[MNIST (база даних)|MNIST]] ([[класифікація зображень]]), як і на ряді великих словникових задач розпізнавання мовлення, постійно покращуються новими застосуваннями глибинного навчання.<ref name=HintonDengYu2012/><ref>http://research.microsoft.com/apps/pubs/default.aspx?id=189004 {{Webarchive|url=https://web.archive.org/web/20151222140417/http://research.microsoft.com/apps/pubs/default.aspx?id=189004 |date=22 грудня 2015 }} {{ref-en}}</ref><ref name="MS2013">L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft, ICASSP, 2013. {{ref-en}}</ref> Нещодавно було показано, що архітектури глибинного навчання у вигляді [[Згорткова нейронна мережа|згорткових нейронних мереж]] були чи не найефективнішими;<ref name="CNNspeech2013">L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013. {{ref-en}}</ref><ref name="SAIN2013" /> проте вони ширше застосовуються в комп'ютерному баченні, ніж в АРМ, і сучасне великомасштабне розпізнавання мовлення зазвичай ґрунтується на {{H:title|Нейромережева часова класифікація|НЧК}}<ref name="graves2006"/> для ДКЧП.<ref name=lstm/><ref name="sak2015"/><ref name="sak2014"/><ref name="liwu2015"/><ref name="zen2015"/>


Термін ''глибоке навчання'' ({{lang-en|Deep Learning}}) у спільноті машинного навчання запровадила 1986 року {{нп|Ріна Дехтер|||Rina Dechter}},<ref name="dechter1986">{{нп|Ріна Дехтер|Rina Dechter||Rina Dechter}} (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online] {{Webarchive|url=https://web.archive.org/web/20160419054654/https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems |date=2016-04-19 }} {{ref-en}}</ref> а для [[Штучна нейронна мережа|штучних нейронних мереж]]&nbsp;— Ігор Айзенберг з колегами у 2000 року в контексті {{нп|Булева мережа|булевих||Boolean network}} порогових нейронів.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media. {{ref-en}}</ref><ref>Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005. {{ref-en}}</ref>
Реальний вплив глибинного навчання в промисловості, мабуть, почався на початку 2000-х років, коли ЗНМ, згідно Яна ЛеКуна,<ref name="lecun2016slides">[[Ян ЛеКун|Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online] {{Webarchive|url=https://web.archive.org/web/20160423021403/https://indico.cern.ch/event/510372/ |date=23 квітня 2016 }} {{ref-en}}</ref> вже обробили оцінювані від 10&nbsp;% до 20&nbsp;% всіх перевірок, написаних у США на початку 2000-х років. Промислові застосування великомасштабного розпізнавання мовлення почалися близько 2010 року. Наприкінці 2009 року Лі Ден запросив Джефа Хінтона було до праці з ним та колегами в [[Microsoft Research]] для застосування глибинного навчання до розпізнавання мовлення. Вони співорганізували 2009 року Семінар NIPS з глибинного навчання для розпізнавання мовлення. Цей семінар спонукали обмеження глибинних породжувальних моделей мовлення, та можливість того, що ера великих обчислень та великих даних виправдовує серйозну спробу глибинних нейронних мереж (ГНМ, {{lang-en|deep neural net, DNN}}). Вважалося, що попереднє тренування ГНМ із застосуванням [[Породжувальна модель|породжувальних моделей]] глибинних мереж переконань (ГМП, {{lang-en|deep belief net, DBN}}) подолає головні труднощі нейронних мереж, з якими зіткнулися в 1990-х роках.<ref name="HintonKeynoteICASSP2013"/> Проте на ранніх етапах цього дослідження в Microsoft Research було виявлено, що без попереднього тренування, але при застосуванні великих кількостей тренувальних даних, і особливо ГНМ, розроблених з відповідно великими, контекстно-залежними вихідними шарами, породжувалися різко нижчі рівні похибки, ніж у тоді-передових ҐСМ-ПММ, а також у більш просунутих системах розпізнавання мовлення на базі породжувальних моделей. Це відкриття було перевірено кількома іншими головними групами дослідження розпізнавання мовлення.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition&nbsp;— The shared views of four research groups | url = | journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597}} {{ref-en}}</ref><ref name="patent2011">D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks, " U.S. Patent Filing. {{ref-en}}</ref> Далі було встановлено, що природа похибок розпізнавання, продукованих цими двома типами систем, має характерні відмінності,<ref name="ReferenceICASSP2013"/><ref name="NIPS2009">NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu). {{ref-en}}</ref> що приносить технічне розуміння того, як інтегрувати глибинне навчання до наявних високоефективних систем декодування мовлення в реальному часі, розгорнутих усіма головними гравцями в галузі розпізнавання мовлення. Історію цього знаменного розвитку в глибинному навчанні було описано та проаналізовано в нещодавніх книгах та статтях.<ref name=BOOK2014 /><ref name="ReferenceA">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)| date=2014}} {{ref-en}}</ref><ref>IEEE (2015)http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx {{Webarchive|url=https://web.archive.org/web/20160302143651/http://blogs.technet.com/b/inside_microsoft_research/archive/2015/12/03/deng-receives-prestigious-ieee-technical-achievement-award.aspx |date=2 березня 2016 }} {{ref-en}}</ref>


1988 року Вей Чжан зі співавт. застосували алгоритм [[Зворотне поширення|зворотного поширення]] до [[Згорткова нейронна мережа|згорткової нейронної мережі]] (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.<ref name="wz1988">{{cite journal |last=Zhang |first=Wei |date=1988 |title=Shift-invariant pattern recognition neural network and its optical architecture |url=https://drive.google.com/file/d/1nN_5odSG_QVae54EsQN_qSz-0ZsX6wA0/view?usp=sharing |journal=Proceedings of Annual Conference of the Japan Society of Applied Physics |language=en}}</ref><ref name="wz1990">{{cite journal |last=Zhang |first=Wei |date=1990 |title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture |url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing |journal=Applied Optics |volume=29 |issue=32 |pages=4790–7 |doi=10.1364/AO.29.004790 |pmid=20577468 |bibcode=1990ApOpt..29.4790Z |language=en}}</ref> 1989 року [[Ян ЛеКун]] зі співавт. застосували [[зворотне поширення]] до ЗНМ з метою [[Розпізнавання рукописного введення|розпізнавання рукописних поштових індексів]] у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989. {{ref-en}}</ref> Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,<ref>{{cite journal |last=Zhang |first=Wei |date=1991 |title=Image processing of human corneal endothelium based on a learning network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5cm5DTlNGd0NPUmM/view?usp=sharing |journal=Applied Optics |volume=30 |issue=29 |pages=4211–7 |doi=10.1364/AO.30.004211 |pmid=20706526 |bibcode=1991ApOpt..30.4211Z |language=en}}</ref> та для виявляння раку молочної залози на [[мамограма]]х 1994 року.<ref>{{cite journal |last=Zhang |first=Wei |date=1994 |title=Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5Ml9qeW5nQ3poVTQ/view?usp=sharing |journal=Medical Physics |volume=21 |issue=4 |pages=517–24 |doi=10.1118/1.597177 |pmid=8058017 |bibcode=1994MedPh..21..517Z |language=en}}</ref> ''LeNet''-5 (1998), 7-рівневу ЗНМ від [[Ян ЛеКун|Яна ЛеКуна]] зі співавт.,<ref name="lecun98">{{cite journal |last=LeCun |first=Yann |author2=Léon Bottou |author3=Yoshua Bengio |author4=Patrick Haffner |title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |year=1998 |volume=86 |issue=11 |pages=2278–2324 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf |access-date=October 7, 2016 |doi=10.1109/5.726791 |citeseerx=10.1.1.32.9552|s2cid=14542261|language=en }}</ref> що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.
Досягнення в апаратному забезпеченні також були важливими у поновленні зацікавлення глибинним навчанням. Зокрема, потужні [[Графічний процесор|графічні процесори]] ({{lang-en|GPU}}) добре підходять для того роду перемелювання чисел, матрично/векторної математики, що залучає машинне навчання.<ref name="jung2004">{{cite journal | last1 = Oh | first1 = K.-S. | last2 = Jung | first2 = K. | year = 2004 | title = GPU implementation of neural networks | url = | journal = Pattern Recognition | volume = 37 | issue = 6| pages = 1311–1314 | doi=10.1016/j.patcog.2004.01.013}} {{ref-en}}</ref><ref name="chellapilla2006">Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for document processing. International Workshop on Frontiers in Handwriting Recognition. {{ref-en}}</ref> Було показано, що графічні процесори прискорюють тренувальні алгоритми на порядки, повертаючи тривалості виконання з тижнів назад до днів.<ref name="CIRESAN2010">D. C. Ciresan ''et al.'', "Deep Big Simple Neural Nets for Handwritten Digit Recognition, " ''Neural Computation'', 22, pp. 3207–3220, 2010. {{ref-en}}</ref><ref name="RAINA2009">R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors, " ''Proc. 26th Int. Conf. on Machine Learning'', 2009. {{ref-en}}</ref>


У 1980-х роках [[зворотне поширення]] не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, [[Юрген Шмідхубер]] (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево {{нп|Самокероване навчання|самокерованим навчанням||Self-supervised learning}}.<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 |language=en }}</ref> Вона використовує {{нп|передбачувальне кодування|||Predictive coding}} для навчання [[Подання знань|внутрішніх подань]] у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо ''скласти'' ({{lang-en|collapse}}) в єдину РНМ шляхом {{нп|Дистилювання знань|дистилювання||Knowledge distillation}} ''фрагментувальної'' ({{lang-en|chunker}}) мережі вищого рівня до ''автоматизаторної'' ({{lang-en|automatizer}}) мережі нижчого рівня.<ref name="schmidhuber1992" /><ref name="DLhistory" /> 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.<ref name="schmidhuber1993">{{Cite book |url=ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |title=Habilitation Thesis |last=Schmidhuber |first=Jürgen |year=1993 |language=de |archive-url=https://web.archive.org/web/20210626185737/ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |archive-date=26 June 2021 |url-status=dead}}</ref>
== Штучні нейронні мережі ==
Деякі з найуспішніших методів глибинного навчання включають штучні [[Нейронна мережа|нейронні мережі]]. Штучні нейронні мережі було розроблено під натхненням біологічної моделі 1959 року, запропонованої [[Нобелівський лауреат|нобелівськими лауреатами]] [[Девід Гантер Г'юбел|Девідом Гантером Г'юбелем]] та [[Торстен Візел|Торстеном Візелем]], які виявили два типи клітин у [[Первинна зорова кора|первинній зоровій корі]]: {{нп|Проста клітина|прості||Simple cell}} та {{нп|Складна клітина|складні клітини||Complex cell}}. Багато штучних нейронних мереж можуть розглядатися як каскадні моделі<ref name="Weng1992"/><ref name="Weng1993"/><ref name="Weng1997"/><ref>{{cite journal | last1 = Riesenhuber | first1 = M | last2 = Poggio | first2 = T | year = 1999 | title = Hierarchical models of object recognition in cortex | doi = 10.1038/14819 | journal = Nature Neuroscience | volume = 2 | issue = 11| pages = 1019–1025 }} {{ref-en}}</ref> типів клітин, надихнутих цими біологічними спостереженнями.


1992 року [[Юрген Шмідхубер]] також опублікував ''альтернативу РНМ'' ({{lang-en|alternative to RNNs}}),<ref name="transform1992">{{Cite journal |last1=Schmidhuber|first1=Jürgen|author-link1=Юрген Шмідхубер|date=1 November 1992|title=Learning to control fast-weight memories: an alternative to recurrent nets.|journal=Neural Computation|volume=4|issue=1 |pages=131–139|doi=10.1162/neco.1992.4.1.131 |s2cid=16683347 |language=en }}</ref> яку зараз називають ''лінійним [[Трансформер (модель машинного навчання)|трансформером]]'' ({{lang-en|linear Transformer}}) або трансформером з лінеаризованою [[Увага (машинне навчання)|самоувагою]]<ref name="schlag2021" /><ref name="choromanski2020">{{cite arXiv|eprint=2009.14794|class=cs.CL|last1=Choromanski |first1=Krzysztof |last2=Likhosherstov |first2=Valerii |last3=Dohan |first3=David |last4=Song |first4=Xingyou |last5=Gane |first5=Andreea |last6=Sarlos |first6=Tamas |last7=Hawkins |first7=Peter |last8=Davis |first8=Jared |last9=Mohiuddin |first9=Afroz |last10=Kaiser |first10=Lukasz |last11=Belanger |first11=David |last12=Colwell |first12=Lucy |last13=Weller |first13=Adrian |title=Rethinking Attention with Performers |year=2020 |language=en }}</ref><ref name="DLhistory" /> (за винятком оператора нормування). Він навчається ''внутрішніх центрів уваги'' ({{lang-en|internal spotlights of attention}}):<ref name="attention1993">{{Cite conference | last1=Schmidhuber|first1=Jürgen|author-link1=Юрген Шмідхубер|title= Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets|publisher=Springer|date=1993 |pages=460–463 |book-title=ICANN 1993 |language=en}}</ref> повільна [[нейронна мережа прямого поширення]] вчиться за допомогою [[Градієнтний спуск|градієнтного спуску]] керувати швидкими вагами іншої нейронної мережі через [[Діадний добуток|тензорні добутки]] самопороджуваних шаблонів збудження ''FROM'' і ''TO'' (званих тепер ''ключем'', {{lang-en|key}}, та ''значенням'', {{lang-en|value}}, [[Увага (машинне навчання)|самоуваги]]).<ref name="schlag2021">{{Cite conference | last1=Schlag|first1=Imanol| last2=Irie|first2=Kazuki| last3=Schmidhuber|first3=Jürgen|author-link1=Юрген Шмідхубер|title= Linear Transformers Are Secretly Fast Weight Programmers|publisher=Springer|date=2021 |pages=9355–9366 |book-title= ICML 2021 |language= en}}</ref> Це ''відображення уваги'' ({{lang-en|attention mapping}}) швидких ваг застосовують до шаблону запиту.
Нейрокогнітрон Фукусіми представив [[Згортка (математичний аналіз)|згорткові]] нейронні мережі, частково треновані [[Навчання без учителя|спонтанним навчанням]] із вказаними людьми ознаками в нейронній площині. [[Ян ЛеКун]] та ін. (1989) застосували до таких архітектур контрольоване [[Метод зворотного поширення помилки|зворотне поширення]].<ref name="LeCun1989">Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. 1989 ''Backpropagation Applied to Handwritten Zip Code Recognition.'' Neural Computation, 1(4):541–551. {{ref-en}}</ref> Вен та ін. (1992) опублікували згорткові нейронні мережі «кресцептрон»<ref name="Weng1992"/><ref name="Weng1993"/><ref name="Weng1997"/> для розпізнавання тривимірних об'єктів із зображень загромаджених сцен та [[Сегментація зображення|виділення]] таких об'єктів із зображень.


Сучасний [[Трансформер (модель машинного навчання)|трансформер]] ({{lang-en|Transformer}}) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага&nbsp;— це все, що вам треба».<ref name="vaswani2017">{{cite arXiv|last8=Polosukhin|first8=Illia|last7=Kaiser|first7=Lukasz|last6=Gomez|first6=Aidan N.|last5=Jones|first5=Llion|last4=Uszkoreit|first4=Jakob|last3=Parmar|first3=Niki|last2=Shazeer|first2=Noam|last1=Vaswani|first1=Ashish|date=2017-06-12|title=Attention Is All You Need|eprint=1706.03762|class=cs.CL|language=en}}</ref> Він поєднує це з оператором [[Нормована експоненційна функція|''softmax'']] та проєкційною матрицею.<ref name="DLhistory" /> Трансформери все частіше обирають за модель для [[Обробка природної мови|обробки природної мови]].<ref name="wolf2020">{{cite book|last1=Wolf|first1=Thomas|last2=Debut|first2=Lysandre|last3=Sanh|first3=Victor|last4=Chaumond|first4=Julien|last5=Delangue|first5=Clement|last6=Moi|first6=Anthony|last7=Cistac|first7=Pierric|last8=Rault|first8=Tim|last9=Louf|first9=Remi|last10=Funtowicz|first10=Morgan|last11=Davison|first11=Joe|last12=Shleifer|first12=Sam|last13=von Platen|first13=Patrick|last14=Ma|first14=Clara|last15=Jernite|first15=Yacine|last16=Plu|first16=Julien|last17=Xu|first17=Canwen|last18=Le Scao|first18=Teven|last19=Gugger|first19=Sylvain|last20=Drame|first20=Mariama|last21=Lhoest|first21=Quentin|last22=Rush|first22=Alexander|title=Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations|chapter=Transformers: State-of-the-Art Natural Language Processing|year=2020|pages=38–45|doi=10.18653/v1/2020.emnlp-demos.6|s2cid=208117506|language=en}}</ref> Багато сучасних великих мовних моделей, таких як ''[[ChatGPT]]'', [[GPT-4|''GPT''-4]] та [[BERT (модель мови)|''BERT'']], використовують саме його. Трансформери також все частіше використовують у [[Комп'ютерне бачення|комп'ютернім баченні]].<ref>{{cite web |last1=He |first1=Cheng |title=Transformer in CV |url=https://towardsdatascience.com/transformer-in-cv-bbdb58bf335e |website=Transformer in CV |date=31 December 2021 |publisher=Towards Data Science |language=en}}</ref>
Очевидною потребою для розпізнавання звичайних тривимірних об'єктів є інваріантність відносно найменшого зсуву та стійкість до деформації. Підвибірка ({{lang-en|max-pooling}}) виявилася першою, запропонованою кресцептроном,<ref name="Weng1992"/><ref name="Weng1993"/> для надання мережі стійкості до від-малих-до-великих деформацій ієрархічним чином із застосуванням згортки. Максимізаційна підвибірка сприяє, хоча і не гарантує інваріантності відносно зсуву на рівні пікселів.<ref name="Weng1997"/>


1991 року [[Юрген Шмідхубер]] також опублікував змагальні нейронні мережі ({{lang-en|adversarial neural networks}}), які змагаються між собою у формі [[Антагоністична гра|антагоністичної гри]], де виграш однієї мережі є програшем іншої.<ref name="curiosity1991">{{cite conference| title = A possibility for implementing curiosity and boredom in model-building neural controllers | last1 = Schmidhuber | first1 = Jürgen | author-link = Юрген Шмідхубер | date = 1991 | publisher = MIT Press/Bradford Books| book-title = Proc. SAB'1991| pages = 222–227| language = en}}</ref><ref name="fun2010">{{cite journal|last1=Schmidhuber|first1=Jürgen|author-link=Юрген Шмідхубер|year=2010|title=Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)|journal= IEEE Transactions on Autonomous Mental Development|volume=2|issue=3|pages=230–247|doi=10.1109/TAMD.2010.2056368 |s2cid=234198 |language=en }}</ref><ref name="gancurpm2020">{{Cite journal|last=Schmidhuber|first=Jürgen| author-link = Юрген Шмідхубер |date=2020|title=Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)|journal=Neural Networks |language=en|volume=127|pages=58–66|doi=10.1016/j.neunet.2020.04.008 |pmid=32334341 |arxiv=1906.04493 |s2cid=216056336 |language=en }}</ref> Перша мережа є [[Породжувальна модель|породжувальною моделлю]], яка моделює [[розподіл імовірності]] над образами на виході. Друга мережа навчається [[Градієнтний спуск|градієнтним спуском]] передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» ({{lang-en|"artificial curiosity"}}). 2014 року цей принцип використали у [[Породжувальна змагальна мережа|породжувальній змагальній мережі]] ({{lang-en|generative adversarial network, GAN}}) [[Ян Ґудфелоу]] зі співавт.<ref name="GANnips">{{cite conference|last1=Goodfellow|first1=Ian|last2=Pouget-Abadie|first2=Jean|last3=Mirza|first3=Mehdi|last4=Xu|first4=Bing|last5=Warde-Farley|first5=David|last6=Ozair|first6=Sherjil|last7=Courville|first7=Aaron|last8=Bengio|first8=Yoshua|year=2014|title=Generative Adversarial Networks|url=https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|conference=Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014)|pages=2672–2680|access-date=20 August 2019|archive-date=22 November 2019|archive-url=https://web.archive.org/web/20191122034612/http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|url-status=live|language=en}}</ref> Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних [[діпфейк]]ів.<ref>{{Cite web|url=https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|title=Prepare, Don't Panic: Synthetic Media and Deepfakes|publisher=witness.org|access-date=25 November 2020|archive-date=2 December 2020|archive-url=https://web.archive.org/web/20201202231744/https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|url-status=live|language=en}}</ref> Відмінної якості зображення досягла ''{{нп|StyleGAN}}'' ''[[Nvidia]]'' (2018)<ref name="SyncedReview2018">{{Cite web |url=https://syncedreview.com/2018/12/14/gan-2-0-nvidias-hyperrealistic-face-generator/ |title=GAN 2.0: NVIDIA's Hyperrealistic Face Generator |date=December 14, 2018 |website=SyncedReview.com|access-date=October 3, 2019|language=en}}</ref> на основі прогресивної породжувальної змагальної мережі ({{lang-en|Progressive GAN}}) Теро Карраса зі співавт.<ref name="progressiveGAN2017">{{Cite journal |last1=Karras |first1=Tero |last2=Aila |first2=Timo |last3=Laine |first3=Samuli |last4=Lehtinen |first4=Jaakko |date=October 1, 2017 |title=Progressive Growing of GANs for Improved Quality, Stability, and Variation |arxiv=1710.10196 |url=https://ui.adsabs.harvard.edu/abs/2017arXiv171010196K |language=en}}</ref> Тут породжувач вирощується від малого до великого пірамідним чином.
З появою алгоритму [[Метод зворотного поширення помилки|зворотного поширення]] на основі [[Автоматичне диференціювання|автоматичного диференціювання]]<ref name="lin1970"/><ref name="WERBOS1974"/><ref name="werbos1982"/><ref name="grie2008"/><ref name="kelley1960"/><ref name="bryson1961"/><ref name="dreyfus1962"/><ref name="dreyfus1973"/><ref name="ROMELNAT">Rumelhart, D. E., Hinton, G. E. & Williams, R. J. , «Learning representations by back-propagating errors» ''nature'', 1974. {{ref-en}}</ref><ref name="dreyfus1990"/> багато дослідників намагалися тренувати керовані глибинні [[Штучна нейронна мережа|штучні нейронні мережі]] з нуля, спочатку з невеликим успіхом. Дипломна праця {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} 1991 року<ref name="HOCH1991"/><ref name="HOCH2001"/> формально ідентифікувала причину цієї невдачі в [[Проблема зникання градієнту|проблемі зникання градієнту]], що впливає на багатошарові мережі прямого поширення та на [[рекурентні нейронні мережі]]. Рекурентні мережі тренуються шляхом розгортання їх у дуже глибоку мережу прямого поширення, де новий шар створюється для кожного моменту часу вхідної послідовності, оброблюваної мережею. Оскільки похибки поширюються від шару до шару, з числом шарів вони скорочуються експоненційно, перешкоджаючи налаштуванню вагових коефіцієнтів нейронів, яке ґрунтується на цих похибках.


Дипломну працю {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} (1991)<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen] {{Webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=2015-03-06 }}," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref> його керівник [[Юрген Шмідхубер|Шмідхубер]] назвав «одним із найважливіших документів в історії машинного навчання».<ref name="DLhistory" /> Він не лише випробував [[нейронний стискач історії]],<ref name="schmidhuber1992" /> але й виявив та проаналізував [[Проблема зникання градієнту|проблему зникання градієнта]].<ref name="HOCH1991" /><ref name="HOCH2001">{{cite book|chapter-url={{google books |plainurl=y |id=NWOcMVA64aAC}}|title=A Field Guide to Dynamical Recurrent Networks|last=Hochreiter|first=S.|display-authors=etal|date=15 January 2001|publisher=John Wiley & Sons|isbn=978-0-7803-5369-5|chapter=Gradient flow in recurrent nets: the difficulty of learning long-term dependencies|editor-last2=Kremer|editor-first2=Stefan C.|editor-first1=John F.|editor-last1=Kolen|language=en}}</ref> Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні [[Залишкова нейронна мережа|залишкові]] зв'язки. Це призвело до появи методу глибокого навчання, званого [[Довга короткочасна пам'ять|довгою короткочасною пам'яттю]] (ДКЧП, {{lang-en|long short-term memory, LSTM}}), опублікованого 1997 року.<ref name=":0">{{Cite journal|last1=Hochreiter|first1=Sepp|last2=Schmidhuber|first2=Jürgen|s2cid=1915014|date=1 November 1997|title=Long Short-Term Memory|journal=Neural Computation|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|issn=0899-7667|pmid=9377276|language=en}}</ref> [[Рекурентна нейронна мережа|Рекурентні нейронні мережі]] ДКЧП можуть навчатися задач «дуже глибокого навчання»<ref name="SCHIDHUB" /> з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» ({{lang-en|vanilla LSTM}}) із забувальним вентилем запропонували 1999 року {{нп|Фелікс Ґерс|||Felix Gers}}, [[Юрген Шмідхубер|Шмідхубер]] та Фред Каммінс.<ref name="lstm1999">{{Cite book |doi = 10.1049/cp:19991218|chapter = Learning to forget: Continual prediction with LSTM|title = 9th International Conference on Artificial Neural Networks: ICANN '99|volume = 1999|pages = 850–855|year = 1999|last1 = Gers|first1 = Felix| last2 = Schmidhuber|first2 = Jürgen| last3 = Cummins|first3 = Fred| isbn = 0-85296-721-7| language = en}}</ref> [[Довга короткочасна пам'ять|ДКЧП]] стала найцитованішою нейронною мережею XX століття.<ref name="DLhistory" /> 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип [[Довга короткочасна пам'ять|ДКЧП]] для створення [[Магістралева мережа|магістралевої мережі]], [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з сотнями шарів, набагато глибшої за попередні.<ref name="highway2015">{{cite arXiv|last1=Srivastava|first1=Rupesh Kumar|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Highway Networks|eprint=1505.00387|date=2 May 2015|class=cs.LG|language=en}}</ref><ref name="highway2015neurips">{{cite journal|last1=Srivastava|first1=Rupesh K|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Training Very Deep Networks|journal=Advances in Neural Information Processing Systems |date=2015|volume=28|pages=2377–2385|url=http://papers.nips.cc/paper/5850-training-very-deep-networks|publisher=Curran Associates, Inc.|language=en}}</ref> 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet Competition}} 2015 із відкритовентильним або безвентильним варіантом [[Магістралева мережа|магістралевої мережі]], названим [[Залишкова нейронна мережа|за́лишковою нейронною мережею]] ({{lang-en|Residual neural network}}).<ref name="resnet2015">{{Cite conference|last1=He|first1=Kaiming|last2=Zhang|first2=Xiangyu|last3=Ren|first3=Shaoqing|last4=Sun|first4=Jian|date=2016|title=Deep Residual Learning for Image Recognition|url=https://ieeexplore.ieee.org/document/7780459|journal=2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)|location=Las Vegas, NV, USA|publisher=IEEE|pages=770–778|arxiv=1512.03385|doi=10.1109/CVPR.2016.90|isbn=978-1-4673-8851-1|language=en}}</ref> Вона стала найцитованішою нейронною мережею XXI століття.<ref name="DLhistory" />
Для подолання цієї проблеми було запропоновано декілька методів. Одним є багаторівнева ієрархія мереж [[Юрген Шмідгубер|Юргена Шмідгубера]] (1992&nbsp;р.), попередньо тренована порівнево спонтанним навчанням, і тонко-налагоджувана [[Метод зворотного поширення помилки|зворотним поширенням]].<ref name="SCHMID1992"/> Тут кожен рівень вчиться стисненого представлення спостережень, що подається на наступний рівень.


1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа ({{lang-en|weightless neural network}}), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак ({{lang-en|SOFT}}), з багатошаровим класифікаційним нейромережним модулем ({{lang-en|GSN}}) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.<ref>{{Cite journal |title=An integrated Boolean neural network for pattern classification |journal=Pattern Recognition Letters |date=8 August 1994 |pages=807–813 |volume=15 |issue=8 |doi=10.1016/0167-8655(94)90009-4 |first1=Andre C. L. F. |last1=de Carvalho |first2 = Mike C. |last2=Fairhurst |first3=David |last3 = Bisset|bibcode=1994PaReL..15..807D|language=en }}</ref>
Іншим методом є мережа [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] (ДКЧП, {{lang-en|long short-term memory, LSTM}}) {{нп|Зепп Хохрайтер|Хохрайтера||Sepp Hochreiter}} та [[Юрген Шмідгубер|Шмідгубера]] (1997&nbsp;р.).<ref name="lstm">{{нп|Зепп Хохрайтер|Hochreiter, Sepp||Sepp Hochreiter}}; and [[Юрген Шмідгубер|Schmidhuber, Jürgen]]; ''Long Short-Term Memory'', Neural Computation, 9(8):1735–1780, 1997 {{ref-en}}</ref> 2009 року глибинні багатовимірні мережі ДКЧП виграли три змагання {{нп|ICDAR}} 2009 з розпізнавання неперервного рукописного тексту без жодного попереднього знання про три мови, яких необхідно було навчитися.<ref name="graves2009">Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545—552 {{ref-en}}</ref><ref>{{cite journal | last1 = Graves | first1 = A. | last2 = Liwicki | first2 = M. | last3 = Fernandez | first3 = S. | last4 = Bertolami | first4 = R. | last5 = Bunke | first5 = H. | last6 = Schmidhuber | first6 = J. | year = 2009 | title = A Novel Connectionist System for Improved Unconstrained Handwriting Recognition | doi = 10.1109/tpami.2008.137 | journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 31 | issue = 5| pages = 855–868}} {{ref-en}}</ref>


1995 року {{нп|Брендан Фрей|||Brendan Frey}} продемонстрував можливість натренувати (протягом двох днів) мережу із шести повноз'єднаних шарів та кількох сотень прихованих вузлів, використовуючи {{нп|алгоритм неспання — сну|||Wake-sleep algorithm}}, розроблений спільно з {{нп|Пітер Даян|Пітером Даяном||Peter Dayan}} та [[Джефрі Гінтон|Гінтоном]].<ref>{{Cite journal|title = The wake-sleep algorithm for unsupervised neural networks |journal = Science|date = 26 May 1995|pages = 1158–1161|volume = 268|issue = 5214|doi = 10.1126/science.7761831|pmid = 7761831|first1 = Geoffrey E.|last1 = Hinton|first2 = Peter|last2 = Dayan|first3 = Brendan J.|last3 = Frey|first4 = Radford|last4 = Neal|bibcode = 1995Sci...268.1158H| s2cid=871473| language=en }}</ref>
Свен Бенке 2003 року покладався лише на знак градієнту ({{нп|Rprop|''Rprop''}}), коли тренував свою Нейронну піраміду абстракцій ({{lang-en|Neural Abstraction Pyramid}})<ref>{{cite book
|author=Sven Behnke
|year=2003
|title=Hierarchical Neural Networks for Image Interpretation.
|series=Lecture Notes in Computer Science
|volume=2766
|publisher=Springer
|url=http://www.ais.uni-bonn.de/books/LNCS2766.pdf
|accessdate=15 грудня 2015
|archive-date=8 березня 2021
|archive-url=https://web.archive.org/web/20210308073704/https://www.ais.uni-bonn.de/books/LNCS2766.pdf
}} {{ref-en}}</ref> для розв'язання задач на кшталт відбудови зображень та локалізації облич.


З 1997 року Свен Бенке розширив ієрархічний згортковий підхід прямого поширення у нейронній піраміді абстракцій ({{lang-en|Neural Abstraction Pyramid}})<ref>{{cite book
Інші методи також застосовують спонтанне попереднє тренування для структурування нейронної мережі, даючи їй спочатку навчитися загальних корисних [[Виявляння ознак (комп'ютерне бачення)|детекторів ознак]]. Потім ця мережа тренується далі керованим [[Метод зворотного поширення помилки|зворотним поширенням]] для класифікації мічених даних. Глибинна модель Хінтона та ін. (2006) включає навчання розподілу високорівневого представлення із застосуванням послідовних шарів двійкових або дійснозначних [[Латентна змінна|латентних змінних]]. Для моделювання кожного нового шару ознак вищого рівня вона використовує [[Обмежена машина Больцмана|обмежену машину Больцмана]] ({{нп|Пол Смоленський|Смоленський||Paul Smolensky}}, 1986<ref name="smolensky1986">
| last = Behnke | first = Sven
{{cite book
| doi = 10.1007/b11963
|last1=Smolensky |first1=P. |authorlink1=Пол Смоленський
| isbn = 3-540-40722-7
|year=1986
| publisher = Springer
|chapter=Information processing in dynamical systems: Foundations of harmony theory.
| series = Lecture Notes in Computer Science
|title=Parallel Distributed Processing: Explorations in the Microstructure of Cognition
| title = Hierarchical Neural Networks for Image Interpretation
|editors=D. E. Rumelhart, J. L. McClelland, & the PDP Research Group
|volume=1
| volume = 2766
| year = 2003| s2cid = 1304548| language = en
|pages=194–281
}}</ref> за допомогою бічних та зворотних з'єднань, щоби гнучко включати контекст у рішення та ітеративно розв'язувати локальні неоднозначності.
|url=http://portal.acm.org/citation.cfm?id=104290
}} {{ref-en}}</ref>). Кожен новий шар гарантує підвищення [[Нижня межа|нижньої межі]] [[Логарифмічна правдоподібність|логарифмічної правдоподібності]] даних, покращуючи таким чином модель, за правильного тренування. Щойно було навчено достатньо багато шарів, глибинну архітектуру можна застосовувати як [[Породжувальна модель|породжувальну модель]], відтворюючи дані шляхом здійснення вибірки вниз по моделі («родовий прохід», {{lang-en|"ancestral pass"}}), починаючи з активації ознак найвищого рівня.<ref name="hinton2006">{{cite journal
|doi=10.1162/neco.2006.18.7.1527
|last1=Hinton
|first1=G. E.
|authorlink1=Джефрі Хінтон
|last2=Osindero
|first2=S.
|last3=Teh
|first3=Y.
|year=2006
|title=A fast learning algorithm for deep belief nets
|journal={{нп|Neural Computation|||Neural Computation (journal)}}
|volume=18
|issue=7
|pages=1527–1554
|url=http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf
|pmid=16764513
|accessdate=15 грудня 2015
|archive-date=23 грудня 2015
|archive-url=https://web.archive.org/web/20151223164129/http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf
}} {{ref-en}}</ref> Хінтон повідомляє, що його моделі є ефективними для виділяння ознак зі структурованих даних високої розмірності.<ref>{{Cite journal | last1 = Hinton | first1 = G. | title = Deep belief networks | doi = 10.4249/scholarpedia.5947 | journal = Scholarpedia | volume = 4 | issue = 5 | pages = 5947 | year = 2009 | pmid = | pmc = | url = http://www.scholarpedia.org/article/Deep_belief_networks | accessdate = 15 грудня 2015 | archive-date = 4 грудня 2015 | archive-url = https://web.archive.org/web/20151204000832/http://www.scholarpedia.org/article/Deep_belief_networks }} {{ref-en}}</ref>


У 1990-х і 2000-х роках популярністю користувалися простіші моделі, які використовують сконструйовані вручну ознаки для конкретних завдань, такі як [[Фільтр Ґабора|фільтри Ґабора]] ({{lang-en|Gabor filters}}) та [[Опорновекторна машина|опорновекторні машини]] (ОВМ, {{lang-en|support vector machines, SVM}}), через обчислювальну витратність [[Штучна нейронна мережа|штучних нейронних мереж]] (ШНМ) та брак розуміння того, як мозок сплітає свої біологічні мережі.
Команда [[Google Brain]] під проводом [[Ендрю Ин]]а та [[Джефф Дін (програміст)|Джефа Діна]] створила{{коли|дата=липень 2016}} нейронну мережу, що навчилася розпізнавати високорівневі поняття, такі як [[кіт|коти]], з самого лише перегляду немічених зображень, взятих із відеозаписів [[YouTube]].<ref name="markoff2012">{{cite news
|title=How Many Computers to Identify a Cat? 16,000.
|newspaper=New York Times
|author=John Markoff
|url=http://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-computers-evidence-of-machine-learning.html
|date=25 червня 2012
|accessdate=15 грудня 2015
|archive-date=11 липня 2018
|archive-url=https://web.archive.org/web/20180711194314/https://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-computers-evidence-of-machine-learning.html
}} {{ref-en}}</ref><ref name="ng2012">
{{cite arXiv
|title= Building High-level Features Using Large Scale Unsupervised Learning
|last1=Ng |first1=Andrew
|last2=Dean |first2=Jeff
|arxiv=1112.6209
|year=2012
}} {{ref-en}}</ref>


Як неглибоке, так і глибоке навчання (наприклад, рекурентні мережі) ШНМ для [[розпізнавання мовлення]] досліджували протягом багатьох років.<ref>{{Cite journal|last1=Morgan|first1=Nelson|last2=Bourlard |first2=Hervé |last3=Renals |first3=Steve |last4=Cohen |first4=Michael|last5=Franco |first5=Horacio |date=1 August 1993 |title=Hybrid neural network/hidden markov model systems for continuous speech recognition |journal=International Journal of Pattern Recognition and Artificial Intelligence|volume=07|issue=4|pages=899–916|doi=10.1142/s0218001493000455|issn=0218-0014|language=en}}</ref><ref name="Robinson1992">{{Cite journal|last=Robinson|first=T.|author-link=Тоні Робінсон (розпізнавання мовлення)|date=1992|title=A real-time recurrent error propagation network word recognition system|url=http://dl.acm.org/citation.cfm?id=1895720|journal=ICASSP|pages=617–620|isbn=9780780305328|series=Icassp'92|access-date=2017-06-12|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123135/https://dl.acm.org/doi/10.5555/1895550.1895720|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Waibel|first1=A.|last2=Hanazawa|first2=T.|last3=Hinton|first3=G.|last4=Shikano|first4=K.|last5=Lang|first5=K. J.|date=March 1989|title=Phoneme recognition using time-delay neural networks|journal=IEEE Transactions on Acoustics, Speech, and Signal Processing|volume=37|issue=3|pages=328–339|doi=10.1109/29.21701|issn=0096-3518|hdl=10338.dmlcz/135496|s2cid=9563026 |url=http://dml.cz/bitstream/handle/10338.dmlcz/135496/Kybernetika_38-2002-6_2.pdf|access-date=2019-09-24|archive-date=2021-04-27|archive-url=https://web.archive.org/web/20210427001446/https://dml.cz/bitstream/handle/10338.dmlcz/135496/Kybernetika_38-2002-6_2.pdf|url-status=live|language=en}}</ref> Ці методи ніколи не перевершували технологію неоднорідних внутрішньо-ручних гауссових {{нп|Сумішева модель|сумішевих моделей||Mixture model}}/[[Прихована марковська модель|прихованих марковських моделей]] (ГСМ-ПММ, {{lang-en|GMM-HMM}}) на основі породжувальних моделей мовлення, тренованих [[Розрізнювальна модель|розрізнювально]].<ref name="Baker2009">{{cite journal | last1 = Baker | first1 = J. | last2 = Deng | first2 = Li | last3 = Glass | first3 = Jim | last4 = Khudanpur | first4 = S. | last5 = Lee | first5 = C.-H. | last6 = Morgan | first6 = N. | last7 = O'Shaughnessy | first7 = D. | year = 2009 | title = Research Developments and Directions in Speech Recognition and Understanding, Part 1 | journal = IEEE Signal Processing Magazine | volume = 26 | issue = 3| pages = 75–80 | doi=10.1109/msp.2009.932166| bibcode = 2009ISPM...26...75B | hdl = 1721.1/51891 | s2cid = 357467 | language = en }}</ref> Було проаналізовано основні труднощі, включно зі зниканням градієнта<ref name="HOCH1991" /> й слабкою структурою часової кореляції в нейронних передбачувальних моделях.<ref name="Bengio1991">{{Cite web|url=https://www.researchgate.net/publication/41229141|title=Artificial Neural Networks and their Application to Speech/Sequence Recognition|last=Bengio|first=Y.|date=1991|publisher=McGill University Ph.D. thesis|access-date=2017-06-12|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123131/https://www.researchgate.net/publication/41229141_Artificial_neural_networks_and_their_application_to_sequence_recognition|url-status=live|language=en}}</ref><ref name="Deng1994">{{cite journal | last1 = Deng | first1 = L. | last2 = Hassanein | first2 = K. | last3 = Elmasry | first3 = M. | year = 1994 | title = Analysis of correlation structure for a neural predictive model with applications to speech recognition | journal = Neural Networks | volume = 7 | issue = 2| pages = 331–339 | doi=10.1016/0893-6080(94)90027-2 | language=en}}</ref> Додатковими труднощами були брак тренувальних даних та обмежена обчислювальна потужність. Більшість дослідників [[розпізнавання мовлення]] відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був ''{{нп|SRI International}}'' наприкінці 1990-х років. Фінансований агенціями уряду США [[Агентство національної безпеки|АНБ]] та [[Агентство передових оборонних дослідницьких проєктів США|''DARPA'']], ''SRI'' вивчав глибокі нейронні мережі в розпізнаванні мовлення та [[Розпізнавання мовця|мовця]]. Команда розпізнавання мовців на чолі з {{нп|Ларрі Гек|Ларрі Геком||Larry Heck}} повідомила про значний успіх із глибокими нейронними мережами в обробці мовлення на оцінюванні розпізнавання мовців [[Національний інститут стандартів і технології|Національного інституту стандартів і технологій]] 1998 року.<ref name="Doddington2000">{{cite journal | last1 = Doddington | first1 = G. | last2 = Przybocki | first2 = M. | last3 = Martin | first3 = A. | last4 = Reynolds | first4 = D. | year = 2000 | title = The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective | journal = Speech Communication | volume = 31 | issue = 2| pages = 225–254 | doi=10.1016/S0167-6393(99)00080-1 | language=en}}</ref> Потім глибоку нейронну мережу ''SRI'' було розгорнуто в ''Nuance Verifier'', що стало першим великим промисловим застосуванням глибокого навчання.<ref name="Heck2000">{{cite journal | last1 = Heck | first1 = L. | last2 = Konig | first2 = Y. | last3 = Sonmez | first3 = M. | last4 = Weintraub | first4 = M. | year = 2000 | title = Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design | journal = Speech Communication | volume = 31 | issue = 2| pages = 181–192 | doi=10.1016/s0167-6393(99)00077-1 | language=en}}</ref> Принцип піднесення «сирих» ознак над ручною оптимізацією було вперше успішно досліджено в архітектурі глибокого автокодувальника на «сирій» спектрограмі або ознаках лінійного {{нп|Блок фільтрів|блока фільтрів||Filter bank}} наприкінці 1990-х,<ref name="Heck2000" /> що показало його перевагу над [[MFCC|мел-кепстровими]] ознаками, які містять етапи незмінного перетворення зі спектрограм. Сирі ознаки мовлення, [[Форма хвилі|хвилеформи]], згодом дали чудові великомасштабні результати.<ref>{{Cite web|url=https://www.researchgate.net/publication/266030526|title=Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)|website=ResearchGate|access-date=14 June 2017|archive-date=9 May 2021|archive-url=https://web.archive.org/web/20210509123218/https://www.researchgate.net/publication/266030526_Acoustic_Modeling_with_Deep_Neural_Networks_Using_Raw_Time_Signal_for_LVCSR|url-status=live|language=en}}</ref>
Інші методи покладаються на чисту оброблювальну потужність сучасних комп'ютерів, зокрема, на [[Графічний процесор|графічні процесори]]. 2010 року Ден Чирешан з колегами<ref name="CIRESAN2010"/> в групі [[Юрген Шмідгубер|Юргена Шмідгубера]] в швейцарській лабораторії штучного інтелекту {{нп|IDSIA}} показали, що, незважаючи на вищезгадану «проблему зникання градієнту», надзвичайна обчислювальна потужність графічних процесорів робить звичайне [[Метод зворотного поширення помилки|зворотне поширення]] придатним для глибинних нейронних мереж прямого поширення з багатьма шарами. Цей метод перевершив усі інші методики машинного навчання на старій відомій задачі розпізнавання рукописних цифр MNIST [[Ян ЛеКун|Яна ЛеКуна]] та його колег з [[Нью-Йоркський університет|Нью-Йоркського університету]].


Розпізнавання мовлення перейняла [[Довга короткочасна пам'ять|ДКЧП]]. 2003 року ДКЧП на певних завданнях почала конкурувати з традиційними розпізнавачами мовлення.<ref name="graves2003">{{Cite web|url=ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf|title=Biologically Plausible Speech Recognition with LSTM Neural Nets|last1=Graves|first1=Alex|last2=Eck|first2=Douglas|date=2003|website=1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland|pages=175–184|last3=Beringer|first3=Nicole|last4=Schmidhuber|first4=Jürgen|access-date=2016-04-09|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123139/ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf|url-status=live|language=en}}</ref> 2006 року {{нп|Алекс Ґрейвс (інформатик)|Алекс Ґрейвс||Alex Graves (computer scientist)}}, Сантьяго Фернандес, Фаустіно Ґомес та Шмідхубер поєднали її з {{нп|Нейромережна часова класифікація|нейромережною часовою класифікацією||Connectionist temporal classification}} (НЧК, {{lang-en|connectionist temporal classification, CTC}})<ref name="graves2006">{{Cite journal|last1=Graves|first1=Alex|author1-link=Алекс Ґрейвс (інформатик) | last2=Fernández|first2=Santiago|last3=Gomez|first3=Faustino|last4=Schmidhuber|first4=Jürgen|author4-link=Юрген Шмідхубер| date=2006|title=Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks|journal=Proceedings of the International Conference on Machine Learning, ICML 2006|pages=369–376|citeseerx=10.1.1.75.6306|language=en}}</ref> у стеках РНМ ДКЧП.<ref name="fernandez2007keyword">Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). [https://mediatum.ub.tum.de/doc/1289941/file.pdf An application of recurrent neural networks to discriminative keyword spotting] {{Webarchive|url=https://web.archive.org/web/20181118164457/https://mediatum.ub.tum.de/doc/1289941/file.pdf |date=2018-11-18 }}. Proceedings of ICANN (2), pp. 220–229. {{ref-en}}</ref> 2015 року в розпізнаванні мовлення ''Google'', як було повідомлено, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яку вони зробили доступною через [[Google Voice Search|голосовий пошук ''Google'']].<ref name="sak2015">{{Cite web|url=http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html|title=Google voice search: faster and more accurate|last1=Sak|first1=Haşim|last2=Senior|first2=Andrew|date=September 2015|last3=Rao|first3=Kanishka|last4=Beaufays|first4=Françoise|last5=Schalkwyk|first5=Johan|access-date=2016-04-09|archive-date=2016-03-09|archive-url=https://web.archive.org/web/20160309191532/http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html|url-status=live|language=en}}</ref>
Приблизно в цей самий час, наприкінці 2009 року, нейронні мережі прямого поширення з глибинним навчанням вчинили набіги на розпізнавання мовлення, як відмічено Семінаром NIPS з глибинного навчання для розпізнавання мовлення. Інтенсивна спільна робота дослідників з [[Microsoft Research]] та [[Університет Торонто|Університету Торонто]] продемонструвала в середині 2010 року в [[Редмонд]]і, що глибинні нейронні мережі, пов'язані з [[Прихована марковська модель|прихованою марковською моделлю]] з контекстно-залежними станами, що визначає вихідний шар нейронної мережі, можуть різко скоротити похибки у великих задачах словникового розпізнавання мовлення, таких як голосовий пошук. Близько року по тому в Microsoft Research Asia було показано масштабування такої ж моделі глибинної нейронної мережі до задачі телефонного комутатора. Навіть раніше, 2007 року, ДКЧП,<ref name=lstm/> тренована за допомогою {{H:title|Нейромережева часова класифікація|НЧК}},<ref name="graves2006"/> почала отримувати відмінні результати в деяких застосуваннях.<ref name="fernandez2007keyword"/> Цей метод тепер широко застосовується, наприклад, у значно поліпшеному розпізнаванні мовлення Google для користувачів усіх смартфонів.<ref name="sak2015"/>


Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10&nbsp;% до 20&nbsp;% усіх чеків, виписуваних у США.<ref name="lecun2016slides">[[Ян ЛеКун|Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online] {{Webarchive|url=https://web.archive.org/web/20160423021403/https://indico.cern.ch/event/510372/ |date=2016-04-23 }} {{ref-en}}</ref> Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.
Станом на 2011 рік передовим у нейронних мережах глибинного навчання прямого поширення є чергування згорткових ({{lang-en|convolutional}}) та підвибіркових ({{lang-en|max-pooling}}) шарів,<ref name="ciresan2011">D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011. {{ref-en}}</ref><ref name="martines2013">{{cite journal | last1 = Martines | first1 = H. | last2 = Bengio | first2 = Y. | last3 = Yannakakis | first3 = G. N. | year = 2013 | title = Learning Deep Physiological Models of Affect | url = | journal = IEEE Computational Intelligence | volume = 8 | issue = 2| pages = 20–33 | doi=10.1109/mci.2013.2247823}} {{ref-en}}</ref> увінчаних декількома повнозв'язними або розріджено зв'язаними шарами, за якими слідує завершальний шар класифікації. Тренування зазвичай здійснюється без жодного спонтанного попереднього тренування. З 2011 року реалізації цього підходу на основі графічних процесорів<ref name="ciresan2011"/> виграли багато змагань з розпізнавання образів, включно зі Змаганням з розпізнавання дорожніх знаків ({{lang-en|Traffic Sign Recognition Competition}}) IJCNN 2011,<ref name="ciresan2011NN">D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification. Neural Networks, 2012. {{ref-en}}</ref> Змаганням з сегментації нейронних структур в стеку електронної мікроскопії ({{lang-en|Segmentation of neuronal structures in EM stacks challenge}}) ISBI 2012,<ref name="ciresan2012NIPS">D. Ciresan, A. Giusti, L. Gambardella, J. Schmidhuber. Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images. In Advances in Neural Information Processing Systems (NIPS 2012), Lake Tahoe, 2012. {{ref-en}}</ref> {{нп|Змагання ImageNet|Змаганням ImageNet||ImageNet Competition}}<ref name="krizhevsky2012"/> та іншими.


2006 року публікації [[Джефрі Гінтон|Джеффа Гінтона]], {{нп|Руслан Салахутдінов|Руслана Салахутдінова||Russ Salakhutdinov}}, Осіндеро та {{нп|Ю Хуай Тее|Тее||Yee Whye Teh}}<ref>{{Cite journal|last=Hinton|first=Geoffrey E.|date=1 October 2007|title=Learning multiple layers of representation|url=http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|journal=Trends in Cognitive Sciences|volume=11|issue=10|pages=428–434|doi=10.1016/j.tics.2007.09.004|issn=1364-6613|pmid=17921042|s2cid=15066318|access-date=12 June 2017|archive-date=11 October 2013|archive-url=https://web.archive.org/web/20131011071435/http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|url-status=live|language=en}}</ref><ref name="hinton06">{{Cite journal | last1 = Hinton | first1 = G. E. | author-link1 = Джефрі Гінтон | last2 = Osindero | first2 = S. | last3 = Teh | first3 = Y. W. | doi = 10.1162/neco.2006.18.7.1527 | title = A Fast Learning Algorithm for Deep Belief Nets | journal = {{нп|Neural Computation}} | volume = 18 | issue = 7 | pages = 1527–1554 | year = 2006 | pmid = 16764513 | s2cid = 2309950 | url = http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | access-date = 2011-07-20 | archive-date = 2015-12-23 | archive-url = https://web.archive.org/web/20151223164129/http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | url-status = live | language = en }}</ref><ref name="bengio2012">{{cite arXiv |last=Bengio |first=Yoshua |author-link=Йошуа Бенжіо |eprint=1206.5533 |title=Practical recommendations for gradient-based training of deep architectures |class=cs.LG|year=2012|language=en }}</ref> показали, як багатошарову [[Нейронна мережа прямого поширення|нейронну мережу прямого поширення]] можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану [[Обмежена машина Больцмана|обмежену машину Больцмана]], а потім {{нп|Тонке налаштовування (глибоке навчання)|тонко налаштовувати||Fine-tuning (deep learning)}} її за допомогою керованого [[Зворотне поширення|зворотного поширення]].<ref name="HINTON2007">G. E. Hinton., "[http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf Learning multiple layers of representation] {{Webarchive|url=https://web.archive.org/web/20180522112408/http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf |date=2018-05-22 }}," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007. {{ref-en}}</ref> Ці праці стосувалися ''навчання'' для ''глибоких мереж переконань.''
Такі керовані методи глибинного навчання також стали першими штучними розпізнавачами образів, що досягли в деяких задачах ефективності, порівняної з людською.<ref name="ciresan2011CVPR">D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. {{ref-en}}</ref>


Мотивом семінару ''NIPS'' 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, {{lang-en|deep neural nets, DNN}}) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, {{lang-en|deep belief nets, DBN}}) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього [[Зворотне поширення|зворотного поширення]] при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | author10-link = Тара Сайнат | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups| journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597 | bibcode = 2012ISPM...29...82H| s2cid = 206485943| language = en }}</ref> Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,<ref name="ReferenceICASSP2013" /> пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.<ref name="BOOK2014" /><ref name="ReferenceA">{{cite book|last2=Deng|first2=L.|date=2014|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)|url={{google books |plainurl=y |id=rUBTBQAAQBAJ}}|isbn=978-1-4471-5779-3|last1=Yu|first1=D.|language=en}}</ref><ref>{{cite web|title=Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research|url=https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|website=Microsoft Research|date=3 December 2015|access-date=16 March 2018|archive-date=16 March 2018|archive-url=https://web.archive.org/web/20180316084821/https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|url-status=live|language=en}}</ref> Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.<ref name="ReferenceICASSP2013" /> Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5&nbsp;% у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.<ref name="HintonDengYu2012" /><ref name="ReferenceICASSP2013">{{cite journal|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.|date=2013|title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf|last1=Deng|first1=L.|journal=|access-date=2017-06-12|archive-date=2017-09-26|archive-url=https://web.archive.org/web/20170926190920/https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf|url-status=live|language=en}}</ref><ref name="interspeech2014Keynote">{{Cite web|url=https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|title=Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'|last=Li|first=Deng|date=September 2014|website=Interspeech|access-date=2017-06-12|archive-date=2017-09-26|archive-url=https://web.archive.org/web/20170926190732/https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|url-status=live|language=en}}</ref> 2010 року дослідники розширили глибоке навчання від ''{{нп|TIMIT}}'' до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою [[Дерево рішень|дерев рішень]].<ref name="Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|date=2010|title=Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition|url=https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095148/https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Seide|first1=F.|last2=Li|first2=G.|last3=Yu|first3=D.|date=2011|title=Conversational speech transcription using context-dependent deep neural networks|url=https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks|journal=Interspeech|pages=437–440|doi=10.21437/Interspeech.2011-169|s2cid=398770 |access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095522/https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Deng|first1=Li|last2=Li|first2=Jinyu|last3=Huang|first3=Jui-Ting|last4=Yao|first4=Kaisheng|last5=Yu|first5=Dong|last6=Seide|first6=Frank|last7=Seltzer|first7=Mike|last8=Zweig|first8=Geoff|last9=He|first9=Xiaodong|date=1 May 2013|title=Recent Advances in Deep Learning for Speech Research at Microsoft|url=https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|journal=Microsoft Research|access-date=14 June 2017|archive-date=12 October 2017|archive-url=https://web.archive.org/web/20171012044053/https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|url-status=live|language=en}}</ref><ref name="ReferenceA" />
Щоби подолати бар'єри слабкого штучного інтелекту, представленого глибинним навчанням, необхідно вийти за межі архітектур глибинного навчання, оскільки згідно інформації з анатомії мозку<ref name="VanEssen1991">D. J. Felleman and D. C. Van Essen, "[http://cercor.oxfordjournals.org/content/1/1/1.1.full.pdf+html Distributed hierarchical processing in the primate cerebral cortex] {{Webarchive|url=https://archive.today/20150120022056/http://cercor.oxfordjournals.org/content/1/1/1.1.full.pdf+html |date=20 січня 2015 }}, " ''Cerebral Cortex'', 1, pp. 1-47, 1991. {{ref-en}}</ref> біологічні мізки використовують як поверхневі так і глибинні ланцюги, демонструючи широке розмаїття інваріантності. Вен<ref name="Weng2012">J. Weng, "[http://www.amazon.com/Natural-Artificial-Intelligence-Introduction-Computational/dp/0985875720 Natural and Artificial Intelligence: Introduction to Computational Brain-Mind] {{Webarchive|url=https://web.archive.org/web/20151222153538/http://www.amazon.com/Natural-Artificial-Intelligence-Introduction-Computational/dp/0985875720 |date=22 грудня 2015 }}, " BMI Press, ISBN 978-0985875725, 2012. {{ref-en}}</ref> стверджував, що мозок широко самоз'єднується відповідно до статистики сигналів, і отже, послідовний каскад не може вловити всі основні статистичні залежності. ШНМ виявилися здатними гарантувати інваріантність відносно зсуву, щоби мати справу з малими та великими природними об'єктами у великих загромаджених сценах, лише коли інваріантність поширилася за межі зсуву, на всі вивчені ШНМ поняття, такі як положення, тип (мітка класу об'єкту), масштаб, освітленість. Це було реалізовано в Еволюційних Мережах (ЕМ, {{lang-en|Developmental Networks, DN}}),<ref name="Weng2011">J. Weng, "[http://www.cse.msu.edu/~weng/research/WhyPass-Weng-NI-2011.pdf Why Have We Passed `Neural Networks Do not Abstract Well'?] {{Webarchive|url=https://web.archive.org/web/20160305000958/http://www.cse.msu.edu/~weng/research/WhyPass-Weng-NI-2011.pdf |date=5 березня 2016 }}, " ''Natural Intelligence: the INNS Magazine'', vol. 1, no.1, pp. 13-22, 2011. {{ref-en}}</ref> чиїми втіленнями є мережі ''де-що'' ({{lang-en|Where-What Networks}}), від WWN-1 (2008)<ref name="Weng08">Z. Ji, J. Weng, and D. Prokhorov, "[http://www.cse.msu.edu/~weng/research/ICDL08_0077.pdf Where-What Network 1: Where and What Assist Each Other Through Top-down Connections] {{Webarchive|url=https://web.archive.org/web/20160305011805/http://www.cse.msu.edu/~weng/research/ICDL08_0077.pdf |date=5 березня 2016 }}, " ''Proc. 7th International Conference on Development and Learning (ICDL'08)'', Monterey, CA, Aug. 9-12, pp. 1-6, 2008. {{ref-en}}</ref> до WWN-7 (2013).<ref name="Weng13">X. Wu, G. Guo, and J. Weng, "[http://www.cse.msu.edu/~weng/research/WWN7-Wu-ICBM-2013.pdf Skull-closed Autonomous Development: WWN-7 Dealing with Scales] {{Webarchive|url=https://web.archive.org/web/20160305061953/http://www.cse.msu.edu/~weng/research/WWN7-Wu-ICBM-2013.pdf |date=5 березня 2016 }}, " ''Proc. International Conference on Brain-Mind'', July 27–28, East Lansing, Michigan, pp. +1-9, 2013. {{ref-en}}</ref>


Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та [[Автоматичне розпізнавання мовлення|автоматичному розпізнаванні мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}). Результати на загальновживаних оцінювальних наборах, таких як ''{{нп|TIMIT}}'' (АРМ) та [[MNIST (база даних)|''MNIST'']] ([[класифікування зображень]]), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.<ref name="HintonDengYu2012" /><ref>{{Cite book |doi=10.1109/ICCCI50826.2021.9402569|isbn=978-1-7281-5875-4|chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029|s2cid=231846518|language=en}}</ref> [[Згорткові нейронні мережі]] (ЗНМ) для АРМ було витіснено НЧК<ref name="graves2006" /> для [[Довга короткочасна пам'ять|ДКЧП]],<ref name=":0" /><ref name="sak2015" /><ref name="sak2014">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|title=Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling|last1=Sak|first1=Hasim|last2=Senior|first2=Andrew|date=2014|last3=Beaufays|first3=Francoise|archive-url=https://web.archive.org/web/20180424203806/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|archive-date=24 April 2018|url-status=dead|language=en}}</ref><ref name="liwu2015">{{cite arXiv |eprint=1410.4281|last1=Li|first1=Xiangang|title=Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition|last2=Wu|first2=Xihong|class=cs.CL|year=2014|langyage=en}}</ref><ref name="zen2015">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis|last1=Zen|first1=Heiga|last2=Sak|first2=Hasim|date=2015|website=Google.com|publisher=ICASSP|pages=4470–4474|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123113/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|url-status=live|language=en}}</ref> але в комп'ютернім баченні вони успішніші.
== Архітектури глибинних нейронних мереж ==
Існує величезна кількість варіантів глибинних архітектур. Більшість із них відгалужуються від деяких вихідних батьківських архітектур. Одночасне порівняння ефективності різних архітектур не завжди можливе, оскільки не всі з них оцінювалися на однакових наборах даних. Глибинне навчання є галуззю, що швидко розвивається, і нові архітектури, варіанти або алгоритми з'являються кожні кілька тижнів.


Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року ''[[Nvidia]]'' брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою [[Графічний процесор|графічних процесорів]] (ГП) ''Nvidia''».<ref>{{cite web|url=https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|title=Nvidia CEO bets big on deep learning and VR|date=5 April 2016|publisher={{нп|Venture Beat}}|access-date=21 April 2017|archive-date=25 November 2020|archive-url=https://web.archive.org/web/20201125202428/https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|url-status=live|language=en}}</ref> Того року [[Ендрю Ин]] визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.<ref>{{cite news|url=https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|title=From not working to neural networking|newspaper=[[Економіст (журнал)|The Economist]]|access-date=2017-08-26|archive-date=2016-12-31|archive-url=https://web.archive.org/web/20161231203934/https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|url-status=live|language=en}}</ref> Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.<ref name="jung2004">{{cite journal | last1 = Oh | first1 = K.-S. | last2 = Jung | first2 = K. | year = 2004 | title = GPU implementation of neural networks | journal = Pattern Recognition | volume = 37 | issue = 6| pages = 1311–1314 | doi=10.1016/j.patcog.2004.01.013| bibcode = 2004PatRe..37.1311O| language = en }}</ref><ref>"[https://www.academia.edu/40135801 A Survey of Techniques for Optimizing Deep Learning on GPUs] {{Webarchive|url=https://web.archive.org/web/20210509123120/https://www.academia.edu/40135801/A_Survey_of_Techniques_for_Optimizing_Deep_Learning_on_GPUs |date=2021-05-09 }}", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 {{ref-en}}</ref><ref name="chellapilla2006">{{Citation | first1 = Kumar | last1 = Chellapilla | first2 = Sidd | last2 = Puri | first3 = Patrice | last3 = Simard | title = High performance convolutional neural networks for document processing | url = https://hal.inria.fr/inria-00112631/document | date = 2006 | access-date = 2021-02-14 | archive-date = 2020-05-18 | archive-url = https://web.archive.org/web/20200518193413/https://hal.inria.fr/inria-00112631/document | url-status = live | language = en }}</ref> ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.<ref name=":3">{{Cite journal|last1=Cireşan|first1=Dan Claudiu|last2=Meier|first2=Ueli|last3=Gambardella|first3=Luca Maria|last4=Schmidhuber|first4=Jürgen|date=21 September 2010|title=Deep, Big, Simple Neural Nets for Handwritten Digit Recognition|journal=Neural Computation|volume=22|issue=12|pages=3207–3220|doi=10.1162/neco_a_00052|pmid=20858131|issn=0899-7667|arxiv=1003.0358|s2cid=1918673|language=en}}</ref><ref>{{Cite journal|last1=Raina|first1=Rajat|last2=Madhavan|first2=Anand|last3=Ng|first3=Andrew Y.|s2cid=392458|date=2009|title=Large-scale Deep Unsupervised Learning Using Graphics Processors|journal=Proceedings of the 26th Annual International Conference on Machine Learning|series=ICML '09|location=New York, NY, USA|publisher=ACM|pages=873–880|doi=10.1145/1553374.1553486|isbn=9781605585161|citeseerx=10.1.1.154.372|language=en}}</ref> Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.<ref name="sze2017">{{cite arXiv
=== Стисле обговорення глибинних нейронних мереж ===
|title= Efficient Processing of Deep Neural Networks: A Tutorial and Survey
''Глибинна нейронна мережа'' (ГНМ, {{lang-en|deep neural network, DNN}})&nbsp;— це [[штучна нейронна мережа]] (ШНМ) з декількома прихованими шарами вузлів між вхідним та вихідним шарами.<ref name="BENGIODEEP" /><ref name="SCHIDHUB" /> Подібно до пласких ШНМ, ГНМ можуть моделювати складні нелінійні відношення. Архітектури ГНМ, наприклад, для [[виявлення об'єктів]] та [[Обробка природної мови|граматичного аналізу]], породжують композиційні моделі, де об'єкт виражається як шарувата композиція примітивів зображення.<ref>Szegedy, Christian, Alexander Toshev, and Dumitru Erhan. «Deep neural networks for object detection.» Advances in Neural Information Processing Systems. 2013. {{ref-en}}</ref> Додаткові шари дозволяють композиції включати ознаки з нижчих шарів, забезпечуючи потенціал для моделювання складних даних меншою кількістю вузлів, ніж настільки ж ефективна пласка мережа.<ref name="BENGIODEEP" />
|last1=Sze |first1=Vivienne|author1-link=Вів'єн Ши
|last2=Chen |first2=Yu-Hsin
|last3=Yang |first3=Tien-Ju
|last4=Emer |first4=Joel
|eprint=1703.09039
|year=2017
|class=cs.CV }}</ref>


=== Революція глибокого навчання ===
ГНМ зазвичай проектуються як мережі [[Нейронна мережа прямого поширення|прямого поширення]], але дослідження дуже успішно застосували [[рекурентні нейронні мережі]], особливо ДКЧП,<ref name=lstm/><ref name="gers2002"/> до таких задач, як [[Модель мови|моделювання мов]].<ref name="gers2001"/><ref name="NIPS2014"/><ref name="vinyals2016"/><ref name="gillick2015"/><ref name="MIKO2010">T. Mikolov ''et al.'', "Recurrent neural network based language model, " ''Interspeech'', 2010. {{ref-en}}</ref> [[Згорткова нейронна мережа|Згорткові глибинні нейронні мережі]] (ЗНМ, {{lang-en|convolutional deep neural networks, CNN}}) застосовуються в [[Комп'ютерний зір|комп'ютерному зорі]], де їхній успіх є добре задокументованим.<ref name="LECUN86">{{cite journal |last1=LeCun |first1=Y. |display-authors=etal |year= |title=Gradient-based learning applied to document recognition |url= |journal=Proceedings of the IEEE |volume=86 |issue=11 |pages=2278–2324 |doi=10.1109/5.726791}} {{ref-en}}</ref> ЗНМ також було застосовано до {{нп|Акустична модель|акустичного моделювання||Acoustic model}} для автоматичного [[розпізнавання мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}), де вони продемонстрували переваги над попередніми моделями.<ref name="SAIN2013">T. Sainath ''et al.'', "Convolutional neural networks for LVCSR, " ''ICASSP'', 2013. {{ref-en}}</ref> Для спрощення, тут наведено погляд на тренування ГНМ.
[[Файл:AI-ML-DL.svg|lang=uk|міні|Як глибоке навчання є підмножиною машинного навчання і як машинне навчання є підмножиною штучного інтелекту (ШІ)]]


Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з [[Машинне навчання|машинного навчання]]. 2009 року [[довга короткочасна пам'ять]], натренована {{нп|Нейромережна часова класифікація|нейромережною часовою класифікацією||Connectionist temporal classification}} ({{нп|Алекс Ґрейвс (інформатик)|Алекс Ґрейвс||Alex Graves (computer scientist)}}, Сантьяго Фернандес, Фаустіно Ґомес та [[Юрген Шмідхубер]], 2006)<ref name="graves2006" /> стала першою РНМ, яка виграла конкурси з [[розпізнавання образів]], вигравши три змагання з [[Розпізнавання рукописного введення|розпізнавання неперервного рукописного тексту]].<ref>Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 {{ref-en}}</ref><ref name="SCHIDHUB" /> Пізніше ''[[Google]]'' використала натреновану НЧК ДКЧП для розпізнавання мовлення на [[смартфон]]і.<ref name="GoogleVoiceTranscription">Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html {{ref-en}}</ref><ref name="sak2015" />
==== Зворотне поширення ====
ГНМ може бути натреновано [[Розрізнювальна модель|розрізнювально]] за допомогою стандартного алгоритму [[Метод зворотного поширення помилки|зворотного поширення]]. Згідно різних джерел,<ref name="SCHIDHUB"/><ref name="scholarpedia"/><ref name="dreyfus1990">{{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}} (1990). Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure. J. Guidance, Control and Dynamics, 1990. {{ref-en}}</ref><ref name="mizutani2000">Eiji Mizutani, {{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}}, Kenichi Nishio (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE International Joint Conference on Neural Networks (IJCNN 2000), Como Italy, July 2000. [http://queue.ieor.berkeley.edu/People/Faculty/dreyfus-pubs/ijcnn2k.pdf Online]{{Недоступне посилання|date=травень 2019 |bot=InternetArchiveBot }} {{ref-en}}</ref> основи безперервного зворотного поширення було виведено в контексті [[Теорія керування|теорії керування]] {{нп|Генрі Келлі|||Henry J. Kelley}}<ref name="kelley1960">{{нп|Генрі Келлі|Henry J. Kelley||Henry J. Kelley}} (1960). Gradient theory of optimal flight paths. Ars Journal, 30(10), 947—954. [http://arc.aiaa.org/doi/abs/10.2514/8.5282?journalCode=arsj Online] {{ref-en}}</ref> 1960 року та {{нп|Артур Брайсон|Артуром Брайсоном||Arthur E. Bryson}} 1961 року,<ref name="bryson1961">{{нп|Артур Брайсон|Arthur E. Bryson||Arthur E. Bryson}} (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications. {{ref-en}}</ref> із застосуванням принципів [[Динамічне програмування|динамічного програмування]]. 1962 року {{нп|Стюарт Дрейфус|||Stuart Dreyfus}} опублікував простіше виведення на основі лише [[Ланцюгове правило|ланцюгового правила]].<ref name="dreyfus1962">{{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}} (1962). The numerical solution of variational problems. Journal of Mathematical Analysis and Applications, 5(1), 30-45. [https://www.researchgate.net/publication/256244271_The_numerical_solution_of_variational_problems Online] {{Webarchive|url=https://web.archive.org/web/20160407150850/https://www.researchgate.net/publication/256244271_The_numerical_solution_of_variational_problems |date=7 квітня 2016 }} {{ref-en}}</ref> [[Вапник Володимир Наумович|Володимир Вапник]] цитує посилання&nbsp;<ref>Bryson, A.E.; W.F. Denham; S.E. Dreyfus. Optimal programming problems with inequality constraints. I: Necessary conditions for extremal solutions. AIAA J. 1, 11 (1963) 2544—2550 {{ref-en}}</ref> у своїй книзі про [[Метод опорних векторів]]. {{нп|Артур Брайсон|||Arthur E. Bryson}} та {{нп|Ю Ці Хо|||Yu-Chi Ho}} описали це як багатоетапний метод оптимізації динамічної системи 1969 року.<ref>{{cite book|title=Artificial Intelligence A Modern Approach|author1={{нп|Стюарт Расселл|Stuart Russell||Stuart J. Russell}}|author2=[[Пітер Норвіг|Peter Norvig]]|quote=The most popular method for learning in multilayer networks is called Back-propagation. |page=578}} {{ref-en}}</ref><ref>{{cite book|title=Applied optimal control: optimization, estimation, and control|authors=Arthur Earl Bryson, Yu-Chi Ho|year=1969|pages=481|publisher=Blaisdell Publishing Company or Xerox College Publishing}} {{ref-en}}</ref>
1970 року {{нп|Сеппо Ліннаінмаа|||Seppo Linnainmaa}} остаточно опублікував загальний метод [[Автоматичне диференціювання|автоматичного диференціювання]] (АД, {{lang-en|AD}}) дискретних зв'язних мереж вкладених [[Диференційовна функція|диференційовних]] функцій.<ref name="lin1970">{{нп|Сеппо Ліннаінмаа|Seppo Linnainmaa||Seppo Linnainmaa}} (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. {{ref-fi}}</ref><ref name="lin1976">{{нп|Сеппо Ліннаінмаа|Seppo Linnainmaa||Seppo Linnainmaa}} (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics, 16(2), 146—160. {{ref-en}}</ref> Це відповідає сучасній версії зворотного поширення, яка є дієвою навіть коли мережі є [[Розріджена мережа|розрідженими]].<ref name="SCHIDHUB"/><ref name="scholarpedia"/><ref name="grie2012">Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Optimization Stories, Documenta Matematica, Extra Volume ISMP (2012), 389—400. {{ref-en}}</ref><ref name="grie2008">Griewank, Andreas and Walther, A.. Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM, 2008. {{ref-en}}</ref>
1973 року {{нп|Стюарт Дрейфус|||Stuart Dreyfus}} застосував зворотне поширення для адаптування [[параметр]]ів [[Автоматичний регулятор|регуляторів]] у пропорції до градієнтів похибок.<ref name="dreyfus1973">{{нп|Стюарт Дрейфус|Stuart Dreyfus||Stuart Dreyfus}} (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control, 18(4):383–385. {{ref-en}}</ref> 1974 року {{нп|Пол Вербос|||Paul Werbos}} зазначив можливість застосування цього принципу до [[Штучна нейронна мережа|штучних нейронних мереж]],<ref name="werbos1974">{{нп|Пол Вербос|Paul Werbos||Paul Werbos}} (1974). Beyond regression: New tools for prediction and analysis in the behavioral sciences. PhD thesis, Harvard University. {{ref-en}}</ref> а 1982 року він застосував метод АД Ліннаінмаа до нейронних мереж таким чином, яким він широко застосовується сьогодні.<ref name="scholarpedia"/><ref name="werbos1982">{{нп|Пол Вербос|Paul Werbos||Paul Werbos}} (1982). Applications of advances in nonlinear sensitivity analysis. In System modeling and optimization (pp. 762—770). Springer Berlin Heidelberg. [http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf Online] {{Webarchive|url=https://web.archive.org/web/20160414055503/http://werbos.com/Neural/SensitivityIFIPSeptember1981.pdf |date=14 квітня 2016 }} {{ref-en}}</ref>
1986 року {{нп|Девід Румельхарт|||David E. Rumelhart}}, [[Джефрі Хінтон]] та {{нп|Рональд Вільямс|||Ronald J. Williams}} показали шляхом комп'ютерних експериментів, що цей метод може породжувати корисні внутрішні представлення вхідних даних у прихованих шарах нейронних мереж.<ref name="ROMELNAT"/>
1993 року Ерік Ван ({{lang-en|Eric A. Wan}}) став першим,<ref name="SCHIDHUB"/> хто переміг у міжнародному змаганні з розпізнавання образів із зворотним поширенням.<ref name="wan1993">Eric A. Wan (1993). Time series prediction by using a connectionist network with internal delay lines. In SANTA FE INSTITUTE STUDIES IN THE SCIENCES OF COMPLEXITY-PROCEEDINGS (Vol. 15, pp. 195—195). Addison-Wesley Publishing Co. {{ref-en}}</ref>


Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані [[Зворотне поширення|зворотним поширенням]], існували десятиліттями,<ref name="wz1988" /><ref name="LECUN1989" /> а втілення НМ на ГП&nbsp;— роками,<ref name="jung2004" /> включно із ЗНМ,<ref name="chellapilla2006" /><ref name="SCHIDHUB" /> для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року ''DanNet''<ref name=":6">{{Cite journal|last1=Ciresan|first1=D. C.|last2=Meier|first2=U.|last3=Masci|first3=J.|last4=Gambardella|first4=L.M.|last5=Schmidhuber|first5=J.|date=2011|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|journal=International Joint Conference on Artificial Intelligence|doi=10.5591/978-1-57735-516-8/ijcai11-210|access-date=2017-06-13|archive-date=2014-09-29|archive-url=https://web.archive.org/web/20140929094040/http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|url-status=live|language=en}}</ref><ref name=":9" /> Дена Чирешана, Улі Меєра, Джонатана Маскі, {{нп|Лука Марія Гамбардела|Луки Марії Гамбардели||Luca Maria Gambardella}} та [[Юрген Шмідхубер|Юргена Шмідхубера]] вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.<ref name="SCHIDHUB" /> Також 2011 року ''DanNet'' виграла конкурс із китайського рукописного тексту ''ICDAR'', а в травні 2012 року перемогла в конкурсі з сегментування зображень ''ISBI''.<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last1=Ciresan|first1=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Jürgen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.|access-date=2017-06-13|archive-date=2017-08-09|archive-url=https://web.archive.org/web/20170809081713/http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|url-status=live|language=en}}</ref> До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції ''CVPR''<ref name=":9" /> показала, як [[Максимізувальне агрегування|максимізувально агрегувальні]] ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року ''DanNet'' також виграла конкурс ''ICPR'' з аналізу великих медичних зображень для виявляння раку, а наступного року також і ''MICCAI Grand Challenge'' на ту ж тему.<ref name="ciresan2013miccai">{{Cite journal|last1=Ciresan|first1=D.|last2=Giusti|first2=A.|last3=Gambardella|first3=L.M.|last4=Schmidhuber|first4=J.|date=2013|title=Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks|journal=Proceedings MICCAI|volume=7908|issue=Pt 2|pages=411–418|doi=10.1007/978-3-642-40763-5_51|pmid=24579167|series=Lecture Notes in Computer Science|isbn=978-3-642-38708-1|language=en}}</ref> У жовтні 2012 року подібна ''[[AlexNet]]'' [[Олексій Крижевський|Олексія Крижевського]], [[Ілля Суцкевер|Іллі Суцкевера]] та [[Джефрі Гінтон]]а<ref name="krizhevsky2012" /> виграла великомасштабне {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet competition}} зі значним відривом від неглибоких методів машинного навчання. Мережа ''VGG''-16 {{нп|Карен Симонян|Карена Симоняна||Karen Simonyan}} та {{нп|Ендрю Зіссерман|Ендрю Зіссермана||Andrew Zisserman}}<ref name="VGG">{{cite arXiv|last1=Simonyan |first1=Karen |last2=Andrew |first2=Zisserman |title=Very Deep Convolution Networks for Large Scale Image Recognition |year=2014 |class=cs.CV |eprint=1409.1556 |language=en}}</ref> ще більше знизила рівень похибок і виграла конкурс ''ImageNet'' 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.
Уточнення вагових коефіцієнтів може здійснюватися [[Стохастичний градієнтний спуск|стохастичним градієнтним спуском]] із застосуванням наступного рівняння:


Потім класифікування зображень було розширено до складнішого завдання {{нп|Автоматичне анотування зображень|породжування описів||Automatic image annotation}} (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.<ref name="1411.4555">{{cite arXiv |eprint=1411.4555|last1=Vinyals|first1=Oriol|title=Show and Tell: A Neural Image Caption Generator|last2=Toshev|first2=Alexander|last3=Bengio|first3=Samy|last4=Erhan|first4=Dumitru|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.4952">{{cite arXiv |eprint=1411.4952|last1=Fang|first1=Hao|title=From Captions to Visual Concepts and Back|last2=Gupta|first2=Saurabh|last3=Iandola|first3=Forrest|last4=Srivastava|first4=Rupesh|last5=Deng|first5=Li|last6=Dollár|first6=Piotr|last7=Gao|first7=Jianfeng|last8=He|first8=Xiaodong|last9=Mitchell|first9=Margaret|last10=Platt|first10=John C|last11=Lawrence Zitnick|first11=C|last12=Zweig|first12=Geoffrey|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.2539">{{cite arXiv |eprint=1411.2539|last1=Kiros|first1=Ryan|title=Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models|last2=Salakhutdinov|first2=Ruslan|last3=Zemel|first3=Richard S|class=cs.LG|year=2014|language=en}}.</ref>
: <math> w_{ij}(t + 1) = w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} </math>


2012 року команда під проводом Джорджа Даля виграла конкурс ''«Merck Molecular Activity Challenge»'', використовуючи багатозадачні глибокі нейронні мережі для передбачування {{нп|Біомолекулярна мішень|біомолекулярної мішені||Biomolecular target}} одного препарату.<ref name="MERCK2012">{{Cite web|url=https://kaggle.com/c/MerckActivity|title=Merck Molecular Activity Challenge|website=kaggle.com|access-date=2020-07-16|archive-date=2020-07-16|archive-url=https://web.archive.org/web/20200716190808/https://www.kaggle.com/c/MerckActivity|url-status=live|language=en}}</ref><ref name=":5">{{Cite web|url=http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|title=Multi-task Neural Networks for QSAR Predictions {{!}} Data Science Association|website=www.datascienceassn.org|access-date=14 June 2017|archive-date=30 April 2017|archive-url=https://web.archive.org/web/20170430142049/http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|url-status=live|language=en}}</ref> 2014 року група {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла ''«Tox21 Data Challenge»'' [[Національний інститут охорони здоров'я США|''NIH'']], [[Управління з продовольства і медикаментів США|''FDA'']] та ''{{нп|NCATS|||National Center for Advancing Translational Sciences}}''.<ref name="TOX21">"Toxicology in the 21st century Data Challenge" {{ref-en}}</ref><ref name="TOX21Data">{{cite web|url=https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|title=NCATS Announces Tox21 Data Challenge Winners|access-date=2015-03-05|archive-date=2015-09-08|archive-url=https://web.archive.org/web/20150908025122/https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|url-status=live|language=en}}</ref><ref name=":11">{{cite web|url=http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|title=NCATS Announces Tox21 Data Challenge Winners|archive-url=https://web.archive.org/web/20150228225709/http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|archive-date=28 February 2015|url-status=dead|access-date=5 March 2015|language=en}}</ref>
Тут <math> \eta </math> є темпом навчання, а <math> C </math>&nbsp;— [[Функція витрат|функцією витрат]]. Вибір функції витрат залежить від таких факторів, як тип навчання ([[Навчання з учителем|кероване]], [[Навчання без учителя|спонтанне]], [[Навчання з підкріпленням|з підкріпленням]] тощо) та [[Функція активації|функції активації]]. Наприклад, при виконанні керованого навчання для задачі {{нп|Багатокласова класифікація|багатокласової класифікації||Multiclass classification}} звичайним вибором для функції активації та функції витрат є [[нормована експоненційна функція]] ({{lang-en|softmax}}) та функція [[Перехресна ентропія|перехресної ентропії]] відповідно. Багатозмінна логістична функція визначається як <math> p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} </math>, де <math> p_j </math> представляє ймовірність класу (вихід вузла <math> j </math>), а <math> x_j </math> та <math> x_k </math> представляють сумарний вхід до вузлів <math> j </math> та <math> k </math> на одному й тому ж рівні відповідно. Перехресна ентропія визначається як <math> C = -\sum_j d_j \log(p_j) </math>, де <math> d_j </math> представляє цільову ймовірність для вихідного вузла <math> j </math>, а <math> p_j </math> є виходом ймовірності для <math> j </math> після застосування активаційної функції.<ref name="HINTON2012">G. E. Hinton ''et al.''., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups, " ''IEEE Signal Processing Magazine'', pp. 82–97, November 2012.{{ref-en}}</ref>


2016 року Роджер Парлофф зазначив «революцію глибокого навчання», яка змінила галузь ШІ.<ref>{{cite news|title=Why Deep Learning Is Suddenly Changing Your Life|url=http://fortune.com/ai-artificial-intelligence-deep-machine-learning/|access-date=13 April 2018|work=Fortune|date=2016|archive-date=14 April 2018|archive-url=https://web.archive.org/web/20180414031925/http://fortune.com/ai-artificial-intelligence-deep-machine-learning/|url-status=live|language=en}}</ref>
Вони можуть використовуватися для виведення описаних прямокутників об'єктів у вигляді двійкової маски. Вони також використовуються для багатомасштабної регресії для підвищення точності визначення положення. Регресія на базі ГНМ може навчатися ознак, що схоплюють геометричну інформацію, на додачу до того, що вони є добрим класифікатором. Вони усувають обмеження розробки моделі, що фіксуватиме деталі та їхні зв'язки явно. Це дозволяє навчатися широкого спектра об'єктів. Модель складається з кількох шарів, кожен з яких має [[ReLU]] для нелінійного перетворення. Деякі шари є згортковими, тоді як деякі є повноз'єднаними. Кожен згортковий рівень має додаткову підвибірку ({{lang-en|max pooling}}). Мережа тренується мінімізувати похибки ''L2'' для передбачення маски на діапазоні всього тренувального набору, що містить описані прямокутники, представлені як маски.


У березні 2019 року {{нп|Йошуа Бенжіо|||Yoshua Bengio}}, [[Джефрі Гінтон]]а та [[Ян ЛеКун|Яна ЛеКуна]] було нагороджено [[Премія Тюрінга|премією Тюрінга]] за концептуальні та інженерні прориви, які зробили глибокі нейронні мережі критично важливою складовою обчислювальної техніки.
==== Проблеми з глибинними нейронними мережами ====
Як і з ШНМ, з ГНМ може виникати багато проблем, якщо вони тренуються наївно. Двома поширеними проблемами є [[перенавчання]] та тривалість обчислення.


== Нейронні мережі ==
ГНМ схильні до перенавчання через додані шари абстракції, що дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для допомоги в боротьбі з перенавчанням під час тренування можуть застосовуватися методи [[Регуляризація (математика)|регуляризації]], такі як відсікання вузлів Івахненка<ref name="ivak1971"/>, {{нп|зменшення вагових коефіцієнтів|||Weight decay}} (<math> \ell_2 </math>-регуляризація) та [[Розріджена матриця|розрідженість]] (<math> \ell_1 </math>-регуляризація).<ref name="BENGIO2013">Y. Bengio ''et al.''., "Advances in optimizing recurrent networks, " ''ICASSP'', 2013. {{ref-en}}</ref> Новішим методом регуляризації, що застосовується до ГНМ, є регуляризація [[Виключення (нейронні мережі)|виключенням]] ({{lang-en|dropout}}). При виключенні під час тренування деяка кількість вузлів з прихованих шарів випадково пропускається. Це допомагає зламати рідкісні залежності, що можуть траплятися в тренувальних даних.<ref name="DAHL2013">G. Dahl ''et al.''., "Improving DNNs for LVCSR using rectified linear units and dropout, " ''ICASSP'', 2013. {{ref-en}}</ref>
{{Main|Штучна нейронна мережа}}


'''Штучні нейронні мережі''' ('''ШНМ''', {{lang-en|artificial neural networks, ANN}}) або '''[[Конекціонізм|коннекціоністські]] системи''' ({{lang-en|connectionist systems}})&nbsp;— це обчислювальні системи, натхненні [[Біологічна нейронна мережа|біологічними нейронними мережами]], які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, {{нп|Мічені дані|мічені||Labeled data}} вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням [[програмування на основі правил]] .
Панівним методом для тренування цих структур було тренування з коригуванням похибок (таке як [[Метод зворотного поширення помилки|зворотне поширення]] з [[Градієнтний спуск|градієнтним спуском]]), завдяки простоті його реалізації та його схильності до кращих {{нп|Локальний оптимум|локальних оптимумів||Local optimum}}, ніж інші методи тренування. Проте ці методи можуть бути обчислювально витратними, особливо для ГНМ. Є багато параметрів, які потрібно розглядати при ГНМ, такі як розмір (кількість шарів та кількість вузлів на шар), темп навчання та початкові вагові коефіцієнти. [[Оптимізація гіперпараметрів#Пошук по ґратці|Прочісування простору параметрів]] у пошуку оптимальних може не бути придатним з причини витрат часу та обчислювальних ресурсів. Було показано, що різні «хитрощі», такі як міні-групування ({{lang-en|mini-batching}}, обчислення градієнту на кількох тренувальних прикладах одночасно, а не на окремих прикладах),<ref name="RBMTRAIN">G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines, " ''Tech. Rep. UTML TR 2010—003, Dept. CS., Univ. of Toronto'', 2010. {{ref-en}}</ref> можуть пришвидшувати обчислення. Велика обробна пропускна спроможність графічних процесорів спричинила значне прискорення тренувань, оскільки потрібні матричні та векторні обчислення добре підходять для графічних процесорів.<ref name="SCHIDHUB" /> Увагу привернули докорінні альтернативи зворотному поширенню, такі як [[Машина екстремального навчання|машини екстремального навчання]] ({{lang-en|Extreme Learning Machines, ELM}}),<ref>{{cite journal | last1 = Huang | first1 = Guang-Bin | last2 = Zhu | first2 = Qin-Yu | last3 = Siew | first3 = Chee-Kheong | year = 2006 | title = Extreme learning machine: theory and applications | url = | journal = Neurocomputing | volume = 70 | issue = 1| pages = 489–501 | doi=10.1016/j.neucom.2005.12.126}} {{ref-en}}</ref> «безпоширні» ({{lang-en|«No-prop»}}) мережі,<ref>{{cite journal | last1 = Widrow | first1 = Bernard | display-authors = etal | year = 2013 | title = The no-prop algorithm: A new learning algorithm for multilayer neural networks | url = | journal = Neural Networks | volume = 37 | issue = | pages = 182–188 | doi=10.1016/j.neunet.2012.09.020}}</ref> тренування без пошуку з вертанням<ref>{{cite arXiv |last=Ollivier |first=Yann |last2=Charpiat |first2=Guillaume |year=2015 |title=Training recurrent networks without backtracking |arxiv=1507.07680}} {{ref-en}}</ref> та «безвагові» нейронні мережі ({{lang-en|Weightless neural networks, WNN}})<ref>Aleksander, Igor, et al. [http://ftp.bstu.by/ai/To-dom/My_research/Papers-3/Intention/BDI-model/NN/es2009-6.pdf «A brief introduction to Weightless Neural Systems.»] {{Webarchive|url=https://web.archive.org/web/20160107100220/http://ftp.bstu.by/ai/To-dom/My_research/Papers-3/Intention/BDI-model/NN/es2009-6.pdf |date=7 січня 2016 }} ESANN. 2009. {{ref-en}}</ref> та {{нп|Голографічна асоціативна пам'ять|не-зв'язницькі нейронні мережі||Holographic associative memory}} ({{lang-en|non-connectionist neural networks}}).


ШНМ ґрунтується на сукупності з'єднаних вузлів, званих [[Штучний нейрон|штучними нейронами]] (аналогічно біологічним нейронам у [[Головний мозок|біологічному мозку]]). Кожне з'єднання ([[синапс]]) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий [[Дійсне число|дійсними числами]], зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.
=== Перші мережі глибинного навчання 1965 року: МГУА ===
Згідно історичного дослідження,<ref name="SCHIDHUB"/> перші працездатні мережі глибинного навчання з багатьма шарами було опубліковано [[Івахненко Олексій Григорович|Олексієм Григоровичем Івахненком]] та [[Валентин Григорович Лапа|Валентином Григоровичем Лапою]] 1965 року.<ref name="ivak1965"/><ref name="ivak1967">[[Івахненко Олексій Григорович|Alexey Grigorevich Ivakhnenko]] and V. G. Lapa and R. N. McDonough (1967). Cybernetics and forecasting techniques. American Elsevier, NY. {{ref-en}}</ref> Цей алгоритм навчання було названо [[Метод групового урахування аргументів|методом групового урахування аргументів]], або МГУА ({{lang-en|Group Method of Data Handling, GMDH}}).<ref name="ivak1968">[[Івахненко Олексій Григорович|Alexey Grigorevich Ivakhnenko]] (1968). The [[Метод групового урахування аргументів|group method of data handling]]&nbsp;— a rival of the method of stochastic approximation. Soviet Automatic Control, 13(3):43–55. {{ref-en}}</ref> МГУА пропонує повністю повністю автоматичну структурну та параметричну оптимізацію моделей. Функції активації вузлів мережі є [[Ряд Вінера|поліномами Колмогорова — Габора]], які дозволяють додавання та множення.
Праця Івахненка 1971 року<ref name="ivak1971"/> описує навчання глибинного багатошарового [[перцептрон]]у прямого поширення з вісьмома шарами, вже набагато глибшого за багато пізніших мереж. Мережа [[Навчання з учителем|керованого навчання]] нарощується шар за шаром, кожен шар тренується [[Регресійний аналіз|регресійним аналізом]]. Час від часу непотрібні нейрони виявляються за допомогою набору перевірок, і відсікаються через [[Регуляризація (математика)|регуляризацію]]. Розмір та глибина отримуваної в результаті мережі залежать від задачі. Варіації цього методу застосовуються й досі.<ref name="kondo2008">T. Kondo and J. Ueno (2008). Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels. International Journal of Innovative Computing, Information and Control, 4(1):175–187. {{ref-en}}</ref>


Як правило, нейрони впорядковано в шари ({{lang-en|layers}}). Різні шари можуть виконувати різні типи перетворень над своїми входами. Сигнали проходять від першого шару (шару входу) до останнього шару (шару виходу), можливо, після проходження шарами декілька разів.
=== Згорткові нейронні мережі ===
{{Main|Згорткова нейронна мережа}}
ЗНМ стали методом, який вибирають для обробки візуальних та інших двовимірних даних.<ref name="LECUN1989"/><ref name="lecun2016slides"/>
ЗНМ складається з одного або більше [[Згортка (математичний аналіз)|згорткових]] шарів із повноз'єднаними шарами (що відповідають таким у типовій штучній нейронній мережі) нагорі. Вона також застосовує зв'язані вагові коефіцієнти та агрегувальні шари. Зокрема, у згортковій архітектурі Фукусіми часто застосовується максимізаційна підвибірка.<ref name="Weng1993"/><ref name="FUKU1980"/> Ця архітектура дозволяє ЗНМ отримувати переваги від двовимірної структури вхідних даних. У порівнянні з іншими глибинними архітектурами, згорткові нейронні мережі показали чудові результати в застосуваннях як до зображень, так і до мовлення. Їх також може бути треновано стандартним зворотним поширенням. ЗНМ є простішими для тренування від інших звичайних, глибинних, нейронних мереж прямого поширення, і мають набагато менше параметрів для оцінки, що робить їх дуже привабливою архітектурою для застосування.<ref name="STANCNN">http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ {{Webarchive|url=https://web.archive.org/web/20201029000436/http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ |date=29 жовтня 2020 }} {{ref-en}}</ref> Приклади застосування в комп'ютерному баченні включають {{нп|DeepDream}}.<ref name="deepdream">{{cite journal|first1=Christian |last1=Szegedy |first2=Wei |last2=Liu |first3=Yangqing |last3=Jia|first4=Pierre |last4=Sermanet|first5=Scott |last5=Reed|first6=Dragomir |last6=Anguelov|first7=Dumitru |last7=Erhan|first8=Vincent |last8=Vanhoucke|first9=Andrew |last9=Rabinovich|title = Going Deeper with Convolutions|url=https://archive.org/details/arxiv-1409.4842 |journal= Computing Research Repository|arxiv= 1409.4842|year=2014}} {{ref-en}}</ref> Численні додаткові посилання див. у статті про [[Згорткова нейронна мережа|згорткові нейронні мережі]].


Початкова мета нейромережного підходу полягала у розв'язуванні задач таким же чином, як це робив би людський мозок. З часом увага зосередилася на відповідності конкретним розумовим здібностям, що призвело до відхилень від біології, таких як [[зворотне поширення]], або передавання інформації у зворотному напрямку з підлаштовуванням мережі відображувати цю інформацію.
=== Нейронний стискач історії ===
[[Проблема зникання градієнту|Проблему зникання градієнту]]<ref name="HOCH1991"/> [[Автоматичне диференціювання|автоматичного диференціювання]] та [[Метод зворотного поширення помилки|зворотного поширення]] в нейронних мережах було частково подолано 1992 року ранішою породжувальною моделлю, яка називається нейронним стискачем історії, реалізованою як некерований стек [[Рекурентні нейронні мережі|рекурентних нейронних мереж]] (РНМ).<ref name="SCHMID1992"/> РНМ на вхідному рівні навчається передбаченню свого наступного входу з історії попередніх входів. Лише непередбачувані входи деяких РНМ в ієрархії стають входами до наступних РНМ вищого рівня, які відтак переобчислюють свій внутрішній стан лише зрідка. Кожна РНМ вищого рівня таким чином навчається стисненого представлення інформації в нижчій РНМ. Це робиться таким чином, що вхідну послідовність може бути точно відбудовано з представлення послідовності на найвищому рівні. Система дієво мінімізує довжину опису, або від'ємний [[логарифм]] імовірності даних.<ref name="scholarpedia"/>
Якщо в послідовності вхідних даних є багато навчаної передбачуваності, то РНМ найвищого рівня може використовувати кероване навчання, щоби легко класифікувати навіть глибокі послідовності з дуже тривалими проміжками часу між важливими подіями. 1993 року така система вже розв'язала задачу «дуже глибокого навчання», яка вимагає понад 1&nbsp;000 послідовних шарів в РНМ, розгорнутій у часі.<ref name="schmidhuber1993">[[Юрген Шмідгубер|Jürgen Schmidhuber]] (1993). Habilitation thesis, TUM, 1993. Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN. [ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf Online]</ref>


Нейронні мережі використовували для різноманітних завдань, включно з комп'ютерним баченням, [[Розпізнавання мовлення|розпізнаванням мовлення]], [[Машинний переклад|машинним перекладом]], фільтруванням [[Соціальна мережа|соціальних мереж]], {{нп|Універсальна ігрова програма|грою в настільні та відеоігри||General game playing}} та медичною діагностикою.
Також є можливим переганяти всю ієрархію РНМ в лише дві РНМ, які називають «свідомим» фрагментувальником (вищий рівень) та «підсвідомим» автоматизатором (нижчий рівень).<ref name="SCHMID1992"/> Щойно фрагментувальник навчився передбачувати та стискати входи, що є все ще непередбачуваними для автоматизатора, як автоматизатор змушується на наступній фазі навчання передбачувати або імітувати через особливі додаткові вузли приховані вузли фрагментувальника, який змінюється повільніше. Це полегшує автоматизаторові навчання відповідних, рідко змінюваних спогадів протягом дуже тривалих проміжків часу. Це, в свою чергу, допомагає автоматизаторові робити багато з його раніше непередбачуваних входів передбачуваними, так що фрагментувальник може зосереджуватися на подіях, які все ще лишаються непередбачуваними, щоби стискати дані ще далі.<ref name="SCHMID1992"/>


Станом на 2017 рік нейронні мережі зазвичай мають від кількох тисяч до кількох мільйонів вузлів та мільйони з'єднань. Незважаючи на те, що це число на кілька порядків менше за число нейронів у мозку людини, ці мережі можуть виконувати багато завдань на рівні, що перевершує людський (наприклад, розпізнавати обличчя або грати в [[Ґо (гра)|«Ґо»]]<ref>{{Cite journal|last1=Silver|first1=David|last2=Huang|first2=Aja|last3=Maddison|first3=Chris J.|last4=Guez|first4=Arthur|last5=Sifre|first5=Laurent|last6=Driessche|first6=George van den|last7=Schrittwieser|first7=Julian|last8=Antonoglou|first8=Ioannis|last9=Panneershelvam|first9=Veda|s2cid=515925|date=January 2016|title=Mastering the game of Go with deep neural networks and tree search|journal=Nature|volume=529|issue=7587|pages=484–489|doi=10.1038/nature16961|issn=1476-4687|pmid=26819042|bibcode=2016Natur.529..484S|language=en}}</ref>).
=== Рекурсивні нейронні мережі ===
{{Main|Рекурсивна нейронна мережа}}
[[Рекурсивна нейронна мережа]] ({{lang-en|recursive neural network}})<ref>{{cite journal|doi=10.1109/ICNN.1996.548916|title=Learning task-dependent distributed representations by backpropagation through structure|last1=Goller|first1=C.|last2=Küchler|first2=A.|journal=Neural Networks, 1996., IEEE}} {{ref-en}}</ref> створюється шляхом [[Рекурсія|рекурсивного]] застосування одного й того ж набору вагових коефіцієнтів над диференційовною графоподібною структурою, шляхом обходу цієї структури в [[Топологічне сортування|топологічному порядку]]. Такі мережі зазвичай також тренуються оберненим режимом [[Автоматичне диференціювання|автоматичного диференціювання]].<ref name="lin1970"/><ref name="grie2008"/>
Їх було запропоновано для навчання [[Розподілене представлення|розподілених представлень]] структури, таких як [[Математична логіка|логічні терми]].
Окремим випадком рекурсивних нейронних мереж є власне {{H:title|Рекурентна нейронна мережа|РНМ}}, чия структура відповідає лінійному ланцюгові. Рекурсивні нейронні мережі застосовувалися до [[Обробка природної мови|обробки природної мови]].<ref>{{cite journal|last1=Socher|first1=Richard|last2=Lin|first2=Cliff|last3=Ng|first3=Andrew Y.|last4=Manning|first4=Christopher D.|title=Parsing Natural Scenes and Natural Language with Recursive Neural Networks|journal=The 28th International Conference on Machine Learning (ICML 2011)}} {{ref-en}}</ref> Рекурсивна нейронна тензорна мережа ({{lang-en|Recursive Neural Tensor Network}}) використовує для всіх вузлів у дереві композиційну функцію на основі тензора.<ref>{{cite journal|last1=Socher|first1=Richard|last2=Perelygin|first2=Alex|last3=Y. Wu|first3=Jean|last4=Chuang|first4=Jason|last5=D. Manning|first5=Christopher|last6=Y. Ng|first6=Andrew|last7=Potts|first7=Christopher|title=Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank|journal=EMNLP 2013|url=http://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf|accessdate=4 січня 2016|archive-date=28 грудня 2016|archive-url=https://web.archive.org/web/20161228100300/http://nlp.stanford.edu/%7Esocherr/EMNLP2013_RNTN.pdf}} {{ref-en}}</ref>


=== Глибокі нейронні мережі ===
=== Довга короткочасна пам'ять ===
{{Main|Довга короткочасна пам'ять}}
Численні дослідники нині застосовують варіанти РНМ глибинного навчання, яка називається мережею [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] (ДКЧП, {{lang-en|Long short-term memory, LSTM}}), опублікованої Хохрайтером та Шмідгубером 1997 року.<ref name=lstm/> Вона є системою, яка, на відміну від традиційних РНМ, не має [[Проблема зникання градієнту|проблеми зникання градієнту]].
ДКЧП зазвичай доповнюються рекурентними вентилями, які називаються забувальними ({{lang-en|forget gates}}).<ref name="gers2002">Felix Gers, Nicholas Schraudolph, and [[Юрген Шмідгубер|Jürgen Schmidhuber]] (2002). Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3:115–143. {{ref-en}}</ref> РНМ ДКЧП попереджають зворотнє поширення похибок від зникання градієнту або вибуху значень вагових коефіцієнтів.<ref name="HOCH1991"/> Замість цього похибки можуть текти назад крізь необмежені кількості віртуальних шарів розгорнутих у просторі РНМ ДКЧП. Тобто, ДКЧП може навчатися завдань «дуже глибокого навчання»,<ref name="SCHIDHUB"/> які вимагають спогадів про події, що сталися тисячі або навіть мільйони дискретних кроків часу тому. Може бути розвинено проблемно-орієнтовані ДКЧП-подібні топології.<ref name="bayer2009">Justin Bayer, Daan Wierstra, Julian Togelius, and Jürgen Schmidhuber (2009). Evolving memory cell structures for sequence learning. Proceedings of ICANN (2), pp. 755—764. {{ref-en}}</ref>
ДКЧП працює навіть за наявності дуже тривалих затримок, і може обробляти сигнали, які містять суміш низько- та високочастотних складових.


Глибока нейронна мережа (ГНМ, {{lang-en|deep neural network, DNN}})&nbsp;— це [[штучна нейронна мережа]] (ШНМ) із кількома шарами між шарами входу та виходу.<ref name="BENGIODEEP" /><ref name="SCHIDHUB" /> Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.<ref name="Nokkada">{{citation |title=A Guide to Deep Learning and Neural Networks |url=https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |access-date=2020-11-16 |archive-date=2020-11-02 |archive-url=https://web.archive.org/web/20201102151103/https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |url-status=live |language=en }}</ref> Ці складові в цілому функціонують подібно до людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.{{Джерело|дата=липень 2023}}
Сьогодні багато застосувань використовують стеки РНМ ДКЧП,<ref name="fernandez2007">Santiago Fernandez, Alex Graves, and [[Юрген Шмідгубер|Jürgen Schmidhuber]] (2007). Sequence labelling in structured domains with hierarchical recurrent neural networks. Proceedings of IJCAI. {{ref-en}}</ref> і тренують їх нейромережевою часовою класифікацією (НЧК, {{lang-en|Connectionist Temporal Classification, CTC}})<ref name="graves2006">Alex Graves, Santiago Fernandez, Faustino Gomez, and [[Юрген Шмідгубер|Jürgen Schmidhuber]] (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369—376. {{ref-en}}</ref> для знаходження вагової матриці РНМ, яка максимізує ймовірність послідовностей міток у тренувальному наборі для заданих відповідних вхідних послідовностей. НЧК досягає як вирівнювання, так і розпізнавання. 2009 року ДКЧП, тренована НЧК, стала першою РНМ, яка перемогла в змаганнях із розпізнавання образів, коли вона виграла кілька змагань із неперервного [[Розпізнавання рукописного введення|рукописного розпізнавання]].<ref name="SCHIDHUB"/><ref name="graves2009"/> Вже 2003 року ДКЧП почала ставати конкурентноспроможною у порівнянні з традиційними розпізнавачами мовлення в деяких задачах.<ref name="graves2003">Alex Graves, Douglas Eck, Nicole Beringer, and [[Юрген Шмідгубер|Jürgen Schmidhuber]] (2003). Biologically Plausible Speech Recognition with LSTM Neural Nets. 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland, p. 175—184, 2004. [ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf Online] {{Webarchive|url=https://web.archive.org/web/20210509123139/ftp://ftp.idsia.ch/pub/juergen/bioadit2004.pdf |date=9 травня 2021 }} {{ref-en}}</ref> 2007 року поєднання з НЧК отримало перші добрі результати на даних мовлення.<ref name="fernandez2007keyword">Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2), pp. 220—229. {{ref-en}}</ref> Відтоді цей підхід революціював [[розпізнавання мовлення]]. 2014 року китайський пошуковий гігант [[Baidu]] застосував РНМ, треновані НЧК, щоби перевершити еталон розпізнавання мовлення Switchboard Hub5'00, без застосування будь-яких традиційних методів обробки мовлення.<ref name="hannun2014">Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, [[Ендрю Ин|Andrew Ng]] (2014). Deep Speech: Scaling up end-to-end speech recognition. [http://arxiv.org/abs/1412.5567 arXiv:1412.5567] {{Webarchive|url=https://web.archive.org/web/20161221014541/https://arxiv.org/abs/1412.5567 |date=21 грудня 2016 }} {{ref-en}}</ref>
ДКЧП також поліпшила велико-словникове розпізнавання мовлення,<ref name="sak2014">Hasim Sak and Andrew Senior and Francoise Beaufays (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling. Proceedings of Interspeech 2014. {{ref-en}}</ref><ref name="liwu2015">Xiangang Li, Xihong Wu (2015). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition [http://arxiv.org/abs/1410.4281 arXiv:1410.4281] {{Webarchive|url=https://web.archive.org/web/20170926235637/https://arxiv.org/abs/1410.4281 |date=26 вересня 2017 }} {{ref-en}}</ref> [[синтез мовлення]] з тексту,<ref name="fan2014">Fan, Y., Qian, Y., Xie, F., and Soong, F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks. In Proceedings of Interspeech. {{ref-en}}</ref> також і для Google Android,<ref name="scholarpedia"/><ref name="zen2015">Heiga Zen and Hasim Sak (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis. In Proceedings of ICASSP, pp. 4470-4474. {{ref-en}}</ref> і фото-реалістичні голови, що розмовляють.<ref name="fan2015">Bo Fan, Lijuan Wang, Frank K. Soong, and Lei Xie (2015). Photo-Real Talking Head with Deep Bidirectional LSTM. In Proceedings of ICASSP 2015. {{ref-en}}</ref> 2015 року в розпізнаванні мовлення Google, як повідомляється, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яка тепер доступна через {{нп|Google Voice}} мільярдам користувачам смартфонів.<ref name="sak2015">Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): [http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html Google voice search: faster and more accurate.] {{Webarchive|url=https://web.archive.org/web/20160309191532/http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html |date=9 березня 2016 }} {{ref-en}}</ref>


Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,{{Джерело|дата=липень 2023}} і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.
ДКЧП також стала дуже популярною в галузі [[Обробка природної мови|обробки природної мови]]. На відміну від попередніх моделей на основі [[Прихована марковська модель|ПММ]] та подібних понять, ДКЧП може вчитися розпізнавати {{нп|Контекстно-чутлива мова|контекстно-чутливі мови||Context-sensitive language}}.<ref name="gers2001">Felix A. Gers and [[Юрген Шмідгубер|Jürgen Schmidhuber]]. LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE TNN 12(6):1333–1340, 2001.</ref> ДКЧП поліпшила машинний переклад,<ref name="NIPS2014"/> [[моделювання мов]]<ref name="vinyals2016">Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu (2016). Exploring the Limits of Language Modeling. [http://arxiv.org/abs/1602.02410 arXiv] {{Webarchive|url=https://web.archive.org/web/20170606220921/https://arxiv.org/abs/1602.02410 |date=6 червня 2017 }} {{ref-en}}</ref> та багатомовну обробку мов.<ref name="gillick2015">Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya (2015). Multilingual Language Processing From Bytes. [http://arxiv.org/abs/1512.00103 arXiv] {{Webarchive|url=https://web.archive.org/web/20170726111718/https://arxiv.org/abs/1512.00103 |date=26 липня 2017 }} {{ref-en}}</ref> ДКЧП у поєднанні зі [[Згорткова нейронна мережа|згортковими нейронними мережами]] (ЗНМ) також поліпшила автоматичний опис зображень<ref name="vinyals2015">Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan (2015). Show and Tell: A Neural Image Caption Generator. [http://arxiv.org/abs/1411.4555 arXiv] {{Webarchive|url=https://web.archive.org/web/20170404042625/https://arxiv.org/abs/1411.4555 |date=4 квітня 2017 }} {{ref-en}}</ref> і безліч інших застосувань.


ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією [[Примітивний тип даних|примітивів]].<ref>{{Cite journal|last1=Szegedy|first1=Christian|last2=Toshev|first2=Alexander|last3=Erhan|first3=Dumitru|date=2013|title=Deep neural networks for object detection|url=https://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|journal=Advances in Neural Information Processing Systems|pages=2553–2561|access-date=2017-06-13|archive-date=2017-06-29|archive-url=https://web.archive.org/web/20170629172111/http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|url-status=live|language=en}}</ref> Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.<ref name="BENGIODEEP" /> Наприклад, було доведено, що розріджені {{нп|Багатовимірний многочлен|багатовимірні многочлени||Multivariate polynomial}} експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.<ref>{{cite conference|last1=Rolnick|first1=David|last2=Tegmark|first2=Max|date=2018|title=The power of deeper networks for expressing natural functions|url=https://openreview.net/pdf?id=SyProzZAW|conference=ICLR 2018|book-title=International Conference on Learning Representations|access-date=2021-01-05|archive-date=2021-01-07|archive-url=https://web.archive.org/web/20210107183647/https://openreview.net/pdf?id=SyProzZAW|url-status=live|language=en}}</ref>
=== Глибинні мережі переконань ===
{{Main|Глибинна мережа переконань}}
[[Файл:Restricted Boltzmann machine-uk.svg|thumb|[[Обмежена машина Больцмана]] (ОМБ, {{lang-en|restricted Boltzmann machine, RBM}}) з повноз'єднаними видимими та прихованими вузлами. Зауважте, що з'єднань приховані-приховані та видимі-видимі немає]]
Глибинна мережа переконань (ГМП, {{lang-en|deep belief network, DBN}}) є ймовірнісною [[Породжувальна модель|породжувальною моделлю]], зробленою з кількох шарів прихованих вузлів. Її можна розглядати як [[Композиція функцій|композицію]] простіших модулів навчання, що утворюють кожен із шарів.<ref name="SCHOLARDBNS">{{cite journal | last1 = Hinton | first1 = G.E. | year = | title = Deep belief networks | url = | journal = Scholarpedia | volume = 4 | issue = 5| page = 5947 | doi=10.4249/scholarpedia.5947}} {{ref-en}}</ref>


До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.
ГМП можуть застосовуватися для породжувального попереднього тренування ГНМ шляхом застосування навчених вагових коефіцієнтів ГМП як початкових вагових коефіцієнтів ГНМ. Для точного налаштування цих вагових коефіцієнтів можуть застосовуватися зворотне поширення або інші розрізнювальні алгоритми. Це особливо корисно тоді, коли доступні тренувальні дані є обмеженими, оскільки вагові коефіцієнти з погано заданими початковими значеннями можуть значно заважати ефективності навченої моделі. Ці попередньо натреновані вагові коефіцієнти знаходяться в області простору вагових коефіцієнтів, що є ближчою до оптимальних вагових коефіцієнтів, ніж випадково вибрані початкові значення. Це передбачає як поліпшення моделювання, так і швидшу збіжність фази тонкого налаштування.<ref name="LAROCH2007">{{cite journal | last1 = Larochelle | first1 = H. | display-authors = etal | year = | title = An empirical evaluation of deep architectures on problems with many factors of variation | url = | journal = Proc. 24th Int. Conf. Machine Learning | volume = 2007 | issue = | pages = 473–480 }} {{ref-en}}</ref>


ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.<ref>{{Cite news|last=Hof|first=Robert D.|title=Is Artificial Intelligence Finally Coming into Its Own?|work=MIT Technology Review|url=https://www.technologyreview.com/s/513696/deep-learning/|access-date=10 July 2018|archive-url=https://web.archive.org/web/20190331092832/https://www.technologyreview.com/s/513696/deep-learning/|archive-date=31 March 2019|language=en}}</ref> Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.
ГМП можуть ефективно тренуватися спонтанним пошаровим чином, де кожен шар, як правило, зроблено з [[Обмежена машина Больцмана|обмеженої машини Больцмана]] (ОМБ, {{lang-en|restricted Boltzmann machine, RBM}}). ОМБ є [[Неорієнтований граф|неорієнтованою]] породжувальною моделлю на основі енергії, з «видимим» вхідним шаром та прихованим шаром, і з'єднаннями між шарами, але не в межах шарів. Метод тренування ОМБ, запропонований Джефрі Хінтоном для застосування при тренуванні моделей «добутку експертів» ({{lang-en|"Product of Expert" models}}), називається [[Порівняльна розбіжність|порівняльною розбіжністю]] (ПР, {{lang-en|contrastive divergence, CD}}).<ref name="POE">G. E. Hinton., [http://www.cs.toronto.edu/~fritz/absps/nccd.pdf "Training Product of Experts by Minimizing Contrastive Divergence, «] {{Webarchive|url=https://web.archive.org/web/20160127154848/http://www.cs.toronto.edu/~fritz/absps/nccd.pdf |date=27 січня 2016 }} ''Neural Computation'', 14, pp. 1771—1800, 2002. {{ref-en}}</ref> ПР забезпечує наближення методу [[Метод максимальної вірогідності|максимальної правдоподібності]], який було би ідеально застосовувати при навчанні вагових коефіцієнтів ОМБ.<ref name="RBMTRAIN"/><ref name="RBMTutorial">{{cite journal | last1 = Fischer | first1 = A. | last2 = Igel | first2 = C. | year = 2014 | title = Training Restricted Boltzmann Machines: An Introduction | url = http://image.diku.dk/igel/paper/TRBMAI.pdf | format = PDF | journal = Pattern Recognition | volume = 47 | issue = | pages = 25–39 | doi = 10.1016/j.patcog.2013.05.025 | accessdate = 20 грудня 2015 | archiveurl = https://web.archive.org/web/20150610230447/http://image.diku.dk/igel/paper/TRBMAI.pdf | archivedate = 10 червня 2015 | deadurl = yes }} {{ref-en}}</ref> При навчанні однієї ОМБ уточнення вагових коефіцієнтів виконуються [[Градієнтний спуск|градієнтним підйомом]] за наступним рівнянням:


[[Рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural networks, RNN}}), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як [[моделювання мови]].<ref name="gers2001">{{cite journal|last1=Gers|first1=Felix A.|last2=Schmidhuber|first2=Jürgen|year=2001|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|url=http://elartu.tntu.edu.ua/handle/lib/30719|journal=IEEE Transactions on Neural Networks|volume=12|issue=6|pages=1333–1340|doi=10.1109/72.963769|pmid=18249962|access-date=2020-02-25|archive-date=2020-01-26|archive-url=https://web.archive.org/web/20200126045722/http://elartu.tntu.edu.ua/handle/lib/30719|url-status=live|language=en}}</ref><ref name="NIPS2014" /><ref name="vinyals2016">{{cite arXiv |eprint=1602.02410|last1=Jozefowicz|first1=Rafal|title=Exploring the Limits of Language Modeling|last2=Vinyals|first2=Oriol|last3=Schuster|first3=Mike|last4=Shazeer|first4=Noam|last5=Wu|first5=Yonghui|class=cs.CL|year=2016|language=en}}</ref><ref name="gillick2015">{{cite arXiv |eprint=1512.00103|last1=Gillick|first1=Dan|title=Multilingual Language Processing from Bytes|last2=Brunk|first2=Cliff|last3=Vinyals|first3=Oriol|last4=Subramanya|first4=Amarnag|class=cs.CL|year=2015|language=en}}</ref><ref name="MIKO2010">{{Cite journal|last=Mikolov|first=T.|display-authors=etal|date=2010|title=Recurrent neural network based language model|url=http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|journal=Interspeech|pages=1045–1048|doi=10.21437/Interspeech.2010-343|s2cid=17048224 |access-date=2017-06-13|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516181940/http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|url-status=live|language=en}}</ref> Для цього використання особливо ефективна довга короткочасна пам'ять.<ref name=":0" /><ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|access-date=13 June 2017|archive-date=9 May 2021|archive-url=https://web.archive.org/web/20210509123147/https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks|url-status=live|language=en}}</ref>
: <math> \Delta w_{ij}(t+1) = w_{ij}(t) + \eta\frac{\partial \log(p(v))}{\partial w_{ij}} </math>.


[[Згорткова нейронна мережа|Згорткові глибокі нейронні мережі]] (ЗНМ, {{lang-en|convolutional deep neural networks, CNN}}) використовують у комп'ютернім баченні.<ref name="LECUN86">{{cite journal |last1=LeCun |first1=Y. |display-authors=etal |year= 1998|title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |volume=86 |issue=11 |pages=2278–2324 |doi=10.1109/5.726791|s2cid=14542261 |url=http://elartu.tntu.edu.ua/handle/lib/38369 |language=en }}</ref> ЗНМ також застосовували до {{нп|Акустична модель|акустичного моделювання||Acoustic model}} для автоматичного розпізнавання мовлення (АРМ, {{lang-en|automatic speech recognition, ASR}}).<ref name=":2">{{Cite book |doi=10.1109/icassp.2013.6639347|isbn=978-1-4799-0356-6|chapter=Deep convolutional neural networks for LVCSR|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8614–8618|year=2013|last1=Sainath|first1=Tara N.|author1-link=Тара Сайнат |last2=Mohamed|first2=Abdel-Rahman|last3=Kingsbury|first3=Brian|last4=Ramabhadran|first4=Bhuvana|author4-link=Бгувана Рамбгадран|s2cid=13816461|language=en}}</ref>
Тут <math>p(v)</math> є ймовірністю видимого вектора, що задається як <math>p(v) = \frac{1}{Z}\sum_he^{-E(v,h)}</math>. <math> Z </math> є [[Статистична сума|статистичною сумою]] (що застосовується для нормалізації), а <math>E(v,h)</math> є функцією енергії, призначеної станові мережі. Нижча енергія показує, що мережа знаходиться в „бажанішій“ конфігурації. Градієнт <math>\frac{\partial \log(p(v))}{\partial w_{ij}}</math> має простий вигляд <math>\langle v_ih_j\rangle_\text{data} - \langle v_ih_j\rangle_\text{model}</math>, де <math>\langle\cdots\rangle_p</math> представляє середні значення по відношенню до розподілу <math>p</math>. Проблема виникає у вибірці <math>\langle v_ih_j\rangle_\text{model}</math>, оскільки це вимагає виконання поперемінних {{нп|Вибірка за Ґіббсом|вибірок за Ґіббсом||Gibbs sampling}} протягом тривалого часу. ПР замінює цей крок виконанням поперемінних вибірок Ґіббса для <math>n</math> кроків (було емпірично показано, що значення <math>n = 1</math> працює добре). Після <math>n</math> кроків робиться вибірка з даних, і ця вибірка застосовується замість <math>\langle v_ih_j\rangle_\text{model}</math>. Процедура ПР працює наступним чином:<ref name="RBMTRAIN"/>


==== Виклики ====
# Встановити видимим вузлам значення тренувального вектора.
# Паралельно уточнити приховані вузли для даних видимих вузлів: <math>p(h_j = 1 \mid \textbf{V}) = \sigma(b_j + \sum_i v_iw_{ij})</math>. <math>\sigma</math> є [[Сигмоїда|сигмоїдною]] функцією, а <math>b_j</math> є зсувом <math>h_j</math>.
# Паралельно уточнити видимі вузли для даних прихованих вузлів: <math>p(v_i = 1 \mid \textbf{H}) = \sigma(a_i + \sum_j h_jw_{ij})</math>. <math>a_i</math> є зсувом <math>v_i</math>. Це називається кроком „відбудови“.
# Повторно паралельно уточнити приховані вузли для даних відбудованих видимих вузлів із застосуванням такого ж рівняння, як у кроці 2.
# Виконати уточнення вагових коефіцієнтів: <math>\Delta w_{ij} \propto \langle v_ih_j\rangle_\text{data} - \langle v_ih_j\rangle_\text{reconstruction}</math>.


Як і з ШНМ, при наївному тренуванні ГНМ може виникати багато проблем. Двома поширеними проблемами є [[перенавчання]] та обчислювальний час.
Щойно ОМБ натреновано, поверх неї „накладається“ інша ОМБ, беручи свої входи із завершального вже натренованого рівня. Значенням нового вхідного видимого шару встановлюється тренувальний вектор, а значення вузлів уже натренованих шарів встановлюються із застосуванням поточних вагових коефіцієнтів та зсувів. Потім нова ОМБ тренується за наведеною вище процедурою. Весь цей процес повторюється до досягнення бажаного критерію зупинки.<ref name="BENGIODEEP"/>


ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи [[Регуляризація (математика)|регуляризації]], такі як обрізання вузлів ({{lang-en|unit pruning}}) Івахненка,<ref name="ivak1971" /> {{нп|ослаблення ваг|||Weight decay}} ({{lang-en|weight decay}}, <math> \ell_2 </math>-регуляризація) та [[Розріджена матриця|розрідженість]] ({{lang-en|sparsity}}, <math> \ell_1 </math>-регуляризація).<ref>{{Cite book |doi=10.1109/icassp.2013.6639349|isbn=978-1-4799-0356-6|arxiv=1212.0901|citeseerx=10.1.1.752.9151|chapter=Advances in optimizing recurrent networks|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8624–8628|year=2013|last1=Bengio|first1=Yoshua|last2=Boulanger-Lewandowski|first2=Nicolas|last3=Pascanu|first3=Razvan|s2cid=12485056|language=en}}</ref> Альтернативна регуляризація [[Виключення (нейронні мережі)|виключенням]] ({{lang-en|dropout}}) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.<ref name="DAHL2013">{{Cite journal|last=Dahl|first=G.|display-authors=etal|date=2013|title=Improving DNNs for LVCSR using rectified linear units and dropout|url=http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|journal=ICASSP|access-date=2017-06-13|archive-date=2017-08-12|archive-url=https://web.archive.org/web/20170812140509/http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|url-status=live|language=en}}</ref> Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.<ref>{{Cite web|url=https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|title=Data Augmentation - deeplearning.ai {{!}} Coursera|website=Coursera|access-date=30 November 2017|archive-date=1 December 2017|archive-url=https://web.archive.org/web/20171201032606/https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|url-status=live|language=en}}</ref>
Хоча наближення ПР до максимальної правдоподібності і є дуже грубим (було показано, що ПР не слідує градієнтові будь-якої функції), було емпірично показано, що вона є ефективною в тренуванні глибинних архітектур.<ref name="RBMTRAIN"/>


ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), [[темп навчання]] та первинні ваги. [[Оптимізація гіперпараметрів#Пошук по ґратці|Прочісування простору параметрів]] для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування ({{lang-en|batching}}, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).<ref name="RBMTRAIN">{{Cite journal|last=Hinton|first=G. E.|date=2010|title=A Practical Guide to Training Restricted Boltzmann Machines|url=https://www.researchgate.net/publication/221166159|journal=Tech. Rep. UTML TR 2010-003|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123211/https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|url-status=live|language=en}}</ref> Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та ''Intel Xeon Phi'') призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.<ref>{{cite book|last1=You|first1=Yang|title=Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17|pages=1–12|last2=Buluç|first2=Aydın|last3=Demmel|first3=James|chapter=Scaling deep learning on GPU and knights landing clusters|chapter-url=https://dl.acm.org/citation.cfm?doid=3126908.3126912|publisher=SC '17, ACM|date=November 2017|access-date=5 March 2018|doi=10.1145/3126908.3126912|isbn=9781450351140|s2cid=8869270|url=http://www.escholarship.org/uc/item/6ch40821|archive-date=29 July 2020|archive-url=https://web.archive.org/web/20200729133850/https://escholarship.org/uc/item/6ch40821|url-status=live|language=en}}</ref><ref>{{cite journal|last1=Viebke|first1=André|last2=Memeti|first2=Suejb|last3=Pllana|first3=Sabri|last4=Abraham|first4=Ajith|s2cid=14135321|title=CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi|journal=The Journal of Supercomputing|volume=75|pages=197–227|doi=10.1007/s11227-017-1994-x|arxiv=1702.07908|bibcode=2017arXiv170207908V|year=2019|language=en}}</ref>
=== Згорткові глибинні мережі переконань ===
Нещодавнім досягненням у глибинному навчанні є застосування згорткових глибинних мереж переконань (ЗГМП, {{lang-en|convolutional deep belief networks, CDBN}}). ЗГМП мають структуру, дуже подібну до [[Згорткова нейронна мережа|згорткових нейронних мереж]], і тренуються подібно до глибинних мереж переконань. Таким чином, вони використовують двовимірну структуру зображень, як це роблять ЗНМ, і використовують попереднє тренування, як [[Глибинна мережа переконань|глибинні мережі переконань]]. Вони пропонують загальну структуру, що може застосовуватися в багатьох задачах обробки зображень та сигналів. Останнім часом багато еталонних результатів на стандартних наборах зображень, таких як CIFAR,<ref name="CDBN-CIFAR">[http://www.cs.toronto.edu/~kriz/conv-cifar10-aug2010.pdf Convolutional Deep Belief Networks on CIFAR-10] {{Webarchive|url=https://web.archive.org/web/20170830060223/http://www.cs.toronto.edu/~kriz/conv-cifar10-aug2010.pdf |date=30 серпня 2017 }} {{ref-en}}</ref> було отримано із застосуванням ЗГМП.<ref name="CDBN">[http://dl.acm.org/citation.cfm?id=1553453 Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations] {{ref-en}}</ref>


Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ ({{нп|артикуляційний контролер мозочкової моделі|||Cerebellar model articulation controller}}, {{lang-en|cerebellar model articulation controller, CMAC}}). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.<ref name="Qin1">Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61. {{ref-en}}</ref><ref name="Qin2">Ting Qin, et al. "[http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf Continuous CMAC-QRLS and its systolic array] {{Webarchive|url=https://web.archive.org/web/20181118122850/http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf |date=2018-11-18 }}." Neural Processing Letters 22.1 (2005): 1-16. {{ref-en}}</ref>
=== Нейронні мережі зберігання та вибірки великої пам'яті ===
Нейронні мережі зберігання та вибірки великої пам'яті ({{lang-en|large memory storage and retrieval, LAMSTAR}})<ref name="book2013">D. Graupe, „Principles of Artificial Neural Networks.3rd Edition“, World Scientific Publishers, 2013. {{ref-en}}</ref><ref name="GrPatent">D. Graupe, „ Large memory storage and retrieval (LAMSTAR) network, US Patent 5920852 A“, April 1996. {{ref-en}}</ref> є швидкими нейронними мережами глибинного навчання з багатьма шарами, які можуть використовувати багато фільтрів одночасно. Ці фільтри можуть бути нелінійними, стохастичними, логічними, [[Стаціонарність|не стаціонарними]] та навіть не аналітичними. Вони є біологічно натхненними, і мають неперервне навчання.


== Апаратне забезпечення ==
Нейронна мережа ''LAMSTAR'' може слугувати динамічною нейронною мережею в просторовій, часовій області визначення, та в обох. Її швидкість забезпечується [[Геббова теорія|геббовими]] ваговими коефіцієнтами з'єднань,<ref name="book2013a">D. Graupe, „Principles of Artificial Neural Networks.3rd Edition“, World Scientific Publishers, 2013, pp.203-274. {{ref-en}}</ref>{{rp|гл. 9}} що слугують об'єднанню різних і, як правило, несхожих фільтрів (функцій попередньої обробки) у її численні шари, і для динамічного ранжування значимості різних шарів та функцій по відношенню до заданої задачі для глибинного навчання. Це грубо імітує біологічне навчання, що об'єднує виходи різних препроцесорів ([[Завитка|зави́тки]], [[Сітківка|сітківки]] тощо), кори ({{нп|Слухова кора|слухової||Auditory cortex}}, [[Зорова кора|зорової]] тощо) та різних її областей. Її здатність до глибинного навчання додатково підсилюється використанням пригнічування, кореляції та її здатністю впоруватися з неповними даними, або „втраченими“ нейронами чи шарами навіть посеред завдання. Крім того, вона є повністю прозорою завдяки своїм ваговим коефіцієнтам з'єднань. Ці ваги з'єднань також уможливлюють нововведення, надмірність, і слугують ранжуванню по відношенню до завдання шарів, фільтрів та окремих нейронів.


З 2010-х років прогрес як в алгоритмах машинного навчання, так і в [[Апаратне забезпечення|комп'ютерному апаратному забезпеченні]] призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.<ref>{{cite web|last1=Research|first1=AI|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition|url=http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|website=airesearch.com|access-date=23 October 2015|date=23 October 2015|archive-date=1 February 2016|archive-url=https://web.archive.org/web/20160201033801/http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|url-status=live|language=en}}</ref> До 2019 року графічні процесори ([[ГП]]), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.<ref>{{cite news |title=GPUs Continue to Dominate the AI Accelerator Market for Now |url=https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |access-date=11 June 2020 |work=InformationWeek |date=December 2019 |language=en |archive-date=10 June 2020 |archive-url=https://web.archive.org/web/20200610094310/https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |url-status=live }}</ref> ''[[OpenAI]]'' оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від ''AlexNet'' (2012) і до ''AlphaZero'' (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.<ref>{{cite news |last1=Ray |first1=Tiernan |title=AI is changing the entire nature of computation |url=https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |access-date=11 June 2020 |work=ZDNet |date=2019 |language=en |archive-date=25 May 2020 |archive-url=https://web.archive.org/web/20200525144635/https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |url-status=live }}</ref><ref>{{cite web |title=AI and Compute |url=https://openai.com/blog/ai-and-compute/ |website=OpenAI |access-date=11 June 2020 |language=en |date=16 May 2018 |archive-date=17 June 2020 |archive-url=https://web.archive.org/web/20200617200602/https://openai.com/blog/ai-and-compute/ |url-status=live }}</ref>
''LAMSTAR'' застосовували в багатьох медичних<ref name="Nigam">V. P. Nigam, D. Graupe, (2004), „A neural-network-based detection of epilepsy“, „Neurological Research“, 26(1): 55-60. {{ref-en}}</ref><ref name="Waxman">{{cite journal | last1 = Waxman | first1 = J. | last2 = Graupe | first2 = D. | last3 = Carley | first3 = C W. | year = 2010 | title = Automated prediction of apnea and hypopnea, using a LAMSTAR artificial neural network | url = | journal = American Journal of Respiratory and Critical Care Medicine | volume = 171 | issue = 7| pages = 727–733 }} {{ref-en}}</ref><ref name="GrGrZh">{{cite journal | last1 = Graupe | first1 = D. | last2 = Graupe | first2 = M. H. | last3 = Zhong | first3 = Y. | last4 = Jackson | first4 = R. K. | year = 2008 | title = Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities | url = | journal = Proc. Inst. Mech Eng., UK, Part H: Journal of Engineering in Medicine | volume = 222 | issue = 8| pages = 1221–1234 | doi=10.1243/09544119jeim417}} {{ref-en}}</ref> та фінансових прогнозах,<ref name="book2013b">D. Graupe, „Principles of Artificial Neural Networks.3rd Edition“, World Scientific Publishers, 2013, pp.240-253. {{ref-en}}</ref>{{rp|розд. 9C}} адаптивному фільтруванні зашумленого мовлення в невідомому шумі,<ref name="GrAbon">{{cite journal | last1 = Graupe | first1 = D. | last2 = Abon | first2 = J. | year = 2002 | title = A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech | url = | journal = Intelligent Engineering Systems Through Artificial Neural Networks | volume = 12 | issue = | pages = 683–688 }} {{ref-en}}</ref> розпізнаванні нерухомих зображень,<ref name="Homayon">{{cite journal | last1 = Homayon | first1 = S. | year = 2015 | title = Iris Recognition for Personal Identification Using LAMSTAR Neural Network | url = | journal = International Journal of Computer Science and Information Technology | volume = 7 | issue = 1 }} {{ref-en}}</ref><ref name="book2013c">D. Graupe, „Principles of Artificial Neural Networks.3rd Edition“, World Scientific Publishers», 2013, pp.253-274. {{ref-en}}</ref>{{rp|розд. 9.D}} відео,<ref name="Girado">{{cite journal | last1 = Girado | first1 = J. I. | last2 = Sandin | first2 = D. J. | last3 = DeFanti | first3 = T. A. | year = 2003 | title = Real-time camera-based face detection using amodified LAMSTAR neural network system | url = | journal = Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII | volume = | issue = | page = | doi = 10.1117/12.477405 }} {{ref-en}}</ref> безпеці програмного забезпечення,<ref name="VenkSel">{{cite journal | last1 = Venkatachalam | first1 = V | last2 = Selvan | first2 = S. | year = 2007 | title = Intrusion Detection using an Improved Competitive Learning Lamstar Network | url = | journal = International Journal of Computer Science and Network Security | volume = 7 | issue = 2| pages = 255–263 }} {{ref-en}}</ref> адаптивному керуванні нелінійними системами<ref name="GrSmol">D. Graupe, M. Smollack, (2007), «Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks», Proceedings of 10th IASTED on Intelligent Control, Sect.592, 141—144. {{ref-en}}</ref> та ін. У порівняльному дослідженні з розпізнавання символів ''LAMSTAR'' мала значно вищу швидкість обчислення і дещо нижчі похибки, ніж згорткова нейронна мережа на основі фільтрування функціями [[ReLU]] та максимізаційної підвибірки.<ref name="GrConSat">D. Graupe, C. Contaldi, A. Sattiraju, (2015) [https://www.academia.edu/18095724/Comparison_of_Lamstar_NN_and_Convolutional_NN_Character_Recognition «Comparison of Lamstar NN & Convolutional NN&nbsp;— Character Recognition»] {{Webarchive|url=https://web.archive.org/web/20160531205109/https://www.academia.edu/18095724/Comparison_of_Lamstar_NN_and_Convolutional_NN_Character_Recognition |date=31 травня 2016 }}. {{ref-en}}</ref>


Для прискорення алгоритмів глибокого навчання було розроблено спеціальні [[Електронна схема|електронні схеми]], звані {{нп|Процесор глибокого навчання|процесорами глибокого навчання||Deep learning processor}}. До процесорів глибокого навчання належать нейронні процесори (НП, {{lang-en|neural processing units, NPU}}) у мобільних телефонах ''[[Huawei]]''<ref>{{Cite web|url=https://consumer.huawei.com/en/press/news/2017/ifa2017-kirin970/|title=HUAWEI Reveals the Future of Mobile AI at IFA 2017 &#124; HUAWEI Latest News &#124; HUAWEI Global|website=consumer.huawei.com|language=en}}</ref> та серверах [[Хмарні обчислення|хмарних обчислень]], такі як [[Тензорний процесор|тензорні процесори]] (ТП, {{lang-en|tensor processing units, TPU}}) у [[Google Cloud Platform|''Google Cloud Platform'']].<ref>{{Cite journal|last1=P|first1=JouppiNorman|last2=YoungCliff|last3=PatilNishant|last4=PattersonDavid|last5=AgrawalGaurav|last6=BajwaRaminder|last7=BatesSarah|last8=BhatiaSuresh|last9=BodenNan|last10=BorchersAl|last11=BoyleRick|date=2017-06-24|title=In-Datacenter Performance Analysis of a Tensor Processing Unit|journal=ACM SIGARCH Computer Architecture News|volume=45|issue=2|pages=1–12|language=EN|doi=10.1145/3140659.3080246|doi-access=free}}</ref> ''{{нп|Cerebras|Cerebras Systems||}}'' також створила спеціальну систему для обробки великих моделей глибокого навчання, ''CS''-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні ''Wafer Scale Engine'' (''WSE''-2).<ref>{{Cite web |last=Woodie |first=Alex |date=2021-11-01 |title=Cerebras Hits the Accelerator for Deep Learning Workloads |url=https://www.datanami.com/2021/11/01/cerebras-hits-the-accelerator-for-deep-learning-workloads/ |access-date=2022-08-03 |website=Datanami |language=en}}</ref><ref>{{Cite web |date=2021-04-20 |title=Cerebras launches new AI supercomputing processor with 2.6 trillion transistors |url=https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/ |access-date=2022-08-03 |website=VentureBeat |language=en-US}}</ref>
Ці застосування показують занурення в аспекти даних, що є прихованими від мереж поверхневого навчання, та навіть від людських чуттів (ока, вуха), як у випадках передбачення настання подій [[апное уві сні]],<ref name="Waxman"/> електрокардіограми [[Плід (анатомія)|плоду]] при записі з електродів на поверхні шкіри живота матері в ранній період вагітності,<ref name="GrGrZh"/> фінансового прогнозування<ref name="book2013"/>{{rp|розд. 9C}} та сліпого фільтрування зашумленого мовлення.<ref name="GrAbon"/>


Атомарно тонкі [[напівпровідник]]и вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі [[Польовий транзистор|польових транзисторів]] з [[Транзистор із плавним затвором|плавни́м затвором]] ({{lang-en|floating-gate field-effect transistors, FGFET}}).<ref name="atomthin">{{cite journal|title=Logic-in-memory based on an atomically thin semiconductor|year=2020|doi=10.1038/s41586-020-2861-0|last1=Marega|first1=Guilherme Migliato|last2=Zhao|first2=Yanfei|last3=Avsar|first3=Ahmet|last4=Wang|first4=Zhenyu|last5=Tripati|first5=Mukesh|last6=Radenovic|first6=Aleksandra|last7=Kis|first7=Anras|journal=Nature|volume=587|issue=2|pages=72–77|pmid=33149289|pmc=7116757|bibcode=2020Natur.587...72M|language=en }}</ref>
''LAMSTAR'' було запропоновано 1996 року ({{US patent|5920852 A}}), і розвинуто далі Даніелем Ґраупе ({{lang-en|Daniel Graupe}}) та Губертом Кордилевським ({{lang-en|Hubert Kordylewski}}) у 1997—2002 роках.<ref name="GKmidwet">{{cite journal | last1 = Graupe | first1 = H. Kordylewski | year = 1996 | title = Network based on SOM (self-organizing-map) modules combined with statistical decision tools | url = | journal = Proc. IEEE 39th Midwest Conf. on Circuits and Systems | volume = 1 | issue = | pages = 471–475 }} {{ref-en}}</ref><ref name="GKsoftware">D, Graupe, H. Kordylewski, (1998), «A large memory storage and retrieval neural network for adaptive retrieval and diagnosis», International Journal of Software Engineering and Knowledge Engineering, 1998. {{ref-en}}</ref><ref name="Kordylew">{{cite journal | last1 = Kordylewski | first1 = H. | last2 = Graupe | first2 = D | last3 = Liu | first3 = K. | year = | title = A novel large-memory neural network as an aid in medical diagnosis applications | url = | journal = IEEE Transactions on Information Technology in Biomedicine | volume = 5 | issue = 3| pages = 202–209 | doi=10.1109/4233.945291}} {{ref-en}}</ref> Видозмінену версію, відому як ''LAMSTAR'' 2, було розроблено Натаном Шнайдером ({{lang-en|Nathan C. Schneider}}) та Даніелем Ґраупе 2008 року.<ref name="Schn">{{cite journal | last1 = Schneider | first1 = N.C. | last2 = Graupe | year = 2008 | title = A modified LAMSTAR neural network and its applications | url = | journal = International journal of neural systems | volume = 18 | issue = 4| pages = 331–337 | doi=10.1142/s0129065708001634}} {{ref-en}}</ref><ref name="book2013d">D. Graupe, «Principles of Artificial Neural Networks.3rd Edition», World Scientific Publishers, 2013, p.217. {{ref-en}}</ref>


2021 року Й. Фельдманн зі співавт. запропонували інтегрований [[Фотоніка|фотонний]] [[апаратний прискорювач]] для паралельної згорткової обробки.<ref name="photonic">{{cite journal |title=Parallel convolutional processing using an integrated photonic tensor |year=2021 |doi=10.1038/s41586-020-03070-1 |last1=Feldmann |first1=J. |last2=Youngblood|first2=N. |last3=Karpov |first3=M. | last4=Gehring |first4=H. | display-authors=3 | journal=Nature |volume=589 |issue=2 |pages=52–58|pmid=33408373 |arxiv=2002.00281 |s2cid=211010976 |language=en }}</ref> Автори виділяють дві ключові переваги інтегрованої фотоніки над її електронними аналогами: (1) масивна паралельна передача даних через [[мультиплексування]] за [[Довжина хвилі|довжиною хвилі]] в поєднанні з [[Частотний гребінець|частотними гребінцями]] та (2) надзвичайно висока швидкість модуляції даних.<ref name="photonic" /> Їхня система може виконувати трильйони операцій множення-додавання за секунду, що вказує на потенціал [[Оптична інтегральна схема|інтегрованої]] [[Фотоніка|фотоніки]] у застосуваннях штучного інтелекту, які потребують великих даних.<ref name="photonic" />
=== Глибинні машини Больцмана ===
''Глибинна машина Больцмана'' (ГМБ, {{lang-en|Deep Boltzmann Machine, DBM}})&nbsp;— це тип двійкового парного [[Марковське випадкове поле|марковського випадкового поля]] ([[Неорієнтований граф|неорієнтованої]] імовірнісної [[Графова модель|графової моделі]]) з кількома шарами [[Прихована змінна|прихованих]] [[Випадкова змінна|випадкових змінних]]. Вона є мережею симетрично спарованих випадкових {{нп|Двійкова змінна|двійкових вузлів||Binary variable}}. Вона складається з набору видимих вузлів <math>\boldsymbol{\nu} \in \{0,1\}^D</math> та ряду шарів прихованих вузлів <math>\boldsymbol{h}^{(1)} \in \{0,1\}^{F_1}, \boldsymbol{h}^{(2)} \in \{0,1\}^{F_2}, \ldots, \boldsymbol{h}^{(L)} \in \{0,1\}^{F_L}</math>. З'єднань між вузлами одного й того ж рівня не існує (як і в [[Обмежена машина Больцмана|ОМБ]]). Для {{H:title|Глибинна машина Больцмана|ГМБ}} ймовірністю, що приписується векторові {{mvar|'''&nu;'''}}, є

: <math>p(\boldsymbol{\nu}) = \frac{1}{Z}\sum_h e^{\sum_{ij}W_{ij}^{(1)}\nu_i h_j^{(1)} + \sum_{jl}W_{jl}^{(2)}h_j^{(1)}h_l^{(2)}+\sum_{lm}W_{lm}^{(3)}h_l^{(2)}h_m^{(3)}},</math>

де <math>\boldsymbol{h} = \{\boldsymbol{h}^{(1)}, \boldsymbol{h}^{(2)}, \boldsymbol{h}^{(3)} \}</math> є наборами прихованих вузлів, а <math>\theta = \{\boldsymbol{W}^{(1)}, \boldsymbol{W}^{(2)}, \boldsymbol{W}^{(3)} \} </math> є параметрами моделі, що представляють взаємодії видимі-приховані та приховані-видимі. Якщо <math>\boldsymbol{W}^{(2)} = 0</math> та <math>\boldsymbol{W}^{(3)} = 0</math>, то ця мережа є добре відомою [[Обмежена машина Больцмана|обмеженою машиною Больцмана]].<ref name="ref1">{{cite journal
| last1 = Hinton
| first1 = Geoffrey
| last2 = Salakhutdinov
| first2 = Ruslan
| title = A better way to pretrain deep Boltzmann machines
| journal = Advances in Neural
| volume = 3
| pages = 1–9
| date = 2012
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2012_1178.pdf
| accessdate = 24 грудня 2015
| archiveurl = https://web.archive.org/web/20170813152400/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2012_1178.pdf
| archivedate = 13 серпня 2017
| deadurl = yes
}} {{ref-en}}</ref> Взаємодії є симетричними, оскільки зв'язки є неорієнтованими. На противагу, в [[Глибинна мережа переконань|глибинній мережі переконань]] (ГМП) лише верхні два шари утворюють обмежену машину Больцмана (що є неорієнтованою [[Графова модель|графовою моделлю]]), але нижчі шари утворюють орієнтовану породжувальну модель.

Як і ГМП, ГМБ можуть навчатися складних та абстрактних внутрішніх представлень входу в таких задачах, як {{нп|розпізнавання об'єктів|||Object recognition}} та [[Розпізнавання мовлення|мовлення]], використовуючи обмежені мічені дані для тонкого налаштування представлення, побудованого з використанням великої поставки немічених вхідних сенсорних даних. Одначе, на відміну від {{H:title|Глибинна мережа переконань|ГМП}} та глибинних згорткових нейронних мереж, вони приймають на озброєння [[висновування]] та процедуру тренування в обох напрямках, на спадному та висхідному проходах, що дозволяє {{H:title|Глибинна машина Больцмана|ГМБ}} краще розкривати представлення неоднозначних та складних вхідних структур.<ref name="ref3">
{{cite journal
| last1 = Hinton
| first1 = Geoffrey
| last2 = Salakhutdinov
| first2 = Ruslan
| title = Efficient Learning of Deep Boltzmann Machines
| volume = 3
| pages = 448–455
| date = 2009
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf
| accessdate = 24 грудня 2015
| archiveurl = https://web.archive.org/web/20151106235714/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS09_SalakhutdinovH.pdf
| archivedate = 6 листопада 2015
| deadurl = yes
}}
{{ref-en}}
</ref><ref name="ref4">{{cite journal
| last1 = Bengio
| first1 = Yoshua
| last2 = LeCun
| first2 = Yann
| title = Scaling Learning Algorithms towards AI
| volume = 1
| pages = 1–41
| date = 2007
| url = http://www.iro.umontreal.ca/~lisa/bib/pub_subject/language/pointeurs/bengio+lecun-chapter2007.pdf
| journal =
| accessdate = 24 грудня 2015
| archive-date = 7 лютого 2016
| archive-url = https://web.archive.org/web/20160207132912/http://www.iro.umontreal.ca/~lisa/bib/pub_subject/language/pointeurs/bengio+lecun-chapter2007.pdf
}} {{ref-en}}</ref>

Проте швидкість ГМБ обмежує їхню продуктивність та функційність. Оскільки навчання точної максимальної правдоподібності є для ГМБ непіддатливим, ми можемо виконувати навчання наближеної максимальної правдоподібності. Іншим варіантом є застосовування висновування осередненого поля ({{lang-en|mean-field inference}}) для оцінки залежних від даних очікувань, і наближення очікуваної достатньої статистики моделі застосуванням [[Методи Монте-Карло марковських ланцюгів|методів Монте-Карло марковських ланцюгів]] (МКМЛ).<ref name="ref1" /> Це наближене висновування, що мусить бути здійснено для кожного перевірного входу, є у від 25 до 50 разів повільнішим за єдиний висхідний прохід у ГМП. Це робить спільну оптимізацію вельми непрактичною для великих наборів даних, і серйозно обмежує застосування ГМБ в таких задачах як представлення ознак.<ref name="ref2">{{cite journal
| last1 = Larochelle
| first1 = Hugo
| last2 = Salakhutdinov
| first2 = Ruslan
| title = Efficient Learning of Deep Boltzmann Machines
| pages = 693–700
| date = 2010
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SalakhutdinovL10.pdf
| accessdate = 24 грудня 2015
| archiveurl = https://web.archive.org/web/20170814001329/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2010_SalakhutdinovL10.pdf
| archivedate = 14 серпня 2017
| deadurl = yes
}} {{ref-en}}</ref>

=== Складені (знешумлювальні) автокодувальники ===
Ідею [[автокодувальник]]а продиктовано поняттям ''доброго'' представлення. Наприклад, для [[Лінійний класифікатор|класифікатора]] добре представлення може бути визначено як таке, що дасть ефективніший класифікатор''.

''Кодувальник'' ({{lang-en|encoder}})&nbsp;— це детерміністське відображення <math>f_\theta</math>, що перетворює вхідний вектор '''''x''''' на приховане представлення '''''y''''', де <math>\theta = \{\boldsymbol{W}, b\}</math>, <math>\boldsymbol{W}</math> є ваговою матрицею, а '''b''' є вектором зсуву. ''Декодувальник'' ({{lang-en|decoder}}) відображає назад приховане представлення '''y''' на відтворений вхід '''''z ''''' через <math>g_\theta</math>. Весь процес автокодування є порівнянням цього відтвореного входу з оригінальним, і намаганням мінімізувати цю похибку, щоби зробити відтворене значення якомога ближчим до оригінального.

В ''складених знешумлювальних автокодувальниках'' ({{lang-en|stacked denoising auto encoders}}) частково спотворений вихід очищується (знешумлюється, {{lang-en|denoised}}). Цю ідею було представлено 2010 року Венсаном та ін.<ref name="ref9">{{cite journal
| last1 = Vincent
| first1 = Pascal
| last2 = Larochelle
| first2 = Hugo
| last3 = Lajoie
| first3 = Isabelle
| last4 = Bengio
| first4 = Yoshua
| last5 = Manzagol
| first5 = Pierre-Antoine
| title = Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion
| journal = The Journal of Machine Learning Research
| volume = 11
| pages = 3371–3408
| date = 2010
| url = http://dl.acm.org/citation.cfm?id=1953039
| accessdate = 24 грудня 2015
| archive-date = 6 жовтня 2018
| archive-url = https://web.archive.org/web/20181006161325/https://dl.acm.org/citation.cfm?id=1953039
}} {{ref-en}}</ref> разом з особливим підходом до ''доброго'' представлення, ''добре представлення є таким, що може бути [[Відмовостійке програмування|надійно]] отримано зі спотвореного входу, і буде корисним для відновлення відповідного чистого входу.'' Неявними в цьому визначенні є наступні ідеї:

* Представлення вищого рівня є відносно стабільними й [[Відмовостійке програмування|стійкими]] до спотворень входу;
* Необхідно виділяти ознаки, що є корисними для представлення розподілу входу.

Алгоритм складається з кількох кроків: починається з імовірнісного відображення <math>\boldsymbol{x}</math> на <math>\tilde{\boldsymbol{x}}</math> через <math>q_D(\tilde{\boldsymbol{x}}|\boldsymbol{x})</math>, це є спотворювальним кроком. Потім спотворений вхід <math>\tilde{\boldsymbol{x}}</math> проходить основним процесом автокодування, і відображується на приховане представлення <math>\boldsymbol{y} = f_\theta(\tilde{\boldsymbol{x}}) = s(\boldsymbol{W}\tilde{\boldsymbol{x}}+b)</math>. З цього прихованого представлення ми можемо відтворити <math>\boldsymbol{z} = g_\theta(\boldsymbol{y})</math>. На останній стадії з метою отримання '''''z''''' якомога ближче до неспотвореного входу <math>\boldsymbol{x}</math> виконується алгоритм мінімізації. Похибка відтворення <math>L_H(\boldsymbol{x},\boldsymbol{z})</math> може бути або [[Перехресна ентропія|перехресно-ентропійною]] втратою з афінно-сигмоїдним декодувальником, або квадратично-похибковою втратою з афінним декодувальником.<ref name="ref9" />

Для отримання глибинної архітектури автокодувальники накладають один поверх іншого.<ref name="ballard1987">{{нп|Дана Баллард|Dana H. Ballard||Dana H. Ballard}} (1987). Modular learning in neural networks. Proceedings of AAAI, pages 279—284. {{ref-en}}</ref> Щойно кодувальну функцію <math>f_\theta</math> першого знешумлювального автокодувальника навчено і використано для знеспотворення входу (спотвореного входу), ми можемо тренувати наступний рівень.<ref name="ref9" />

Щойно складений автокодувальник натреновано, його вихід може бути використано як вхід до алгоритму [[Навчання з учителем|керованого навчання]], такого як класифікатор [[Метод опорних векторів|методом опорних векторів]] або багатокласова [[логістична регресія]].<ref name="ref9" />

=== Глибинні складальні мережі ===
Однією з глибинних архітектур, що ґрунтуються на ієрархії блоків спрощених модулів [[Штучна нейронна мережа|нейронних мереж]], є глибинна опукла мережа, представлена 2011 року.<ref name="ref16">{{cite journal
| last1 = Deng
| first1 = Li
| last2 = Yu
| first2 = Dong
| title = Deep Convex Net: A Scalable Architecture for Speech Pattern Classification
| journal = Proceedings of the Interspeech
| pages = 2285–2288
| date = 2011
| url = http://www.truebluenegotiations.com/files/deepconvexnetwork-interspeech2011-pub.pdf
| accessdate = 25 грудня 2015
| archive-date = 4 березня 2016
| archive-url = https://web.archive.org/web/20160304002510/http://www.truebluenegotiations.com/files/deepconvexnetwork-interspeech2011-pub.pdf
}} {{ref-en}}</ref> Тут задача навчання вагових коефіцієнтів формулюється як [[задача опуклої оптимізації]] із {{нп|Вираз замкненого вигляду|розв'язком замкненого вигляду||Closed-form expression}}. Цю архітектуру також називають глибинною складальною мережею (ГСМ, {{lang-en|deep stacking network, DSN}}),<ref name="ref17">
{{cite journal
| last1 = Deng
| first1 = Li
| last2 = Yu
| first2 = Dong
| last3 = Platt
| first3 = John
| title = Scalable stacking and learning for building deep architectures
| journal = 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
| pages = 2133–2136
| date = 2012
| url = http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf
| accessdate = 25 грудня 2015
| archiveurl = https://web.archive.org/web/20160304120900/http://research-srv.microsoft.com/pubs/157586/DSN-ICASSP2012.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> підкреслюючи схожість цього механізму на ''складене узагальнення'' ({{lang-en|stacked generalization}}).<ref name="ref18">{{cite journal
| last1 = David
| first1 = Wolpert
| title = Stacked generalization
| url = https://archive.org/details/sim_neural-networks_1992_5_2/page/241
| journal = Neural Networks
| volume = 5 | issue = 2
| pages = 241–259
| date = 1992
| doi=10.1016/S0893-6080(05)80023-1}} {{ref-en}}</ref> Кожен блок ГСМ є простим модулем, який легко навчати сам по собі [[Навчання з учителем|керованим]] чином без [[Метод зворотного поширення помилки|зворотного поширення]] для цілих блоків.<ref name="ref12">{{cite journal
| last1 = Bengio
| first1 = Yoshua
| title = Learning deep architectures for AI
| journal = Foundations and Trends in Machine Learning
| volume = 2
| issue = 1
| pages = 1–127
| date = 2009
| url = http://www.nowpublishers.com/product.aspx?product=MAL&doi=2200000006
| doi = 10.1561/2200000006
| accessdate = 25 грудня 2015
| archive-date = 12 лютого 2016
| archive-url = https://web.archive.org/web/20160212101541/http://www.nowpublishers.com/product.aspx?product=MAL&doi=2200000006
}} {{ref-en}}</ref>

Згідно розробки Дена та Дона,<ref name="ref16" /> кожен блок складається зі спрощеного [[Багатошаровий перцептрон|багатошарового перцептрону]] (БШП) з єдиним прихованим шаром. Прихований шар '''''h''''' має логістичні [[сигмоїда]]льні [[Штучний нейрон|вузли]], а вихідний шар має лінійні вузли. З'єднання між цими шарами представляються ваговою матрицею '''''U'''''; з'єднання з вхідного до прихованого шару мають вагову матрицю '''''W'''''. Цільові вектори '''''t''''' формують стовпчики матриці '''''T''''', а вектори вхідних даних '''''x''''' формують стовпчики матриці '''''X'''''. Матрицею прихованих вузлів є <math>\boldsymbol{H} = \sigma(\boldsymbol{W}^T\boldsymbol{X})</math>. Модулі тренуються по черзі, отже вагові коефіцієнти нижчого рівня '''''W''''' на кожному етапі є відомими. Функція виконує поелементну логістичну сигмоїдну дію. Кожен із блоків оцінює один і той самий клас кінцевих міток ''y'', і його оцінка поєднується із первинним входом '''''X''''', формуючи ''розширений вхід'' для наступного блоку. Таким чином, вхід до першого блоку містить лише первинні дані, тоді як входи блоків нижче за течією мають також і виходи попередніх блоків. Тоді навчання вагової матриці '''''U''''' вищого рівня при заданих вагових коефіцієнтах в мережі може бути сформульовано як задачу опуклої оптимізації:

: <math>\min_{U^T} f = ||\boldsymbol{U}^T \boldsymbol{H} - \boldsymbol{T}||^2_F,</math>

що має розв'язок замкненого вигляду.

На відміну від інших глибинних архітектур, таких як [[Глибинна мережа переконань|ГМП]], метою є не відкриття перетворених представлень [[Ознака (машинне навчання)|ознак]]. Структура ієрархії цього типу архітектури робить паралельне тренування прямолінійним, як задачу оптимізації в пакетному режимі. В чисто [[Розрізнювальна модель|розрізнювальних задачах]] ГСМ працюють краще за звичайні [[Глибинна мережа переконань|ГМП]].<ref name="ref17" />

=== Тензорні глибинні складальні мережі ===
Ця архітектура є розширенням глибинних складальних мереж (ГСМ). Вона покращує {{H:title|Глибинна складальна мережа|ГСМ}} двома важливими шляхами: вона використовує інформацію вищого порядку з [[Коваріація|коваріаційних]] статистик, і перетворює [[Опукла оптимізація|неопуклу задачу]] нижчого рівня на опуклу підзадачу вищого рівня.<ref name="ref19">{{cite journal
| last1 = Hutchinson
| first1 = Brian
| last2 = Deng
| first2 = Li
| last3 = Yu
| first3 = Dong
| title = Tensor deep stacking networks
| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence
| volume = 1-15
| date = 2012
| doi=10.1109/tpami.2012.268
| pages=1944–1957}} {{ref-en}}</ref> ТГСМ використовують коваріаційні статистики даних за допомогою [[Білінійне відображення|білінійного відображення]] з обох із двох окремих наборів прихованих вузлів одного й того ж рівня на передбачення, через [[тензор]] третього порядку.

Хоча розпаралелювання та масштабованість і не розглядаються серйозно в звичайних {{H:title|Глибинна нейронна мережа|ГНМ}},<ref name="ref26">{{cite journal
| last1 = Hinton
| first1 = Geoffrey
| last2 = Salakhutdinov
| first2 = Ruslan
| title = Reducing the Dimensionality of Data with Neural Networks
| journal = Science
| volume = 313
| pages = 504–507
| date = 2006
| doi=10.1126/science.1127647
| pmid=16873662}} {{ref-en}}</ref><ref name="ref27">{{cite journal
| last1 = Dahl
| first1 = G.
| last2 = Yu
| first2 = D.
| last3 = Deng
| first3 = L.
| last4 = Acero
| first4 = A.
| title = Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition
| journal = IEEE Transactions on Audio, Speech, and Language Processing
| volume = 20 | issue = 1
| pages = 30–42
| date = 2012
| doi=10.1109/tasl.2011.2134090}} {{ref-en}}</ref><ref name="ref28">{{cite journal
| last1 = Mohamed
| first1 = Abdel-rahman
| last2 = Dahl
| first2 = George
| last3 = Hinton
| first3 = Geoffrey
| title = Acoustic Modeling Using Deep Belief Networks
| journal = IEEE Transactions on Audio, Speech, and Language Processing
| volume = 20 | issue = 1
| pages = 14–22
| date = 2012
| doi=10.1109/tasl.2011.2109382}} {{ref-en}}</ref> все навчання {{H:title|Глибинна складальна мережа|ГСМ}} і {{H:title|Тензорна глибинна складальна мережа|ТГСМ}} здійснюється в пакетному режимі, уможливлюючи розпаралелювання на [[Кластер (комп'ютерна техніка)|кластерах]] вузлів [[Центральний процесор|центральних]] та [[Графічний процесор|графічних процесорів]].<ref name="ref16" /><ref name="ref17" /> Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.

Основна архітектура є придатною для різнопланових задач, таких як [[Задача класифікації|класифікація]] та [[Регресійний аналіз|регресія]].

=== Піково-пластинні обмежені машини Больцмана ===
Потреба в глибинному навчанні із [[Дійсні числа|дійснозначними]] входами, як у ґаусових обмежених машинах Больцмана, вмотивовує ''піково-пластинні'' [[Обмежена машина Больцмана|ОМБ]] (''пп''[[Обмежена машина Больцмана|ОМБ]], {{lang-en|spike and slab Restricted Boltzmann machine, ssRBM}}), які моделюють безперервнозначні входи зі строго {{нп|Двійкова змінна|двійковими||Binary variable}} [[Латентна змінна|латентними змінними]].<ref name="ref30">
{{cite journal
| last1 = Courville
| first1 = Aaron
| last2 = Bergstra
| first2 = James
| last3 = Bengio
| first3 = Yoshua
| title = A Spike and Slab Restricted Boltzmann Machine
| journal = JMLR: Workshop and Conference Proceeding
| volume = 15
| pages = 233–241
| date = 2011
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf
| accessdate = 29 грудня 2015
| archiveurl = https://web.archive.org/web/20160304112418/http://machinelearning.wustl.edu/mlpapers/paper_files/AISTATS2011_CourvilleBB11.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> Подібно до базової [[Обмежена машина Больцмана|ОМБ]] та її варіантів, піково-пластинна [[Обмежена машина Больцмана|ОМБ]] є [[Двочастковий граф|двочастковим графом]], але як у Ґ[[Обмежена машина Больцмана|ОМБ]], видимі вузли (входи) є дійснозначними. Відмінність є в прихованому шарі, де кожен прихований вузол має змінну двійкового піку та змінну дійснозначної пластини. Пік є [[Функція ймовірностей|дискретною масою ймовірності]] на нулі, тоді як пластина є [[густина ймовірності|густиною ймовірності]] над безперервною областю визначення;<ref name="ref32">
{{cite conference
| last1 = Courville
| first1 = Aaron
| last2 = Bergstra
| first2 = James
| last3 = Bengio
| first3 = Yoshua
| title = Unsupervised Models of Images by Spike-and-Slab RBMs
| booktitle = Proceedings of the 28th International Conference on Machine Learning
| volume = 10
| pages = 1–8
| date = 2011
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf
| accessdate = 29 грудня 2015
| archiveurl = https://web.archive.org/web/20160304054551/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Courville_591.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> їхня суміш формує [[Апріорна ймовірність|апріорне]]. Ці терміни походять зі статистичної літератури.<ref name="ref31">{{cite journal
| last1 = Mitchell
| first1 = T
| last2 = Beauchamp
| first2 = J
| title = Bayesian Variable Selection in Linear Regression
| url = https://archive.org/details/sim_journal-of-the-american-statistical-association_1988-12_83_404/page/1023
| journal = Journal of the American Statistical Association
| volume = 83 | issue = 404
| pages = 1023–1032
| date = 1988
| doi=10.1080/01621459.1988.10478694}} {{ref-en}}</ref>

Розширення пп[[Обмежена машина Больцмана|ОМБ]], що називається ''µ''-пп[[Обмежена машина Больцмана|ОМБ]], забезпечує додаткові моделювальні потужності, використовуючи додаткові члени в [[Енергетична функція|енергетичній функції]]. Один із цих членів дає моделі можливість формувати [[умовний розподіл]] пікових змінних [[Відособлений розподіл|знеособленням]] пластинних змінних при заданому спостереженні.

=== Змішані ієрархічно-глибинні моделі ===
Змішані ієрархічно-глибинні моделі ({{lang-en|compound hierarchical-deep models, compound HD models}}) складають глибинні мережі з непараметричних [[Баєсова мережа|баєсових моделей]]. [[Ознака (машинне навчання)|Ознаки]] можуть навчатися із застосуванням таких глибинних архітектур як [[Глибинна мережа переконань|ГМП]],<ref name="hinton2006" /> [[Глибинні машини Больцмана|ГМБ]],<ref name="ref3" /> глибинні автокодувальники,<ref name="ref15">{{cite journal
| last1 = Larochelle
| first1 = Hugo
| last2 = Bengio
| first2 = Yoshua
| last3 = Louradour
| first3 = Jerdme
| last4 = Lamblin
| first4 = Pascal
| title = Exploring Strategies for Training Deep Neural Networks
| journal = The Journal of Machine Learning Research
| volume = 10
| pages = 1–40
| date = 2009
| url = http://dl.acm.org/citation.cfm?id=1577070
| accessdate = 1 січня 2016
| archive-date = 6 жовтня 2018
| archive-url = https://web.archive.org/web/20181006165301/https://dl.acm.org/citation.cfm?id=1577070
}} {{ref-en}}</ref> згорткові варіанти,<ref name="ref39">{{cite journal
| last1 = Coates
| first1 = Adam
| last2 = Carpenter
| first2 = Blake
| title = Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning
| pages = 440–445
| date = 2011
| url = }} {{ref-en}}</ref><ref name="ref40">{{cite journal
| last1 = Lee
| first1 = Honglak
| last2 = Grosse
| first2 = Roger
| title = Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations
| journal = Proceedings of the 26th Annual International Conference on Machine Learning
| pages = 1–8
| date = 2009
| url = http://portal.acm.org/citation.cfm?doid=1553374.1553453
| accessdate = 1 січня 2016
| archive-date = 30 вересня 2009
| archive-url = https://web.archive.org/web/20090930081709/http://portal.acm.org/citation.cfm?doid=1553374.1553453
}} {{ref-en}}</ref> {{H:title|піково-пластинна обмежена машина Больцмана|ппОМБ}},<ref name="ref32" /> мережі глибинного кодування,<ref name="ref41">
{{cite journal
| last1 = Lin
| first1 = Yuanqing
| last2 = Zhang
| first2 = Tong
| title = Deep Coding Network
| journal = Advances in Neural . . .
| pages = 1–9
| date = 2010
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf
| accessdate = 1 січня 2016
| archiveurl = https://web.archive.org/web/20160801032459/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2010_1077.pdf
| archivedate = 1 серпня 2016
| deadurl = yes
}} {{ref-en}}
</ref> ГМБ з розрідженим навчанням ознак,<ref name="ref42">
{{cite journal
| last1 = Ranzato
| first1 = Marc Aurelio
| last2 = Boureau
| first2 = Y-Lan
| title = Sparse Feature Learning for Deep Belief Networks
| journal = Advances in Neural Information Processing Systems
| volume = 23
| pages = 1–8
| date = 2007
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf
| accessdate = 1 січня 2016
| archiveurl = https://web.archive.org/web/20160304121722/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_1118.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> рекурентні нейронні мережі,<ref name="ref43">
{{cite journal
| last1 = Socher
| first1 = Richard
| last2 = Lin
| first2 = Clif
| title = Parsing Natural Scenes and Natural Language with Recursive Neural Networks
| journal = Proceedings of the 26th International Conference on Machine Learning
| date = 2011
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf
| accessdate = 1 січня 2016
| archiveurl = https://web.archive.org/web/20160304074754/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Socher_125.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> умовні ГМП,<ref name="ref44">
{{cite journal
| last1 = Taylor
| first1 = Graham
| last2 = Hinton
| first2 = Geoffrey
|authorlink2=Джефрі Гінтон
| title = Modeling Human Motion Using Binary Latent Variables
| journal = Advances in Neural Information Processing Systems
| date = 2006
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf
| accessdate = 1 січня 2016
| archiveurl = https://web.archive.org/web/20160304051321/http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2006_693.pdf
| archivedate = 4 березня 2016
| deadurl = yes
}} {{ref-en}}
</ref> знешумлювальні автокодувальники.<ref name="ref45">{{cite journal
| last1 = Vincent
| first1 = Pascal
| last2 = Larochelle
| first2 = Hugo
| title = Extracting and composing robust features with denoising autoencoders
| journal = Proceedings of the 25th international conference on Machine learning - ICML '08
| pages = 1096–1103
| date = 2008
| url = http://portal.acm.org/citation.cfm?doid=1390156.1390294}} {{ref-en}}</ref> Це забезпечує краще представлення, уможливлюючи швидше навчання та точнішу класифікацію із даними високої розмірності. Проте ці архітектури є слабкими в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до представлення входу (''розподілені представлення''), і мусить бути кориговано разом (високий [[Ступені свободи (значення)|ступінь свободи]]). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. [[Ієрархічна баєсова модель|''Ієрархічні баєсові (ІБ)'' моделі]] ({{lang-en|Hierarchical Bayesian (HB) models}}) забезпечують навчання з кількох прикладів, наприклад,<ref name="ref34">{{cite journal
| last1 = Kemp
| first1 = Charles
| last2 = Perfors
| first2 = Amy
| last3 = Tenenbaum
| first3 = Joshua
| title = Learning overhypotheses with hierarchical Bayesian models
| journal = Developmental Science
| volume = 10 | issue = 3
| pages = 307–21
| date = 2007
| pmid=17444972
| doi=10.1111/j.1467-7687.2007.00585.x}} {{ref-en}}</ref><ref name="ref37">{{cite journal
| last1 = Xu
| first1 = Fei
| last2 = Tenenbaum
| first2 = Joshua
| title = Word learning as Bayesian inference
| url = https://archive.org/details/sim_psychological-review_2007-04_114_2/page/245
| journal = Psychol. Rev.
| volume = 114 | issue = 2
| pages = 245–72
| date = 2007
| pmid=17500627
| doi=10.1037/0033-295X.114.2.245}} {{ref-en}}</ref><ref name="ref46">
{{cite journal
| last1 = Chen
| first1 = Bo
| last2 = Polatkan
| first2 = Gungor
| title = The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning
| journal = Machine Learning . . .
| date = 2011
| url = http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf
| accessdate = 1 січня 2016
| archiveurl = https://web.archive.org/web/20160222030940/http://machinelearning.wustl.edu/mlpapers/paper_files/ICML2011Chen_251.pdf
| archivedate = 22 лютого 2016
| deadurl = yes
}} {{ref-en}}
</ref><ref name="ref47">{{cite journal
| last1 = Fei-Fei
| first1 = Li
| authorlink1 = Фей-Фей Лі
| last2 = Fergus
| first2 = Rob
| title = One-shot learning of object categories
| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence
| volume = 28 | issue = 4
| pages = 594–611
| date = 2006
| pmid=16566508
| doi=10.1109/TPAMI.2006.79}} {{ref-en}}</ref><ref name="ref48">{{cite journal
| last1 = Rodriguez
| first1 = Abel
| last2 = Dunson
| first2 = David
| title = The Nested Dirichlet Process
| journal = Journal of the American Statistical Association
| volume = 103 | issue = 483
| pages = 1131–1154
| date = 2008
| url = http://amstat.tandfonline.com/doi/full/10.1198/016214508000000553
| doi=10.1198/016214508000000553}} {{ref-en}}</ref> для [[Комп'ютерне бачення|комп'ютерного бачення]], [[Статистика|статистики]] та [[Когнітивна наука|когнітивної науки]].

Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибинних мереж. Змішана архітектура ІПД-ГМБ, ''{{нп|ієрархічний процес Діріхле|||Hierarchical Dirichlet process}} (ІПД)'' як ієрархічна модель, об'єднана з архітектурою ГМБ. Вона є повністю [[Породжувальна модель|породжувальною моделлю]], узагальненою з абстрактних понять, що течуть крізь шари моделі, яка є здатною синтезувати нові приклади нововведених класів, що виглядають ''досить природними''. Всі рівні навчаються спільно, шляхом максимізації [[Функція внеску|функції внеску]] [[Логарифмічна ймовірність|логарифмічної ймовірності]].<ref name="ref38">{{cite journal
| last1 = Ruslan
| first1 = Salakhutdinov
| last2 = Joshua
| first2 = Tenenbaum
| title = Learning with Hierarchical-Deep Models
| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence
| pages = 1958-71
| date = 2012
| doi=10.1109/TPAMI.2012.269
| volume=35}} {{ref-en}}</ref>

У ГМБ з трьома прихованими шарами ймовірністю видимого входу '''{{mvar|&nu;}}''' є

: <math>p(\boldsymbol{\nu}, \psi) = \frac{1}{Z}\sum_h e^{\sum_{ij}W_{ij}^{(1)}\nu_i h_j^1 + \sum_{jl}W_{jl}^{(2)}h_j^{1}h_l^{2}+\sum_{lm}W_{lm}^{(3)}h_l^{2}h_m^{3}},</math>

де <math>\boldsymbol{h} = \{\boldsymbol{h}^{(1)}, \boldsymbol{h}^{(2)}, \boldsymbol{h}^{(3)} \}</math> є набором прихованих вузлів, а <math>\psi = \{\boldsymbol{W}^{(1)}, \boldsymbol{W}^{(2)}, \boldsymbol{W}^{(3)} \} </math> є параметрами моделі, що представляють умови симетричної взаємодії видимі-приховані та приховані-приховані.

Після того, як модель ГМБ навчено, ми маємо неорієнтовану модель, що визначає [[спільний розподіл]] <math>P(\nu, h^1, h^2, h^3)</math>. Одним із шляхів вираження того, що було навчено, є [[умовна модель]] <math>P(\nu, h^1, h^2|h^3)</math> та [[Апріорний розподіл|апріорний]] член <math>P(h^3)</math>.

Тут <math>P(\nu, h^1, h^2|h^3)</math> представляє ''умовну'' модель ГМБ, що може розглядатися як двошарова ГМБ, але з умовами зсуву, що задаються станами <math>h^3</math>:

: <math>P(\nu, h^1, h^2|h^3) = \frac{1}{Z(\psi, h^3)}e^{\sum_{ij}W_{ij}^{(1)}\nu_i h_j^1 + \sum_{jl}W_{jl}^{(2)}h_j^{1}h_l^{2}+\sum_{lm}W_{lm}^{(3)}h_l^{2}h_m^{3}}.</math>

=== Глибинні кодувальні мережі ===
Існують переваги моделі, яка може ''активно'' уточнювати себе з контексту в даних. Глибинна кодувальна мережа (ГПКМ, {{lang-en|deep coding network, DPCN}}) є [[Передбачувальне моделювання|передбачувальною]] схемою кодування, в якій спадна інформація використовується для емпіричного підлаштовування апріорних, необхідних для процедури висхідного [[висновування]] засобами глибинної локально з'єднаної [[Породжувальна модель|породжувальної моделі]]. Це працює шляхом виділяння розріджених [[Ознака (машинне навчання)|ознак]] зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних представлень ознак застосовується стратегія агрегування ({{lang-en|pooling}}). Ці блоки складаються разом, щоби сформувати глибинну архітектуру, і тренуються [[Жадібний алгоритм|жадібним]] пошаровим [[Навчання без учителя|спонтанним навчанням]]. Шари утворюють щось на зразок [[Ланцюги Маркова|марковського ланцюга]], такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.

Глибинна передбачувальна кодувальна мережа (ГПКМ, {{lang-en|Deep predictive coding network, DPCN}})<ref name="ref56">{{cite journal
| last1 = Chalasani
| first1 = Rakesh
| last2 = Principe
| first2 = Jose
| title = Deep Predictive Coding Networks
| journal =
| pages = 1–13
| date = 2013
| arxiv=1301.3541
}} {{ref-en}}</ref> передбачує представлення шару, використовуючи спадний підхід із застосуванням інформації з верхнього шару та тимчасових залежностей з попередніх станів.

ГПКМ можливо розширити таким чином, щоби утворити [[Згорткова нейронна мережа|згорткову мережу]].<ref name="ref56" />

=== Глибинні ''Q''-мережі ===
Глибинна ''Q''-мережа ({{lang-en|deep Q-network, DQN}})&nbsp;— це тип моделі глибинного навчання, розроблений в [[Google DeepMind]], який поєднує глибинну [[Згорткова нейронна мережа|згорткову нейронну мережу]] з [[Q-навчання|''Q''-навчанням]], різновидом [[навчання з підкріпленням]]. На відміну від раніших агентів навчання з підкріпленням, глибинні ''Q''-мережі можуть навчатися безпосередньо з сенсо́рних входів високої розмірності. Попередні результати було представлено 2014 року, а саму працю опубліковано 2015 року в [[Nature]].<ref name="DQN">{{cite journal
| last1 = Mnih
| first1 = Volodymyr
| title = Human-level control through deep reinforcement learning
| pages = 529–533
| date = 2015
| volume=518|display-authors=etal
| doi=10.1038/nature14236
| journal=Nature
| pmid=25719670}} {{ref-en}}</ref> Обговорюване в цій праці застосування обмежувалося грою в ігри [[Atari 2600]], але значення для інших потенційних застосувань є глибоким.

=== Мережі з пам'яттю ===
Поєднання зовнішньої пам'яті зі [[Штучна нейронна мережа|штучними нейронними мережами]] бере свій початок у ранніх дослідженнях розподілених представлень<ref name="Hinton, Geoffrey E 1984">Hinton, Geoffrey E. «Distributed representations.» (1984) {{ref-en}}</ref> та [[Самоорганізаційне відображення|самоорганізаційних відображень]]. Наприклад, у {{нп|Розріджена розподілена пам'ять|розрідженій розподіленій пам'яті||Sparse distributed memory}} та [[Ієрархічна часова пам'ять|ієрархічній часовій пам'яті]] зразки, закодовані нейронними мережами, використовуються як адреси для [[Асоціативна пам'ять|асоціативної пам'яті]], з «нейронами», що по суті слугують [[шифратор]]ами та [[дешифратор]]ами адреси.

==== Диференційовні структури пам'яті, пов'язані з ДКЧП ====
Окрім [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] (ДКЧП), диференційовну пам'ять до рекурентних функцій також додали й інші підходи 1990-х та 2000-х років. Наприклад:

* Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, що називаються ''нейронними стековими машинами'' ({{lang-en|neural stack machines}})<ref name="S. Das, C.L. Giles p. 79">S. Das, C.L. Giles, G.Z. Sun, "Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory, " Proc. 14th Annual Conf. of the Cog. Sci. Soc., p. 79, 1992. {{ref-en}}</ref><ref name="Mozer, M. C. 1993 pp. 863-870">Mozer, M. C., & Das, S. (1993). A connectionist symbol manipulator that discovers the structure of context-free languages. NIPS 5 (pp. 863—870). {{ref-en}}</ref>
* Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагових коефіцієнтах іншої мережі<ref name="ReferenceC">{{cite journal | last1 = Schmidhuber | first1 = J. | year = 1992 | title = Learning to control fast-weight memories: An alternative to recurrent nets | url =https://archive.org/details/sim_neural-computation_1992-01_4_1/page/131| journal = Neural Computation | volume = 4 | issue = 1| pages = 131–139 | doi=10.1162/neco.1992.4.1.131}} {{ref-en}}</ref>
* «Забувальні вентилі» [[ДКЧП]]<ref name="F. Gers, N. Schraudolph 2002">{{cite journal | last1 = Gers | first1 = F. | last2 = Schraudolph | first2 = N. | last3 = Schmidhuber | first3 = J. | year = 2002 | title = Learning precise timing with LSTM recurrent networks | url = | journal = JMLR | volume = 3 | issue = | pages = 115–143 }} {{ref-en}}</ref>
* Автореферентні [[рекурентні нейронні мережі]] (РНМ) з особливими вихідними вузлами для адресування та швидкого маніпулювання кожним із власних вагових коефіцієнтів РНМ на диференційовний манір (внутрішнє сховище)<ref name="J. Schmidhuber pages 191-195">{{Cite conference | author = [[Юрген Шмідгубер|Jürgen Schmidhuber]] | title = An introspective network that can learn to run its own weight change algorithm | booktitle= In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton | pages = 191—195 | publisher = IEE | year = 1993 | url = ftp://ftp.idsia.ch/pub/juergen/iee93self.ps.gz }} {{ref-en}}</ref><ref name="Hochreiter, Sepp 2001">{{cite journal | last1 = Hochreiter | first1 = Sepp | last2 = Younger | first2 = A. Steven | last3 = Conwell | first3 = Peter R. | year = 2001 | title = Learning to Learn Using Gradient Descent | url = | journal = ICANN | volume = 2130 | issue = | pages = 87–94 }} {{ref-en}}</ref>
* Навчання перетворення з необмеженою пам'яттю<ref name="Grefenstette, Edward 1506">Grefenstette, Edward, et al. [http://arxiv.org/pdf/1506.02516.pdf «Learning to Transduce with Unbounded Memory.»] {{Webarchive|url=https://web.archive.org/web/20160826062904/http://arxiv.org/pdf/1506.02516.pdf |date=26 серпня 2016 }} {{arxiv|1506.02516}} (2015). {{ref-en}}</ref>

==== Семантичне хешування ====
Підходи, які представляють попередній досвід безпосередньо, і [[Навчання на прикладах|використовують схожий досвід для формування локальної моделі]], часто називають методами {{нп|Найближчий сусід|найближчого сусіда||Nearest neighbour}} або [[Метод k найближчих сусідів|''k'' найближчих сусідів]].<ref>Atkeson, Christopher G., and Stefan Schaal. «Memory-based neural networks for robot learning.» Neurocomputing 9.3 (1995): 243—269. {{ref-en}}</ref> Зовсім недавно було показано, що глибинне навчання є корисним у семантичному хешуванні ({{lang-en|semantic hashing}}),<ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. [http://www.utstat.toronto.edu/~rsalakhu/papers/sdarticle.pdf «Semantic hashing.»] {{Webarchive|url=https://web.archive.org/web/20160304052937/http://www.utstat.toronto.edu/~rsalakhu/papers/sdarticle.pdf |date=4 березня 2016 }} International Journal of Approximate Reasoning 50.7 (2009): 969—978. {{ref-en}}</ref> де з великого набору документів отримується глибинна [[графова модель]] векторів кількостей слів.<ref>{{Cite arXiv|last=Le |first=Quoc V. |last2=Mikolov |first2=Tomas |title=Distributed representations of sentences and documents |arxiv=1405.4053 |year=2014}} {{ref-en}}</ref> Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можна знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від {{нп|Розріджена розподілена пам'ять|розрідженої розподіленої пам'яті||Sparse distributed memory}}, що оперує 1000-бітними адресами, семантичне хешування працює на 32- або 64-бітних адресах, на яких ґрунтується традиційна комп'ютерна архітектура.

==== Нейронні машини Тюрінга ====
[[Нейронна машина Тюрінга|Нейронні машини Тюрінга]] ({{lang-en|Neural Turing machines}}),<ref name="Graves, Alex 1410">Graves, Alex, Greg Wayne, and Ivo Danihelka. «Neural Turing Machines.» {{arxiv|1410.5401}} (2014). {{ref-en}}</ref> розроблені в [[Google DeepMind]], спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги ({{lang-en|attentional processes}}). Ця зв'язана система є аналогічною [[Машина Тюрінга|машині Тюрінга]], але є диференційовною з краю в край, що дозволяє їй дієво навчатися [[Градієнтний спуск|градієнтним спуском]]. Попередні результати показують, що нейронні машини Тюрінга можуть виводити з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядкування та асоціативне пригадування.

==== Мережі з пам'яттю ====
Мережі з пам'яттю ({{lang-en|memory networks}})<ref name="Weston, Jason 1410">Weston, Jason, Sumit Chopra, and Antoine Bordes. «Memory networks.» {{arxiv|1410.3916}} (2014). {{ref-en}}</ref><ref>Sukhbaatar, Sainbayar, et al. «End-To-End Memory Networks.» {{arxiv|1503.08895}} (2015). {{ref-en}}</ref> є іншим розширенням нейронних мереж, що включає {{нп|Довготривала пам'ять|довготривалу пам'ять||Long-term memory}}, розроблену командою дослідників [[Facebook]]. Довготривала пам'ять може читатися або записуватися з метою використання її для передбачення. Ці моделі застосовувалися в контексті [[Питально-відповідальна система|питально-відповідальних систем]] ({{lang-en|question answering, QA}}), де довготривала пам'ять ефективно діє як (динамічна) база знань, а вихід є текстовою відповіддю.<ref>Bordes, Antoine, et al. «Large-scale Simple Question Answering with Memory Networks.» {{arxiv|1506.02075}} (2015). {{ref-en}}</ref>

==== Вказівникові мережі ====
Глибинні мережі може бути потенційно поліпшено, якщо вони стануть глибшими та матимуть менше параметрів, зберігаючи здатність до навчання. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути практично нездійсненним, [[ЦП]]-подібні архітектури, такі як вказівникові мережі ({{lang-en|pointer networks}})<ref>Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. «Pointer networks.» {{arxiv|1506.03134}} (2015). {{ref-en}}</ref> та нейронні машини з довільним доступом ({{lang-en|neural random-access machines}}),<ref>Kurach, Karol, Andrychowicz, Marcin and Sutskever, Ilya. «Neural Random-Access Machines.» {{arxiv|1511.06392}} (2015). {{ref-en}}</ref> розроблені дослідниками з [[Google Brain]], долають це обмеження завдяки застосуванню зовнішньої [[Оперативна пам'ять|пам'яті з довільним доступом]], а також додаванню інших складових, що зазвичай належать до комп'ютерної архітектури, таких як [[Регістр процесора|регістри]], [[АЛП]] та [[вказівник]]и. Такі системи працюють на векторах [[Розподіл ймовірностей|розподілів імовірностей]], що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель є повністю диференційовною, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та їхня кількість параметрів можуть змінюватися незалежно&nbsp;— на відміну від моделей на кшталт [[ДКЧП]], чия кількість параметрів зростає квадратично з розміром пам'яті.

==== Кодувально-декодувальні мережі ====
Кодувально-декодувальна схема ({{lang-en|encoder–decoder framework}}) є схемою на основі нейронних мереж, спрямованою на відображення високо[[Структурове передбачування|структурованого]] входу на високоструктурований вихід. Її було запропоновано нещодавно в контексті [[Машинний переклад|машинного перекладу]],<ref>N. Kalchbrenner and P. Blunsom, "Recurrent continuous translation models, " in EMNLP'2013, 2013. {{ref-en}}</ref><ref>I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks, " in NIPS'2014, 2014. {{ref-en}}</ref><ref>K. Cho, B. van Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, and Y. Bengio, "Learning phrase representations using RNN encoder-decoder for statistical machine translation, " in Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), Oct. 2014 {{ref-en}}</ref> де вхід та вихід є писаними реченнями двома природними мовами. В тій праці [[рекурентна нейронна мережа]]] (РНМ) або [[згорткова нейронна мережа]] (ЗНМ) з ДКЧП використовувалася як кодувальник для отримання зведення про вхідне речення, і це зведення декодувалося умовною РНМ-[[Модель мови|моделлю мови]] ({{lang-en|recurrent neural network language model, RNN-LM}}) для продукування перекладу.<ref>Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. «Describing Multimedia Content using Attention-based Encoder--Decoder Networks.» {{arxiv|1507.01053}} (2015). {{ref-en}}</ref> Всі ці системи мають однакові будівельні блоки: вентильні ({{lang-en|gated}}) РНМ та ЗНМ, і треновані механізми уваги.

== Інші архітектури ==

=== Багатошарова ядрова машина ===
Багатошарові ядрові машини (БЯМ, {{lang-en|Multilayer Kernel Machine, MKM}}), як представлено в&nbsp;<ref name="ref59">{{cite journal
| last1 = Cho
| first1 = Youngmin
| title = Kernel Methods for Deep Learning
| pages = 1–9
| date = 2012
| url = http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf
| journal =
| accessdate = 2 січня 2016
| archive-date = 16 грудня 2014
| archive-url = https://web.archive.org/web/20141216214149/http://cseweb.ucsd.edu/~yoc002/paper/thesis_youngmincho.pdf
}} {{ref-en}}</ref>, є способом навчання високо нелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують {{нп|ядровий метод головних компонент|||Kernel principal component analysis}} (ЯМГК, {{lang-en|kernel principal component analysis, KPCA}}), у&nbsp;<ref name="ref60">{{cite journal
| last1 = Scholkopf
| first1 = B
| last2 = Smola
| first2 = Alexander
| title = Nonlinear component analysis as a kernel eigenvalue problem
| journal = Neural computation
| volume = (44)
| date = 1998
| doi=10.1162/089976698300017467
| pages=1299–1319}} {{ref-en}}</ref>, як метод для [[Навчання без учителя|спонтанного]] [[Жадібний алгоритм|жадібного]] пошарового передтренувального кроку архітектури глибинного навчання.

<math>l+1</math>-й шар навчається представлення попереднього шару <math>l</math>, виділяючи <math>n_l</math> [[Метод головних компонент|головних компонент]] (ГК, {{lang-en|principal component, PC}}) проєкції в область визначення ознак шару <math>l</math>, виведеної ядром. Заради [[Зниження розмірності|зниження]] в кожному шарі розмірності уточненого представлення пропонується [[Навчання з учителем|керована стратегія]] для вибору найінформативніших ознак серед виділених ЯМГК. Цей процес є таким:

* вишикувати ознаки <math>n_l</math> відповідно до їхньої [[Взаємна інформація|взаємної інформації]] з мітками класів;
* для різних значень ''K'' та <math>m_l \in\{1, \ldots, n_l\}</math> обчислити похибку класифікації [[Метод k найближчих сусідів|методом ''K'' найближчих сусідів]], використовуючи лише <math>m_l</math> найінформативніших ознак на [[Затверджувальний набір|затверджувальному наборі]];
* значення <math>m_l</math>, з яким класифікатор досяг найнижчого рівня похибки, визначає кількість ознак для збереження.

Застосування ЯМГК як будівельних блоків для БЯМ має деякі недоліки.

Дослідниками Microsoft для застосувань у розумінні усного мовлення було розроблено простіший спосіб застосування ядрових машин до глибинної архітектури.<ref name="KDCN">L. Deng, G. Tur, X. He, and D. Hakkani-Tur. "Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding, " ''Proc. IEEE Workshop on Spoken Language Technologies'', 2012 {{ref-en}}</ref> Головна ідея полягає у використанні ядрової машини для наближення поверхневої нейронної мережі з нескінченною кількістю прихованих вузлів, і подальшому застосуванні [[#Глибинні складальні мережі|складання]] для зрощування виходу ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Кількість рівнів у цій глибинній опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресною перевіркою.


== Застосування ==
== Застосування ==
Рядок 865: Рядок 178:
=== Автоматичне розпізнавання мовлення ===
=== Автоматичне розпізнавання мовлення ===
{{Main|Розпізнавання мовлення}}
{{Main|Розпізнавання мовлення}}
В розпізнаванні мовлення було вчинено революцію глибинним навчанням, особливо [[Довга короткочасна пам'ять|довгою короткочасною пам'яттю]] (ДКЧП), [[Рекурентна нейронна мережа|рекурентною нейронною мережею]], опублікованою {{нп|Зепп Хохрайтер|Зеппом Хохрайтером||Sepp Hochreiter}} та [[Юрген Шмідгубер|Юргеном Шмідгубером]] 1997 року.<ref name=lstm/> РНМ ДКЧП обходить [[Проблема зникання градієнту|проблему зникання градієнту]], і може навчатися задач «дуже глибокого навчання»,<ref name="SCHIDHUB"/> які включають події мовлення, розділені тисячами дискретних кроків часу, коли один крок часу відповідає близько 10 мс.
2003 року ДКЧП із забувальними вентилями ({{lang-en|forget gates}})<ref name="gers2002"/> в деяких задачах стала конкурентоспроможною в порівнянні з традиційними розпізнавачами мовлення.<ref name="graves2003"/>
2007 року ДКЧП, тренована нейромережевою часовою класифікацією (НЧК, {{lang-en|Connectionist Temporal Classification, CTC}}),<ref name="graves2006"/> досягла відмінних результатів у деяких застосуваннях,<ref name="fernandez2007keyword"/> хоча комп'ютери тоді були значно повільнішими за сьогоднішні. 2015 року велике розпізнавання мовлення Google раптом майже подвоїло свою продуктивність через ДКЧП, треновані НЧК, і тепер є доступною користувачам усіх смартфонів.<ref name="sak2015"/>


Великомасштабне автоматичне розпізнавання мовлення&nbsp;— це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,<ref name="SCHIDHUB" /> до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями<ref name=":10" /> на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.<ref name="graves2003" />
В таблиці нижче наведено результати автоматичного розпізнавання мовлення на популярному англомовному наборі даних {{нп|TIMIT}}. Він є звичайним набором даних, що застосовується для початкових оцінок архітектур глибинного навчання. Набір у цілому включає 630 мовців з восьми основних [[діалект]]ів [[Американська англійська|американської англійської]], де кожен мовець читає 10 різних речень.<ref name="LDCTIMIT">''TIMIT Acoustic-Phonetic Continuous Speech Corpus'' Linguistic Data Consortium, Philadelphia. {{ref-en}}</ref> Його невеликий розмір дозволяє ефективно випробовувати багато конфігурацій. Що ще важливіше, задача TIMIT розглядає розпізнавання {{нп|Фона|фональних||Phone (phonetics)}} послідовностей, що, на відміну від розпізнавання словесних послідовностей, дозволяє дуже слабкі «мовні моделі», і відтак спрощує аналіз слабкостей аспектів акустичного моделювання розпізнавання мовлення. Такий аналіз на TIMIT Лі Дена зі співробітниками близько 2009—2010 років, протиставляючи моделі {{нп|Сумішева модель|ҐСМ||Mixture model}} (та інших породжувальних моделей мовлення) з {{H:title|Глибинна нейронна мережа|ГНМ}}, стимулював ранні промислові інвестиції в глибинне навчання для розпізнавання мовлення від малих до великих масштабів,<ref name=ReferenceICASSP2013 /><ref name="NIPS2009"/> зрештою привівши до поширеного та домінантного застосування в цій галузі. Цей аналіз було здійснено з порівнянною ефективністю (менше 1.5&nbsp;% в рівні похибок) між розрізнювальними {{H:title|Глибинна нейронна мережа|ГНМ}} та породжувальними моделями. Перелічені нижче рівні похибок, включно з цими ранніми результатами, виміряні як рівень {{нп|Фона|фональних||Phone (phonetics)}} похибок (РФП, {{lang-en|phone error rates, PER}}), було узагальнено за проміжок часу крайніх 20 років:

Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі ''{{нп|TIMIT}}''. Цей набір даних містить 630 носіїв восьми основних [[діалект]]ів [[Американська англійська|американської англійської]], де кожен читає 10 речень.<ref name="LDCTIMIT">''TIMIT Acoustic-Phonetic Continuous Speech Corpus'' Linguistic Data Consortium, Philadelphia. {{ref-en}}</ref> Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання ''TIMIT'' стосується розпізнавання {{нп|Фона|фональних||Phone (phonetics)}} послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фоно[[Біграма|біграмні]] мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, {{lang-en|phone error rates, PER}}), було узагальнено з 1991 року.


{| class="wikitable"
{| class="wikitable"
! Метод
! Відсоток рівня<br/>фональної похибки (РФП) (%)
|-
|-
| [[Рекурентна нейронна мережа|РНМ]] з випадковими початковими значеннями<ref>{{cite journal |last1=Robinson |first1=Tony |author-link=Тоні Робінсон (розпізнавання мовлення)|title=Several Improvements to a Recurrent Error Propagation Network Phone Recognition System |journal=Cambridge University Engineering Department Technical Report |date=30 September 1991 |volume=CUED/F-INFENG/TR82 |doi=10.13140/RG.2.2.15418.90567 |language=en }}</ref>
! Метод !! РФП (%)
| 26,1
|-
|-
| Баєсова трифональна {{нп|Сумішева модель|ГСМ||Mixture model}}-[[Прихована марковська модель|ПММ]]
| [[Рекурентні нейронні мережі|РНМ]] з випадковими початковими значеннями || 26.1
| 25,6
|-
|-
| Модель прихованої траєкторії (породжувальна)
| Баєсова трифональна {{нп|Сумішева модель|ҐСМ||Mixture model}}-[[Прихована марковська модель|ПММ]] || 25.6
| 24,8
|-
|-
| Монофональна ГНМ з випадковими початковими значеннями
| Модель прихованої траєкторії (породжувальна) || 24.8
| 23,4
|-
|-
| Монофональна [[Глибока мережа переконань|ГМП]]-ГНМ
| Монофональна {{H:title|Глибинна нейронна мережа|ГНМ}} з випадковими початковими значеннями || 23.4
| 22,4
|-
|-
| Трифональна {{нп|Сумішева модель|ГСМ||Mixture model}}-[[Прихована марковська модель|ПММ]] з навчанням {{H:title|Підсилена максимальна взаємна інформація, англ. Boosted Maximum Mutual Information, BMMI|ПМВІ}}
| Монофональна [[Глибинна мережа переконань|ГМП]]-{{H:title|Глибинна нейронна мережа|ГНМ}} || 22.4
| 21,7
|-
|-
| Монофональна [[Глибока мережа переконань|ГМП]]-ГНМ на {{нп|Блок фільтрів|блоці фільтрів||Filter bank}}
| Трифональна {{нп|Сумішева модель|ҐСМ||Mixture model}}-[[Прихована марковська модель|ПММ]] з тренуванням {{H:title|Підсилена максимальна взаємна інформація, англ. Boosted Maximum Mutual Information, BMMI|ПМВІ}} || 21.7
| 20,7
|-
|-
| [[Згорткова нейронна мережа|Згорткова]] ГНМ<ref name="CNN-2014">{{cite journal|last1=Abdel-Hamid|first1=O.|title=Convolutional Neural Networks for Speech Recognition|journal=IEEE/ACM Transactions on Audio, Speech, and Language Processing|date=2014|volume=22|issue=10|pages=1533–1545|doi=10.1109/taslp.2014.2339736|s2cid=206602362|display-authors=etal|url=https://zenodo.org/record/891433|access-date=2018-04-20|archive-date=2020-09-22|archive-url=https://web.archive.org/web/20200922180719/https://zenodo.org/record/891433|url-status=live|language=en}}</ref>
| Монофональна [[Глибинна мережа переконань|ГМП]]-{{H:title|Глибинна нейронна мережа|ГНМ}} на {{нп|Блок фільтрів|блоці фільтрів||Filter bank}} || 20.7
| 20,0
|-
|-
| Згорткова ГНМ з {{H:title|англ. Heterogeneous Pooling|різнорідним агрегуванням}}
| [[Згорткова нейронна мережа|Згорткова]] {{H:title|Глибинна нейронна мережа|ГНМ}}<ref name=CNN-2014>{{cite journal|last1=Abdel-Hamid|first1=O.|title=Convolutional Neural Networks for Speech Recognition|journal=IEEE/ACM Transactions on Audio, Speech, and Language Processing|date=2014|volume=22|issue=10|pages=1533–1545|doi=10.1109/taslp.2014.2339736|display-authors=etal}} {{ref-en}}</ref> || 20.0
| 18,7
|-
|-
| Ансамблева ГНМ/[[Згорткова нейронна мережа|ЗНМ]]/РНМ<ref name="EnsembleDL">{{cite journal|last2=Platt|first2=J.|date=2014|title=Ensemble Deep Learning for Speech Recognition|journal=Proc. Interspeech|last1=Deng|first1=L.|pages=1915–1919 |doi=10.21437/Interspeech.2014-433 |s2cid=15641618 |language=en}}</ref>
| [[Згорткова нейронна мережа|Згорткова]] {{H:title|Глибинна нейронна мережа|ГНМ}} з {{H:title|англ. Heterogeneous Pooling|різнорідним агрегуванням}} || 18.7
| 18,3
|-
|-
| Двоспрямована [[Довга короткочасна пам'ять|ДКЧП]]
| Ансамблева {{H:title|Глибинна нейронна мережа|ГНМ}}/[[Згорткова нейронна мережа|ЗНМ]]/[[Рекурентні нейронні мережі|РНМ]]<ref name="EnsembleDL">{{cite journal|last1=Deng|first1=L.|last2=Platt|first2=J.|title=Ensemble Deep Learning for Speech Recognition|journal=Proc. Interspeech|date=2014}} {{ref-en}}</ref>|| 18.2
| 17,8
|-
|-
| {{H:title|англ. Hierarchical Convolutional Deep Maxout Network|Ієрархічна згорткова глибока максимумовиходова мережа}}<ref name="HCDMM">{{cite journal|last1=Tóth|first1=Laszló|date=2015|title=Phone Recognition with Hierarchical Convolutional Deep Maxout Networks|journal=EURASIP Journal on Audio, Speech, and Music Processing|volume=2015|doi=10.1186/s13636-015-0068-3|s2cid=217950236|url=http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|access-date=2019-04-01|archive-date=2020-09-24|archive-url=https://web.archive.org/web/20200924085514/http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|url-status=live|language=en}}</ref>
| Двоспрямована [[ДКЧП]] || 17.9
| 16,5
|}
|}


Дебют ГНМ для розпізнавання мовців наприкінці 1990-х та розпізнавання мовлення приблизно в 2009—2011 роках, а також ДКЧП приблизно в 2003—2007 роках прискорили прогрес у восьми основних областях:<ref name="BOOK2014" /><ref name="interspeech2014Keynote" /><ref name="ReferenceA" />
2010 року промислові дослідники розширили глибинне навчання з TIMIT до великого словникового розпізнавання мовлення, пристосувавши великі вихідні шари {{H:title|Глибинна нейронна мережа|ГНМ}} на основі станів контекстно-залежних [[Прихована марковська модель|ПММ]], побудованих [[Дерево прийняття рішень|деревами рішень]].<ref name="
Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|date=2010}} {{ref-en}}</ref><ref name="ICASSP2013">Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013. {{ref-en}}</ref> Усебічні огляди цієї розробки та положення справ станом на жовтень 2014 року подано в недавній книзі видавництва Springer від [[Microsoft Research]].<ref name="ReferenceA"/> У ранішій статті&nbsp;<ref>{{cite journal|last1=Deng|first1=L.|last2=Li|first2=Xiao|title=Machine Learning Paradigms for Speech Recognition: An Overview|journal=IEEE Transactions on Audio, Speech, and Language Processing|date=2013|doi=10.1109/tasl.2013.2244083|volume=21|pages=1060–1089}} {{ref-en}}</ref> було зроблено огляд обстановки в автоматичному розпізнаванні мовлення та впливі різних парадигм машинного навчання, включно із глибинним навчанням.


* Масштабування вгору/назовні та прискорення тренування та декодування ГНМ
Одним із основоположних принципів глибинного навчання є покінчити з ручним [[Конструювання ознак|конструюванням ознак]], і використовувати сирі ознаки. Цей принцип було вперше успішно досліджено в архітектурі глибинного автокодувальника на «сирій» спектрограмі або ознаках лінійного {{нп|Блок фільтрів|блока фільтрів||Filter bank}},<ref name="interspeech2010">L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech. {{ref-en}}</ref> що показало його перевагу над [[MFCC|мел-кепстровими]] ознаками, які містять мало етапів незмінного перетворення зі спектрограм. Зовсім недавно було показано, що «справжні» ознаки мовлення, [[Форма хвилі|хвилеформи]], дають відмінні результати результати у великомасштабному розпізнаванні мовлення.<ref name="interspeech2014">Z. Tuske, P. Golik, R. Schlüter and H. Ney (2014). [https://www.researchgate.net/publication/266030526_Acoustic_Modeling_with_Deep_Neural_Networks_Using_Raw_Time_Signal_for_LVCSR Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR.] {{Webarchive|url=https://web.archive.org/web/20160203003803/https://www.researchgate.net/publication/266030526_Acoustic_Modeling_with_Deep_Neural_Networks_Using_Raw_Time_Signal_for_LVCSR |date=3 лютого 2016 }} Interspeech. {{ref-en}}</ref>
* Послідовнісно розрізнювальне тренування
* Обробка ознак глибокими моделями з цілісним розумінням механізмів, що лежать в їхній основі
* Пристосування ГНМ та споріднених глибоких моделей
* {{нп|Багатозадачне навчання|Багатозадачне||Multi-task learning}} та [[передавальне навчання]] за допомогою ГНМ і споріднених глибоких моделей
* [[Згорткова нейронна мережа|ЗНМ]] та як їх проєктувати, щоби найкращим чином використати [[Предметна область|предметні знання]] щодо мовлення
* [[Рекурентна нейронна мережа|РНМ]] та їхні численні варіанти з ДКЧП
* Інші типи глибоких моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.


Усі основні комерційні системи розпізнавання мовлення (наприклад, ''Microsoft [[Cortana]]'', ''[[Xbox]]'', {{нп|Перекладач Skype|Перекладач ''Skype''||Skype Translator}}, ''[[Amazon Alexa]]'', ''[[Google Now]]'', ''[[Apple Siri]]'', ''[[Baidu]]'' та голосовий пошук ''{{нп|iFlytek}}'', а також низка мовленнєвих продуктів ''{{нп|Nuance Communications|Nuance|en}}'' тощо) ґрунтуються на глибокому навчанні.<ref name="BOOK2014" /><ref>{{Cite magazine|url=https://www.wired.com/2014/12/skype-used-ai-build-amazing-new-language-translator/|title=How Skype Used AI to Build Its Amazing New Language Translator {{!}} WIRED|magazine=Wired|access-date=14 June 2017|date=17 December 2014|last1=McMillan|first1=Robert|archive-date=8 June 2017|archive-url=https://web.archive.org/web/20170608062106/https://www.wired.com/2014/12/skype-used-ai-build-amazing-new-language-translator/|url-status=live|language=en}}</ref><ref name="Baidu">{{cite arXiv |eprint=1412.5567|last1=Hannun|first1=Awni|title=Deep Speech: Scaling up end-to-end speech recognition|last2=Case|first2=Carl|last3=Casper|first3=Jared|last4=Catanzaro|first4=Bryan|last5=Diamos|first5=Greg|last6=Elsen|first6=Erich|last7=Prenger|first7=Ryan|last8=Satheesh|first8=Sanjeev|last9=Sengupta|first9=Shubho|last10=Coates|first10=Adam|last11=Ng|first11=Andrew Y|class=cs.CL|year=2014|language=en}}</ref>
З моменту початкового успішного дебюту {{H:title|Глибинна нейронна мережа|ГНМ}} у розпізнаванні мовлення близько 2009—2011 років та ДКЧП близько 2003—2007 років, було здійснено величезні нові зрушення. Прогрес (та майбутні напрямки) може бути зведено у вісім основних областей:<ref name=BOOK2014 /><ref name="interspeech2014Keynote"/><ref name=ReferenceA />


=== Розпізнавання зображень ===
* Масштабування вгору/назовні та прискорення тренування ГНМ та декодування;
{{Main|Комп'ютерне бачення}}
* Послідовнісно розрізнювальне тренування ГНМ;
* Обробка ознак глибинними моделями з цілісним розумінням механізмів, що лежать в їх основі;
* Пристосування ГНМ та споріднених глибинних моделей;
* {{нп|Багатозадачне навчання|||Multi-task learning}} та [[передавальне навчання]] ГНМ і спорідненими глибинними моделями;
* Згорткові нейронні мережі, та як проектувати їх для найкращого використання знань про область мовлення;
* Рекурентна нейронна мережа та її цінні ДКЧП-варіанти;
* Інші типи глибинних моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.


Поширеним оцінковим набором для класифікування зображень є набір даних [[MNIST (база даних)|бази даних ''MNIST'']]. Він складається з рукописних цифр і містить 60 000 навчальних та 10 000 випробувальних прикладів. Як і у випадку з ''TIMIT'', його невеликий розмір дозволяє користувачам випробувати кілька конфігурацій. Доступний вичерпний перелік результатів на цьому наборі.<ref name="YANNMNIST">{{cite web|url=http://yann.lecun.com/exdb/mnist/.|title=MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges|website=yann.lecun.com|access-date=2014-01-28|archive-date=2014-01-13|archive-url=https://web.archive.org/web/20140113175237/http://yann.lecun.com/exdb/mnist/|url-status=live|language=en}}</ref>
Великомасштабне автоматичне розпізнавання мовлення є першим і найпереконливішим прикладом застосування глибинного навчання в недавній історії, що використовується як в промисловості, так і в науці, в усіх напрямках. Між 2010 та 2014 роками дві важливі конференції з обробки сигналів та розпізнавання мовлення, IEEE-ICASSP та Interspeech, побачили значне збільшення кількостей прийнятих праць серед усіх праць на цих конференціях за рік на тему глибинного навчання для розпізнавання мовлення. Що ще важливіше, всі важливі комерційні системи розпізнавання мовлення (наприклад, [[Microsoft Cortana]], [[Xbox]], {{нп|Перекладач Skype|||Skype Translator}}, [[Amazon Alexa]], [[Google Now]], [[Apple Siri]], голосовий пошук [[Baidu]] та {{нп|iFlyTek|||IFLYTEK}} та ряд мовленневих продуктів {{нп|Nuance Communications|Nuance}} тощо) ґрунтуються на моделях глибинного навчання.<ref name=BOOK2014 /><ref name="Wire">McMillan, R. «How Skype Used AI to Build Its Amazing New Language Translator», Wire, Dec. 2014. {{ref-en}}</ref><ref name="Baidu">Hannun et al. (2014) «Deep Speech: Scaling up end-to-end speech recognition», {{arxiv|1412.5567}}. {{ref-en}}</ref><ref>{{Cite web|url=http://research.microsoft.com/en-US/people/deng/ieee-icassp-plenary-2016-mar24-lideng-posted.pdf|title=Plenary presentation at ICASSP-2016|date=|website=|publisher=|access-date=|archive-date=18 квітня 2016|archive-url=https://web.archive.org/web/20160418051041/http://research.microsoft.com/en-US/people/deng/ieee-icassp-plenary-2016-mar24-lideng-posted.pdf}} {{ref-en}}</ref> Див. також нещодавнє інтерв'ю ЗМІ з технічним директором Nuance Communications.<ref name="SPM2015">Ron Schneiderman (2015) «Accuracy, Apps Advance Speech Recognition&nbsp;— Interviews with Vlad Sejnoha and Li Deng», IEEE Signal Processing Magazine, Jan, 2015. {{ref-en}}</ref>


Розпізнавання зображень на основі глибокого навчання стало «надлюдським», даючи точніші результати, ніж люди, учасники змагання. Вперше це сталося 2011 року з розпізнаванням дорожніх знаків, а 2014 року з розпізнаванням облич людей.<ref name=":7">{{Cite journal|last1=Cireşan|first1=Dan|last2=Meier|first2=Ueli|last3=Masci|first3=Jonathan|last4=Schmidhuber|first4=Jürgen|date=August 2012|title=Multi-column deep neural network for traffic sign classification|journal=Neural Networks|series=Selected Papers from IJCNN 2011|volume=32|pages=333–338|doi=10.1016/j.neunet.2012.02.023|pmid=22386783|citeseerx=10.1.1.226.8219|language=en}}</ref><ref name=surpass1>{{cite arXiv|title=Surpassing Human Level Face Recognition|author1=Chaochao Lu |author2= Xiaoou Tang |year=2014 |class=cs.CV |eprint=1404.3840 |language=en }}</ref>
=== Розпізнавання зображень ===
Звичайним набором для оцінки класифікації зображення є набір даних [[MNIST (база даних)|MNIST]]. Він складається з рукописних цифр, і включає 60&nbsp;000 тренувальних зразків та 10&nbsp;000 перевіркових зразків. Як і в TIMIT, його малий розмір дозволяє перевіряти кілька конфігурацій. Повний перелік результатів на цьому наборі можна знайти в&nbsp;<ref name="YANNMNIST">http://yann.lecun.com/exdb/mnist/ {{Webarchive|url=https://web.archive.org/web/20210407152035/http://yann.lecun.com/exdb/mnist/ |date=7 квітня 2021 }} {{ref-en}}</ref>. Поточним найкращим результатом на MNIST є рівень похибки 0.23&nbsp;%, досягнений Чирешаном та ін. 2012 року.<ref name="CIRESAN2012">D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification, " ''Technical Report No. IDSIA-04-12', 2012. {{ref-en}}</ref>


Треновані глибоким навчанням транспортні засоби тепер інтерпретують камери кругового огляду.<ref>[http://www.technologyreview.com/news/533936/nvidia-demos-a-car-computer-trained-with-deep-learning/ Nvidia Demos a Car Computer Trained with "Deep Learning"] (6 January 2015), David Talbot, ''{{нп|MIT Technology Review}}'' {{ref-en}}</ref> Іншим прикладом є новітній аналіз у лицевій дисморфології ({{lang-en|Facial Dysmorphology Novel Analysis, FDNA}}), який використовують для аналізу випадків вад розвитку людини, пов'язаних із великою базою даних генетичних синдромів.
Згідно ЛеКуна,<ref name="lecun2016slides"/> на початку 2000-х років у промисловому застосуванні ЗНМ вже обробляли приблизно від 10&nbsp;% до 20&nbsp;% усіх перевірок, написаних у США на початку 2000-х років.
Значний додатковий вплив глибинного навчання в розпізнаванні зображень або об'єктів відчувся в 2011—2012 роках. І хоча ЗНМ, треновані зворотним поширенням, займали помітне місце десятиріччями,<ref name="LECUN1989"/> а реалізації НМ, включно із ЗНМ,<ref name="chellapilla2006"/> на [[Графічний процесор|ГП]]&nbsp;— роками, знадобилися швидкі реалізації на ГП ЗНМ з максимізаційними підвибірками в стилі Дена Чирешана з колегами,<ref name="ciresan2011"/> щоби зробити зарубку на комп'ютерному баченні.<ref name="SCHIDHUB"/> 2011 року цей підхід вперше досяг надлюдської продуктивності у змаганні з розпізнавання візуальних образів.<ref name="ciresan2011NN"/> Також 2011 року він переміг у змаганні ICDAR з розпізнавання китайського рукописного тексту, а в травні 2012 року переміг у змаганні ISBI з сегментування зображень.<ref name="ciresan2012NIPS"/>
До 2011 року ЗНМ не відігравали провідної ролі на конференціях із комп'ютерного бачення, але в червні 2012 року праця Дена Чирешана та ін. на провідній конференції CVPR<ref name="ciresan2011CVPR"/> показала, як різко максимізаційно-підвибіркові ЗНМ на ГП можуть покращити багато еталонних рекордів бачення, іноді з порівняною з людською, або навіть із надлюдською продуктивністю. В жовтні 2012 року подібна система Алекса Крижевського в команді Джефа Хінтона<ref name="krizhevsky2012">Krizhevsky, A., Sutskever, I. and Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada {{ref-en}}</ref> виграла великомасштабне {{нп|змагання ImageNet|||ImageNet competition}} зі значним відривом від методів поверхневого машинного навчання. В листопаді 2012 року система Чирешана та ін. також виграла змагання ICPR з аналізу великих медичних зображень для виявлення [[Карцинома|раку]], а наступного року також і MICCAI Grand Challenge з цього ж предмету.<ref name="ciresan2013miccai">D. Ciresan, A. Giusti, L.M. Gambardella, J. Schmidhuber (2013). Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks. Proceedings MICCAI, 2013. {{ref-en}}</ref>
В 2013 та 2014 роках рівень похибки на задачі ImageNet із застосуванням глибинного навчання було швидко додатково скорочено, слідом за подібною тенденцією у великомасштабному розпізнаванні мовлення.


=== Обробка образотворчого мистецтва ===
Як і в амбітному русі від автоматичного розпізнавання мовлення до його автоматичного перекладу та розуміння, класифікацію зображень нещодавно було розширено до складнішої задачі опису зображень, в якій глибинне навчання (часто як поєднання ЗНМ та ДКЧП) є важливою підлеглою технологією.<ref name="1411.4555">Vinyals et al. (2014)."Show and Tell: A Neural Image Caption Generator, " {{arxiv|1411.4555}}. {{ref-en}}</ref><ref name="1411.4952">Fang et al. (2014)."From Captions to Visual Concepts and Back, " {{arxiv|1411.4952}}. {{ref-en}}</ref><ref name="1411.2539">Kiros et al. (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models, " {{arxiv|1411.2539}}. {{ref-en}}</ref><ref>{{cite journal|last1=Zhong|first1=S.|last2=Liu|first2=Y.|last3=Liu|first3=Y.|title=Bilinear Deep Learning for Image Classification|journal=Proceedings of the 19th ACM International Conference on Multimedia|volume=11|pages=343–352|accessdate=5 квітня 2015}} {{ref-en}}</ref>
[[Файл:Jimmy_Wales_in_France,_with_the_style_of_Munch's_"The_Scream"_applied_using_neural_style_transfer.jpg|міні|164x164пкс|Візуальна художня обробка Джиммі Вейлза у Франції у стилі «Крику» Мунка, застосованого за допомогою нейронного перенесення стилю]]


З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у
Одним із прикладів застосування є автомобільний комп'ютер, нібито натренований глибинним навчанням, який може дозволити автомобілям інтерпретувати зображення з 360-градусних камер.<ref>[http://www.technologyreview.com/news/533936/nvidia-demos-a-car-computer-trained-with-deep-learning/ Nvidia Demos a Car Computer Trained with «Deep Learning»] (2015-01-06), David Talbot, ''{{нп|MIT Technology Review}}'' {{ref-en}}</ref> Іншим прикладом є технологія, відома як новітній аналіз у лицевій дисморфології ({{lang-en|Facial Dysmorphology Novel Analysis, FDNA}}), що застосовується для аналізу випадків пороків розвитку в людей, пов'язаного з великою базою даних генетичних синдромів.

* встановлюванні періоду стилю заданої картини<ref name="art1" /><ref name="art2" />
* {{нп|Нейронне перенесення стилю|Нейроннім перенесенні стилю||Neural style transfer}}&nbsp;— вловлюванні стилю певного твору мистецтва та застосуванні його візуально приємним чином до довільної фотографії чи відео<ref name="art1" /><ref name="art2" />
* створенні вражаючих зображень на основі випадкових вхідних зорових полів.<ref name="art1">{{cite journal |author1=G. W. Smith|author2=Frederic Fol Leymarie|date=10 April 2017|title=The Machine as Artist: An Introduction|journal=Arts|volume=6|issue=4|pages=5|doi=10.3390/arts6020005|doi-access=free|language=en}}</ref><ref name="art2">{{cite journal |author=Blaise Agüera y Arcas|date=29 September 2017|title=Art in the Age of Machine Intelligence|journal=Arts|volume=6|issue=4|pages=18|doi=10.3390/arts6040018|doi-access=free|language=en}}</ref>


=== Обробка природної мови ===
=== Обробка природної мови ===
{{main|Обробка природної мови}}
{{Main|Обробка природної мови}}

Нейронні мережі застосовуються для реалізації [[Модель мови|моделей мов]] з початку 2000-х років.<ref name="gers2001"/><ref name="BENGIO2003">Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin., "A Neural Probabilistic Language Model, " ''Journal of Machine Learning Research 3 (2003) 1137—1155', 2003.</ref>
Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.<ref name="gers2001" /> [[Довга короткочасна пам'ять|ДКЧП]] допомогла покращити машинний переклад і моделювання мови.<ref name="NIPS2014" /><ref name="vinyals2016" /><ref name="gillick2015" />
[[Рекурентні нейронні мережі]], особливо ДКЧП,<ref name=lstm/> підходять найкраще для послідовних даних, таких як мова.
ДКЧП допомогла поліпшити машинний переклад<ref name="NIPS2014"/> та моделювання мов.<ref name="vinyals2016"/><ref name="gillick2015"/> ДКЧП у поєднанні з ЗНМ також поліпшили автоматичний опис зображень<ref name="vinyals2015"/> та безліч інших застосувань.<ref name="SCHIDHUB"/>


Іншими ключовими методиками в цій області є негативна вибірка<ref name="GoldbergLevy2014">{{cite web|last1=Goldberg|first1=Yoav|last2=Levy|first2=Omar|title=word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method|url=http://arxiv.org/pdf/1402.3722v1.pdf|website=Arxiv|accessdate=26 жовтня 2014|archive-date=22 січня 2022|archive-url=https://web.archive.org/web/20220122002315/http://arxiv.org/pdf/1402.3722v1.pdf}} {{ref-en}}</ref> та [[векторне представлення слів]]. Векторне представлення слів, таке як ''[[word2vec]]'', може розглядатися як шар представлення в архітектурі глибинного навчання, що перетворює атомарне слово в представлення розташування слова відносно інших слів у наборі даних; це положення представляється точкою в [[Векторний простір|векторному просторі]]. Використання векторного представлення слів як вхідного шару для рекурентної нейронної мережі (РНМ) уможливлює навчання цієї мережі розбору речень та фраз із застосуванням ефективної ''композиційної векторної граматики''. Композиційна векторна граматика може розглядатися як {{нп|імовірнісна контекстно-вільна граматика|||Probabilistic context free grammar}} (ІКВГ, {{lang-en|probabilistic context free grammar, PCFG}}), реалізована рекурентною нейронною мережею.<ref name="SocherManning2014">{{cite web|last1=Socher|first1=Richard|last2=Manning|first2=Christopher|title=Deep Learning for NLP|url=http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|accessdate=26 жовтня 2014|archive-date=6 липня 2014|archive-url=https://web.archive.org/web/20140706040227/http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf}} {{ref-en}}</ref> Рекурентні автокодувальники, побудовані поверх векторного представлення слів, було натреновано для оцінки схожості речень та виявлення перефразувань.<ref name=SocherManning2014 /> Глибинні нейронні архітектури досягли передових результатів у багатьох задачах обробки природної мови, таких як [[Методика безпосередніх складників|розбір складників]],<ref>{{Cite journal|url = http://aclweb.org/anthology/P/P13/P13-1045.pdf|title = Parsing With Compositional Vector Grammars|last = Socher|first = Richard|date = 2013|journal = Proceedings of the ACL 2013 conference|accessdate = |doi = |pmid = |last2 = Bauer|first2 = John|last3 = Manning|first3 = Christopher|last4 = Ng|first4 = Andrew|archive-date = 27 листопада 2014|archive-url = https://web.archive.org/web/20141127005912/http://www.aclweb.org/anthology/P/P13/P13-1045.pdf}} {{ref-en}}</ref> [[Аналіз тональності тексту|аналіз тональності]],<ref>{{Cite journal|url = http://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf|title = Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank|last = Socher|first = Richard|date = 2013|journal = EMNLP 2013|accessdate = |doi = |pmid = |archive-date = 28 грудня 2016|archive-url = https://web.archive.org/web/20161228100300/http://nlp.stanford.edu/%7Esocherr/EMNLP2013_RNTN.pdf}} {{ref-en}}</ref> отримання інформації,<ref name="CIKM2014">Y. Shen, X. He, J. Gao, L. Deng, and G. Mesnil (2014) " A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval, " Proc. CIKM. {{ref-en}}</ref><ref name="CIKM2013">P. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck (2013) "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, " Proc. CIKM. {{ref-en}}</ref> розуміння усного мовлення,<ref name="IEEE-TASL2015">Mesnil, G., Dauphin, Y., Yao, K., Bengio, Y., Deng, L., Hakkani-Tur, D., He, X., Heck, L., Tur, G., Yu, D. and Zweig, G., 2015. Using recurrent neural networks for slot filling in spoken language understanding. IEEE Transactions on Audio, Speech, and Language Processing, 23(3), pp.530-539. {{ref-en}}</ref> [[машинний переклад]],<ref name="NIPS2014">I. Sutskever, O. Vinyals, Q. Le (2014) "Sequence to Sequence Learning with Neural Networks, " Proc. NIPS. {{ref-en}}</ref><ref name="ACL2014">J. Gao, X. He, W. Yih, and L. Deng(2014) "Learning Continuous Phrase Representations for Translation Modeling, " Proc. ACL. {{ref-en}}</ref> контекстне зв'язування об'єктів<ref name="EMNLP2014">J. Gao, P. Pantel, M. Gamon, X. He, L. Deng (2014) "Modeling Interestingness with Deep Neural Networks, " Proc. EMNLP. {{ref-en}}</ref> та інших.<ref name="Tutorial2014">J. Gao, X. He, L. Deng (2014) "Deep Learning for Natural Language Processing: Theory and Practice (Tutorial), " CIKM. {{ref-en}}</ref>
Іншими ключовими методиками в цій галузі є негативне вибирання ({{lang-en|negative sampling}})<ref name="GoldbergLevy2014">{{cite arXiv|last1=Goldberg|first1=Yoav|last2=Levy|first2=Omar|title=word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method|eprint=1402.3722|class=cs.CL|year=2014|language=en}}</ref> та [[вкладання слів]]. Вкладання слів, наприклад ''[[word2vec]]'', можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у [[Векторний простір|векторному просторі]]. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як {{нп|Імовірнісна контекстновільна граматика|імовірнісну контекстновільну граматику||Probabilistic context free grammar}} (ІКВГ, {{lang-en|probabilistic context free grammar, PCFG}}), втілену РНМ.<ref name="SocherManning2014">{{cite web|last1=Socher|first1=Richard|last2=Manning|first2=Christopher|title=Deep Learning for NLP|url=http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|access-date=26 October 2014|archive-date=6 July 2014|archive-url=https://web.archive.org/web/20140706040227/http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|url-status=live|language=en}}</ref> Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.<ref name="SocherManning2014" /> Глибокі нейронні архітектури забезпечують найкращі результати для {{нп|Статистичний синтаксичний аналіз|аналізу складників||Statistical parsing}},<ref>{{Cite journal|url = http://aclweb.org/anthology/P/P13/P13-1045.pdf|title = Parsing With Compositional Vector Grammars|last1 = Socher|first1 = Richard|date = 2013|journal = Proceedings of the ACL 2013 Conference|last2 = Bauer|first2 = John|last3 = Manning|first3 = Christopher|last4 = Ng|first4 = Andrew|access-date = 2014-09-03|archive-date = 2014-11-27|archive-url = https://web.archive.org/web/20141127005912/http://www.aclweb.org/anthology/P/P13/P13-1045.pdf|url-status = live|language = en}}</ref> [[Аналіз тональності тексту|тональності]],<ref>{{Cite journal|url = http://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf|title = Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank|last = Socher|first = Richard|date = 2013|journal = |access-date = 2014-09-03|archive-date = 2016-12-28|archive-url = https://web.archive.org/web/20161228100300/http://nlp.stanford.edu/%7Esocherr/EMNLP2013_RNTN.pdf|url-status = live|language = en}}</ref> пошуку інформації,<ref>{{Cite journal|last1=Shen|first1=Yelong|last2=He|first2=Xiaodong|last3=Gao|first3=Jianfeng|last4=Deng|first4=Li|last5=Mesnil|first5=Gregoire|date=1 November 2014|title=A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval|url=https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|journal=Microsoft Research|access-date=14 June 2017|archive-date=27 October 2017|archive-url=https://web.archive.org/web/20171027050418/https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Huang|first1=Po-Sen|last2=He|first2=Xiaodong|last3=Gao|first3=Jianfeng|last4=Deng|first4=Li|last5=Acero|first5=Alex|last6=Heck|first6=Larry|date=1 October 2013|title=Learning Deep Structured Semantic Models for Web Search using Clickthrough Data|url=https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|journal=Microsoft Research|access-date=14 June 2017|archive-date=27 October 2017|archive-url=https://web.archive.org/web/20171027050414/https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|url-status=live|language=en}}</ref> розуміння розмовної мови,<ref name="IEEE-TASL2015">{{cite journal | last1 = Mesnil | first1 = G. | last2 = Dauphin | first2 = Y. | last3 = Yao | first3 = K. | last4 = Bengio | first4 = Y. | last5 = Deng | first5 = L. | last6 = Hakkani-Tur | first6 = D. | last7 = He | first7 = X. | last8 = Heck | first8 = L. | last9 = Tur | first9 = G. | last10 = Yu | first10 = D. | last11 = Zweig | first11 = G. | s2cid = 1317136 | year = 2015 | title = Using recurrent neural networks for slot filling in spoken language understanding | journal = IEEE Transactions on Audio, Speech, and Language Processing | volume = 23 | issue = 3| pages = 530–539 | doi=10.1109/taslp.2014.2383614 | language=en}}</ref> машинного перекладу,<ref name="NIPS2014">{{Cite journal|last1=Sutskever|first1=L.|last2=Vinyals|first2=O.|last3=Le|first3=Q.|date=2014|title=Sequence to Sequence Learning with Neural Networks|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|journal=Proc. NIPS|bibcode=2014arXiv1409.3215S|arxiv=1409.3215|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123145/https://papers.nips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf|url-status=live|language=en}}</ref><ref name="auto">{{Cite journal|last1=Gao|first1=Jianfeng|last2=He|first2=Xiaodong|last3=Yih|first3=Scott Wen-tau|last4=Deng|first4=Li|date=1 June 2014|title=Learning Continuous Phrase Representations for Translation Modeling|url=https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|journal=Microsoft Research|access-date=14 June 2017|archive-date=27 October 2017|archive-url=https://web.archive.org/web/20171027050403/https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|url-status=live|language=en}}</ref> контекстного зв'язування об'єктів,<ref name="auto" /> розпізнавання стилю написання,<ref name="BROC2017">{{Cite journal |doi = 10.1002/dac.3259|title = Authorship verification using deep belief network systems|journal = International Journal of Communication Systems|volume = 30|issue = 12|pages = e3259|year = 2017|last1 = Brocardo|first1 = Marcelo Luiz|last2 = Traore|first2 = Issa|last3 = Woungang|first3 = Isaac|last4 = Obaidat|first4 = Mohammad S.| s2cid=40745740| language=en }}</ref> [[розпізнавання іменованих сутностей]] (класифікування лексем),<ref>{{Cite journal |last1=Kariampuzha |first1=William |last2=Alyea |first2=Gioconda |last3=Qu |first3=Sue |last4=Sanjak |first4= Jaleal |last5=Mathé |first5=Ewy |last6=Sid |first6=Eric |last7= Chatelaine |first7=Haley |last8=Yadaw |first8=Arjun |last9=Xu |first9=Yanji |last10=Zhu |first10=Qian |date=2023 |title=Precision information extraction for rare disease epidemiology at scale |journal=Journal of Translational Medicine |language=en |volume=21 |issue=1 |page=157 |doi=10.1186/s12967-023-04011-y |pmid=36855134 |pmc=9972634}}</ref> класифікування тексту та інших.<ref>{{Cite news|url=https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|title=Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research|work=Microsoft Research|access-date=14 June 2017|archive-date=13 March 2017|archive-url=https://web.archive.org/web/20170313184253/https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|url-status=live|language=en}}</ref>

Останні розробки узагальнюють [[вкладання слів]] до [[вкладання речень]].

[[Перекладач Google|Перекладач ''Google'']] використовує велику наскрізну мережу [[Довга короткочасна пам'ять|довгої короткочасної пам'яті]] (ДКЧП).<ref name="GT_Turovsky_2016">{{cite web|url=https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/|title=Found in translation: More accurate, fluent sentences in Google Translate|last=Turovsky|first=Barak|date=15 November 2016|website=The Keyword Google Blog|access-date=23 March 2017|archive-date=7 April 2017|archive-url=https://web.archive.org/web/20170407071226/https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/|url-status=live|language=en}}</ref><ref name="googleblog_GNMT_2016">{{cite web|url=https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html|title=Zero-Shot Translation with Google's Multilingual Neural Machine Translation System|last1=Schuster|first1=Mike|last2=Johnson|first2=Melvin|date=22 November 2016|website=Google Research Blog|access-date=23 March 2017|last3=Thorat|first3=Nikhil|archive-date=10 July 2017|archive-url=https://web.archive.org/web/20170710183732/https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html|url-status=live|language=en}}</ref><ref name="GoogleTranslate">{{cite arXiv |eprint=1609.08144|last1=Wu|first1=Yonghui|title=Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation|last2=Schuster|first2=Mike|last3=Chen|first3=Zhifeng|last4=Le|first4=Quoc V|last5=Norouzi|first5=Mohammad|last6=Macherey|first6=Wolfgang|last7=Krikun|first7=Maxim|last8=Cao|first8=Yuan|last9=Gao|first9=Qin|last10=Macherey|first10=Klaus|last11=Klingner|first11=Jeff|last12=Shah|first12=Apurva|last13=Johnson|first13=Melvin|last14=Liu|first14=Xiaobing|last15=Kaiser|first15=Łukasz|last16=Gouws|first16=Stephan|last17=Kato|first17=Yoshikiyo|last18=Kudo|first18=Taku|last19=Kazawa|first19=Hideto|last20=Stevens|first20=Keith|last21=Kurian|first21=George|last22=Patil|first22=Nishant|last23=Wang|first23=Wei|last24=Young|first24=Cliff|last25=Smith|first25=Jason|last26=Riesa|first26=Jason|last27=Rudnick|first27=Alex|last28=Vinyals|first28=Oriol|last29=Corrado|first29=Greg|last30=Hughes|first30=Macduff|display-authors=29|class=cs.CL|year=2016|language=en}}</ref><ref name="WiredGoogleTranslate">{{cite magazine |title=An Infusion of AI Makes Google Translate More Powerful Than Ever |first=Cade |last=Metz |magazine=[[Wired]] |date=27 September 2016 |url=https://www.wired.com/2016/09/google-claims-ai-breakthrough-machine-translation/ |access-date=12 October 2017 |archive-date=8 November 2020 |archive-url=https://web.archive.org/web/20201108101324/https://www.wired.com/2016/09/google-claims-ai-breakthrough-machine-translation/ |url-status=live |language=en }}</ref> [[Нейронний машинний переклад Google|Нейронний машинний переклад ''Google'']] використовує метод [[Машинний переклад на основі прикладів|машинного перекладу на основі прикладів]], у якому система «вчиться на мільйонах прикладів».<ref name="googleblog_GNMT_2016" /> Він перекладає «цілі речення за раз, а не частини». Перекладач Google підтримує понад сто мов.<ref name="googleblog_GNMT_2016" /> Мережа кодує «семантику речення, а не просто запам'ятовує пофразові переклади».<ref name="googleblog_GNMT_2016" /><ref name="Biotet">{{cite web|url=http://www-clips.imag.fr/geta/herve.blanchon/Pdfs/NLP-KE-10.pdf|title=MT on and for the Web|last1=Boitet|first1=Christian|last2=Blanchon|first2=Hervé|date=2010|access-date=1 December 2016|last3=Seligman|first3=Mark|last4=Bellynck|first4=Valérie|archive-date=29 March 2017|archive-url=https://web.archive.org/web/20170329125916/http://www-clips.imag.fr/geta/herve.blanchon/Pdfs/NLP-KE-10.pdf|url-status=dead|language=en}}</ref> Перекладач ''Google'' використовує англійську як проміжну між більшістю мовних пар.<ref name="Biotet" />


=== Пошук нових ліків та токсикологія ===
=== Пошук нових ліків та токсикологія ===
{{Докладніше|{{нп|Пошук нових ліків|||Drug discovery}}|Токсикологія}}
[[Фармацевтична промисловість]] стикається з проблемою, що великому відсоткові ліків-кандидатів не вдається вийти на ринок. Ці невдачі [[Хімічна сполука|хімічних сполук]] спричинено недостатньою дієвістю на {{нп|Біомолекулярна ціль|біомолекулярну ціль||Biological target}} (цільовий вплив), невиявленою та небажаною взаємодією з іншими [[Біомолекули|біомолекулами]] (позацільові впливи) або непередбаченими {{нп|Цитотоксичність|токсичними впливами||Cytotoxicity}}.<ref name="ARROWSMITH2013">{{Cite journal

| pmid = 23903212
Значний відсоток ліків-кандидатів не отримує схвалення регуляторних органів. Ці невдачі спричинені недостатньою ефективністю (впливом на мішень), небажаними взаємодіями (впливами поза мішенню) або непередбаченими [[Токсичність|токсичними впливами]].<ref name="ARROWSMITH2013">{{Cite journal
| pmid = 23903212
| year = 2013
| year = 2013
| author1 = Arrowsmith
| last1 = Arrowsmith
| first1 = J
| first1 = J
| title = Trial watch: Phase II and phase III attrition rates 2011-2012
| title = Trial watch: Phase II and phase III attrition rates 2011-2012
Рядок 949: Рядок 281:
| last2 = Miller
| last2 = Miller
| first2 = P
| first2 = P
| s2cid = 20246434
| doi = 10.1038/nrd4090
| doi = 10.1038/nrd4090
| language = en
}} {{ref-en}}</ref><ref name="VERBIEST2015">{{Cite journal
}}</ref><ref name="VERBIEST2015">{{Cite journal
| pmid = 25582842
| pmid = 25582842
| year = 2015
| year = 2015
| author1 = Verbist
| last1 = Verbist
| first1 = B
| first1 = B
| title = Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project
| title = Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project
Рядок 976: Рядок 310:
| first10 = S
| first10 = S
| doi = 10.1016/j.drudis.2014.12.014
| doi = 10.1016/j.drudis.2014.12.014
| volume=20
| volume=20
| issue = 5
| pages=505–513
| pages=505–513
}} {{ref-en}}</ref> 2012 року команда під проводом Джорджа Даля виграла «Merck Molecular Activity Challenge», використовуючи багатозадачні глибинні нейронні мережі для передбачення біомолекулярної цілі сполуки.<ref name="MERCK2012">«Announcement of the winners of the Merck Molecular Activity Challenge» https://www.kaggle.com/c/MerckActivity/details/winners {{Webarchive|url=https://web.archive.org/web/20170621182437/https://www.kaggle.com/c/MerckActivity/details/winners |date=21 червня 2017 }}. {{ref-en}}</ref><ref name="DAHL2014">Dahl, G. E.; Jaitly, N.; & Salakhutdinov, R. (2014) "Multi-task Neural Networks for QSAR Predictions, " ArXiv, 2014. {{ref-en}}</ref> 2014 року група Зеппа Хохрайтера використала глибинне навчання для виявлення позацільових та {{нп|Цитотоксичність|токсичних впливів||Cytotoxicity}} хімікатів навколишнього середовища в поживних речовинах, побутових виробах та ліках, і виграла «Tox21 Data Challenge» [[Національний інститут охорони здоров'я США|Національного інституту охорони здоров'я США]], [[FDA]] та {{нп|NCATS|||National Center for Advancing Translational Sciences}}.<ref name="TOX21">«Toxicology in the 21st century Data Challenge» https://tripod.nih.gov/tox21/challenge/leaderboard.jsp {{Webarchive|url=https://web.archive.org/web/20150908025122/https://tripod.nih.gov/tox21/challenge/leaderboard.jsp |date=8 вересня 2015 }} {{ref-en}}</ref><ref name="TOX21Data">«NCATS Announces Tox21 Data Challenge Winners» http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html {{Webarchive|url=https://web.archive.org/web/20150228225709/http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html |date=28 лютого 2015 }} {{ref-en}}</ref> Ці вражаючі успіхи показують, що глибинне навчання може бути кращим за інші методи [[Віртуальний скринінг|віртуального скринінгу]]<ref name="Unterthiner2014">Unterthiner, T.; Mayr, A.; Klambauer, G.; Steijaert, M.; Ceulemans, H.; Wegner, J. K.; & Hochreiter, S. (2014) [http://www.bioinf.jku.at/publications/2014/NIPS2014a.pdf «Deep Learning as an Opportunity in Virtual Screening»] {{Webarchive|url=https://web.archive.org/web/20151123162940/http://www.bioinf.jku.at/publications/2014/NIPS2014a.pdf |date=23 листопада 2015 }}. Workshop on Deep Learning and Representation Learning (NIPS2014). {{ref-en}}</ref><ref name="Unterthiner2015">Unterthiner, T.; Mayr, A.; Klambauer, G.; & Hochreiter, S. (2015) [http://arxiv.org/pdf/1503.01445v1 «Toxicity Prediction using Deep Learning»]. ArXiv, 2015. {{ref-en}}</ref>. Дослідники з [[Google]] та [[Стенфордський університет|Стенфорда]] посилили глибинне навчання для {{нп|Пошук нових ліків|пошуку нових ліків||Drug discovery}} шляхом об'єднання даних з різних джерел.<ref name="Ramsudar2015">Ramsundar, B.; Kearnes, S.; Riley, P.; Webster, D.; Konerding, D.;& Pande, V. (2015) «Massively Multitask Networks for Drug Discovery». ArXiv, 2015. {{ref-en}}</ref> 2015 року Atomwise представила AtomNet, перші нейронні мережі глибинного навчання для раціональної розробки ліків на основі структури.<ref>{{cite arXiv|title = AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery|arxiv= 1510.02855|date = 2015-10-09|first = Izhar|last = Wallach|first2 = Michael|last2 = Dzamba|first3 = Abraham|last3 = Heifets}} {{ref-en}}</ref> Згодом AtomNet було використано для передбачення новітніх кандидатур біомолекул для цілей деяких хвороб, передусім для лікування [[Хвороба, яку спричинює вірус Ебола|вірусу Ебола]] та [[Розсіяний склероз|розсіяного склерозу]].<ref>{{Cite web|title = Toronto startup has a faster way to discover effective medicines|url = http://www.theglobeandmail.com/report-on-business/small-business/starting-out/toronto-startup-has-a-faster-way-to-discover-effective-medicines/article25660419/|website = The Globe and Mail|accessdate = 2015-11-09|archive-date = 27 грудня 2015|archive-url = https://web.archive.org/web/20151227170544/http://www.theglobeandmail.com/report-on-business/small-business/starting-out/toronto-startup-has-a-faster-way-to-discover-effective-medicines/article25660419/}} {{ref-en}}</ref><ref>{{Cite web|title = Startup Harnesses Supercomputers to Seek Cures|url = http://ww2.kqed.org/futureofyou/2015/05/27/startup-harnesses-supercomputers-to-seek-cures/|website = KQED Future of You|accessdate = 2015-11-09|language = en-us|archive-date = 24 грудня 2015|archive-url = https://web.archive.org/web/20151224104721/http://ww2.kqed.org/futureofyou/2015/05/27/startup-harnesses-supercomputers-to-seek-cures/}} {{ref-en}}</ref>
| doi-access = free
| language = en
}}</ref> Дослідники вивчали використання глибокого навчання для передбачування {{нп|Біомолекулярна мішень|біомолекулярних мішеней||Biomolecular target}},<ref name="MERCK2012" /><ref name=":5" /> {{нп|Антимішень|антимішеней||Antitarget}} та [[Токсичність|токсичних впливів]] хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.<ref name="TOX21" /><ref name="TOX21Data" /><ref name=":11" />

''AtomNet''&nbsp;— це система глибокого навчання для [[Раціональне конструювання ліків|раціонального конструювання ліків]] на основі структури.<ref>{{cite arXiv|title = AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery|eprint= 1510.02855|date = 9 October 2015|first1 = Izhar|last1 = Wallach|first2 = Michael|last2 = Dzamba|first3 = Abraham|last3 = Heifets|class= cs.LG|language=en}}</ref> ''AtomNet'' використовували для передбачування новітніх біомолекул-кандидатів для мішеней таких захворювань як [[вірус Ебола]]<ref name="Toronto">{{Cite news |title = Toronto startup has a faster way to discover effective medicines |url = https://www.theglobeandmail.com/report-on-business/small-business/starting-out/toronto-startup-has-a-faster-way-to-discover-effective-medicines/article25660419/ |website = [[The Globe and Mail]] |access-date = 9 November 2015 |archive-date = 20 October 2015 |archive-url = https://web.archive.org/web/20151020040115/http://www.theglobeandmail.com/report-on-business/small-business/starting-out/toronto-startup-has-a-faster-way-to-discover-effective-medicines/article25660419/ |url-status = live|language = en }}</ref> та [[розсіяний склероз]].<ref>{{Cite web|title = Startup Harnesses Supercomputers to Seek Cures|url = http://ww2.kqed.org/futureofyou/2015/05/27/startup-harnesses-supercomputers-to-seek-cures/|website = KQED Future of You| date=27 May 2015 |access-date = 9 November 2015|archive-date = 24 December 2015|archive-url = https://web.archive.org/web/20151224104721/http://ww2.kqed.org/futureofyou/2015/05/27/startup-harnesses-supercomputers-to-seek-cures/|url-status = live|language = en}}</ref><ref name="Toronto" />

2017 року {{нп|Графова нейронна мережа|графові нейронні мережі||Graph neural network}} було вперше використано для передбачування різних властивостей молекул у великому наборі токсикологічних даних.<ref>{{cite arXiv|last1=Gilmer|first1=Justin|last2=Schoenholz|first2=Samuel S.|last3=Riley|first3=Patrick F.|last4=Vinyals|first4=Oriol|last5=Dahl|first5=George E.|date=2017-06-12|title=Neural Message Passing for Quantum Chemistry|class=cs.LG|eprint=1704.01212|language=en}}</ref> 2019 року породжувальні нейронні мережі було використано для створення молекул, які було перевірено експериментально від початку до кінця на мишах.<ref>{{cite journal |last1=Zhavoronkov |first1=Alex|s2cid=201716327|date=2019|title=Deep learning enables rapid identification of potent DDR1 kinase inhibitors |journal=Nature Biotechnology |volume=37|issue=9|pages=1038–1040|doi=10.1038/s41587-019-0224-x |pmid=31477924 |language=en}}</ref><ref>{{cite magazine |last1=Gregory |first1=Barber |title=A Molecule Designed By AI Exhibits 'Druglike' Qualities |url=https://www.wired.com/story/molecule-designed-ai-exhibits-druglike-qualities/ |magazine=Wired |access-date=2019-09-05 |archive-date=2020-04-30 |archive-url=https://web.archive.org/web/20200430143244/https://www.wired.com/story/molecule-designed-ai-exhibits-druglike-qualities/ |url-status=live |language=en }}</ref>


=== Управління відносинами з клієнтами ===
=== Управління відносинами з клієнтами ===
{{Main|Управління відносинами з клієнтами}}
Нещодавно було повідомлено про успіх застосування глибинного навчання з підкріпленням в середовищі [[Прямий маркетинг|прямого маркетингу]], що ілюструє придатність цього методу для автоматизації [[Управління відносинами з клієнтами|''CRM'']] (управління відносинами з клієнтами, {{lang-en|customer relationship management}}). Нейронна мережа використовувалася для наближення цінності можливих дій прямого маркетингу над простором станів клієнтів, визначеного в термінах змінних ''[[RFM]]'' (свіжість-частота-грошова цінність, {{lang-en|recency-frequency-monetary value}}). Було показано, що функція оціненого значення має природну інтерпретацію як [[пожиттєва цінність клієнта]] ({{lang-en|customer lifetime value, CLV}}).<ref>Tkachenko, Yegor. Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space. (April 8, 2015). arXiv.org: http://arxiv.org/abs/1504.01840 {{Webarchive|url=https://web.archive.org/web/20160826063725/http://arxiv.org/abs/1504.01840 |date=26 серпня 2016 }} {{ref-en}}</ref>

{{нп|Глибоке навчання з підкріпленням|||Deep reinforcement learning}} використовували для наближування цінності можливих дій [[Прямий маркетинг|прямого маркетингу]], визначених у термінах змінних ''[[RFM]]''. Було показано, що ця функція оцінки цінності має природну інтерпретацію як [[пожиттєва цінність клієнта]].<ref>{{cite arXiv|last=Tkachenko |first=Yegor |title=Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space |date=8 April 2015 |eprint=1504.01840|class=cs.LG|language=en }}</ref>


=== Рекомендаційні системи ===
=== Рекомендаційні системи ===
{{Main|Рекомендаційна система}}
[[Рекомендаційна система|Рекомендаційні системи]] використовували глибинне навчання для виділяння значущих глибинних ознак для моделі латентних факторів для рекомендування музики на основі вмісту.<ref>Van den Oord, Aaron, Sander Dieleman, and Benjamin Schrauwen. «Deep content-based music recommendation.» Advances in Neural Information Processing Systems. 2013. {{ref-en}}</ref> Нещодавно було представлено загальніший підхід для навчання уподобань користувача з кількох областей із застосуванням багатовиглядового глибинного навчання ({{lang-en|mulitview deep learning}}).<ref>Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. «A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems.» Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015. {{ref-en}}</ref> Ця модель застосовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в багатьох задачах.

Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.<ref>{{Cite book|url=http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|title=Advances in Neural Information Processing Systems 26|last1=van den Oord|first1=Aaron|last2=Dieleman|first2=Sander|last3=Schrauwen|first3=Benjamin|date=2013|publisher=Curran Associates, Inc.|editor-last=Burges|editor-first=C. J. C.|pages=2643–2651|editor-last2=Bottou|editor-first2=L.|editor-last3=Welling|editor-first3=M.|editor-last4=Ghahramani|editor-first4=Z.|editor-last5=Weinberger|editor-first5=K. Q.|access-date=2017-06-14|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516185259/http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|url-status=live|language=en}}</ref><ref>{{cite journal | last1 = Feng | first1 = X.Y. | last2 = Zhang | first2 = H. | last3 = Ren | first3 = Y.J. | last4 = Shang | first4 = P.H. | last5 = Zhu | first5 = Y. | last6 = Liang | first6 = Y.C. | last7 = Guan | first7 = R.C. | last8 = Xu | first8 = D. | year = 2019 | title = The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study | journal = {{нп|Journal of Medical Internet Research}} | volume = 21 | issue = 5| page = e12957 | doi = 10.2196/12957 | pmid = 31127715 | pmc = 6555124 | language = en }}</ref> Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання ({{lang-en|multi-view deep learning}}).<ref>{{Cite journal|last1=Elkahky|first1=Ali Mamdouh|last2=Song|first2=Yang|last3=He|first3=Xiaodong|date=1 May 2015|title=A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems|url=https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|journal=Microsoft Research|access-date=14 June 2017|archive-date=25 January 2018|archive-url=https://web.archive.org/web/20180125134534/https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|url-status=live|language=en}}</ref> Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.


=== Біоінформатика ===
=== Біоінформатика ===
{{Main|Біоінформатика}}
Нещодавно підхід глибинного навчання на основі [[Автокодувальник|автокодувальної]] [[Штучна нейронна мережа|штучної нейронної мережі]] було застосовано в контексті [[Біоінформатика|біоінформатики]] для передбачення анотацій [[Онтологія гена|онтології гена]] та співвідношень ген-функція.<ref>[http://dl.acm.org/citation.cfm?id=2649442 Davide Chicco, Peter Sadowski, and Pierre Baldi, «Deep autoencoder neural networks for gene ontology annotation predictions». Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics. ACM, 2014.] {{Webarchive|url=https://web.archive.org/web/20210509123140/https://dl.acm.org/doi/10.1145/2649387.2649442 |date=9 травня 2021 }} {{ref-en}}</ref>

[[Автокодувальник|Автокодувальну]] ШНМ використовували в [[Біоінформатика|біоінформатиці]] для передбачування анотацій [[Онтологія гена|генної онтології]] та зв'язків між генами й функціями.<ref>{{cite book|title=Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions|first1=Davide|last1=Chicco|first2=Peter|last2=Sadowski|first3=Pierre|last3=Baldi|s2cid=207217210|date=1 January 2014|publisher=ACM|pages=533–540|doi=10.1145/2649387.2649442|journal=Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14|isbn=9781450328944|hdl=11311/964622|url=http://dl.acm.org/citation.cfm?id=2649442|access-date=23 November 2015|archive-date=9 May 2021|archive-url=https://web.archive.org/web/20210509123140/https://dl.acm.org/doi/10.1145/2649387.2649442|url-status=live|language=en}}</ref>

У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв<ref>{{Cite journal|last=Sathyanarayana|first=Aarti|s2cid=3821594|date=1 January 2016|title=Sleep Quality Prediction From Wearable Data Using Deep Learning|journal=JMIR mHealth and uHealth|volume=4|issue=4|doi=10.2196/mhealth.6562|pmid=27815231|pmc=5116102|pages=e125|language=en}}</ref> та для передбачування ускладнень здоров'я з даних [[Електронний медичний запис|електронних медичних записів]].<ref>{{Cite journal|last1=Choi|first1=Edward|last2=Schuetz|first2=Andy|last3=Stewart|first3=Walter F.|last4=Sun|first4=Jimeng|date=13 August 2016|title=Using recurrent neural network models for early detection of heart failure onset|journal=Journal of the American Medical Informatics Association|volume=24|issue=2|pages=361–370|doi=10.1093/jamia/ocw112|issn=1067-5027|pmid=27521897|pmc=5391725|language=en}}</ref>

=== Аналіз медичних зображень ===

Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявлення уражень, сегментування органів та покращування зображень.<ref>{{Cite journal|last1=Litjens|first1=Geert|last2=Kooi|first2=Thijs|last3=Bejnordi|first3=Babak Ehteshami|last4=Setio|first4=Arnaud Arindra Adiyoso|last5=Ciompi|first5=Francesco|last6=Ghafoorian|first6=Mohsen|last7=van der Laak|first7=Jeroen A.W.M.|last8=van Ginneken|first8=Bram|last9=Sánchez|first9=Clara I.|s2cid=2088679|date=December 2017|title=A survey on deep learning in medical image analysis|journal=Medical Image Analysis|volume=42|pages=60–88|doi=10.1016/j.media.2017.07.005|pmid=28778026|arxiv=1702.05747|bibcode=2017arXiv170205747L|language=en}}</ref><ref>{{Cite book|doi=10.1109/ICCVW.2017.18|isbn=9781538610343|chapter=Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy|title=2017 IEEE International Conference on Computer Vision Workshops (ICCVW)|pages=82–89|year=2017|last1=Forslid|first1=Gustav|last2=Wieslander|first2=Hakan|last3=Bengtsson|first3=Ewert|last4=Wahlby|first4=Carolina|last5=Hirsch|first5=Jan-Michael|last6=Stark|first6=Christina Runow|last7=Sadanandan|first7=Sajith Kecheril|s2cid=4728736|chapter-url=http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-326160|access-date=2019-11-12|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123157/https://d1bxh8uas1mnw7.cloudfront.net/assets/embed.js|url-status=live|language=en}}</ref> Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.<ref>{{Cite journal |last1=Dong |first1=Xin |last2=Zhou |first2=Yizhao |last3=Wang |first3=Lantian |last4=Peng |first4=Jingfeng |last5=Lou |first5=Yanbo |last6=Fan |first6=Yiqun |date=2020 |title=Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework |url=https://ieeexplore.ieee.org/document/9130662 |journal=IEEE Access |volume=8 |pages=129889–129898 |doi=10.1109/ACCESS.2020.3006362 |s2cid=220733699 |issn=2169-3536 |language=en}}</ref><ref>{{Cite journal |last1=Lyakhov |first1=Pavel Alekseevich |last2=Lyakhova |first2=Ulyana Alekseevna |last3=Nagornov |first3=Nikolay Nikolaevich |date=2022-04-03 |title=System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network |journal=Cancers |language=en |volume=14 |issue=7 |pages=1819 |doi=10.3390/cancers14071819 |pmid=35406591 |pmc=8997449 |issn=2072-6694|doi-access=free }}</ref>


=== Мобільна реклама ===
== Теорії людського мозку ==
Обчислювальне глибинне навчання тісно пов'язане з класом теорій {{нп|Розвиток мозку|розвитку мозку||Brain development}} (особливо розвитку [[Нова кора|нової кори]]), запропонованих [[Когнітивна нейробіологія|когнітивними нейробіологами]] на початку 1990-х років.<ref name="UTGOFF">{{cite journal | last1 = Utgoff | first1 = P. E. | last2 = Stracuzzi | first2 = D. J. | year = 2002 | title = Many-layered learning | url = | journal = Neural Computation | volume = 14 | issue = | pages = 2497–2529 | doi=10.1162/08997660260293319}} {{ref-en}}</ref> Доступним зведенням цієї праці є книга 1996 року Ельмана та ін. {{H:title|«Переосмислення вродженості»|«Rethinking Innateness»}}<ref name="ELMAN">J. Elman et al., "Rethinking Innateness, " 1996. {{ref-en}}</ref> (див. також Шрагера та Джонсона,<ref name="SHRAGER">{{cite journal | last1 = Shrager | first1 = J. | last2 = Johnson | first2 = MH | year = 1996 | title = Dynamic plasticity influences the emergence of function in a simple cortical array | url =https://archive.org/details/sim_neural-networks_1996-10_9_7/page/1119| journal = Neural Networks | volume = 9 | issue = 7| pages = 1119–1129 | doi=10.1016/0893-6080(96)00033-0}} {{ref-en}}</ref> Кварца та Сейновського<ref name="QUARTZ">{{cite journal | last1 = Quartz | first1 = SR | last2 = Sejnowski | first2 = TJ | year = 1997 | title = The neural basis of cognitive development: A constructivist manifesto | url = | journal = Behavioral and Brain Sciences | volume = 20 | issue = 4| pages = 537–556 | doi=10.1017/s0140525x97001581}} {{ref-en}}</ref>). Оскільки ці теорії розвитку також ілюструвалися обчислювальними моделями, вони є технічними попередниками чисто обчислювально обґрунтованих моделей глибинного навчання. Ці розвиткові моделі мають таку цікаву спільну властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля [[Чинник росту нервів|чинника росту нервів]]) ніби влаштовують змову слугувати доказом способу [[Самоорганізація|самоорганізації]] якогось виду споріднених з ними штучних нейронних мереж, які знайшли застосування пізніше, чисто обчислювальних моделей глибинного навчання; і такі обчислювальні нейронні мережі здаються аналогічними поглядові на нову кору мозку як на ієрархію фільтрів, у якій кожен шар схоплює частину інформації робочого середовища, а потім передає залишок, як і видозмінений основний сигнал, іншим шарам далі вище за ієрархією. Цей процес породжує самоорганізовувану стопку [[Вимірювальний перетворювач|вимірювальних перетворювачів]], добре підлаштованих до їхнього робочого середовища. Як описано в [[Нью-Йорк Таймс]] 1995 року, «… мозок немовляти, здається, самоорганізовує себе під впливом хвиль так званих [[Фактори росту|чинників росту]] … різні області мозку стають з'єднаними послідовно, з дозріванням одного шару тканини перед іншим, і так далі, поки не стане дозрілим увесь мозок.»<ref name="BLAKESLEE">S. Blakeslee., "In brain's early growth, timetable may be critical, " ''The New York Times, Science Section'', pp. B5–B6, 1995. {{ref-en}}</ref>


Знайти відповідну мобільну аудиторію для [[Мобільна реклама|мобільної реклами]] завжди складно, оскільки необхідно розглянути та проаналізувати багато точок даних, перш ніж стане можливо створити цільовий сегмент і використати його для розміщення реклами на будь-якому рекламному сервері.<ref>{{cite book |doi=10.1109/CSCITA.2017.8066548 |isbn=978-1-5090-4381-1|chapter=Predicting the popularity of instagram posts for a lifestyle magazine using deep learning|title=2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA)|pages=174–177|year=2017|last1=De|first1=Shaunak|last2=Maity|first2=Abhishek|last3=Goel|first3=Vritti|last4=Shitole|first4=Sanjay|last5=Bhattacharya|first5=Avik|s2cid=35350962|language=en}}</ref> Глибоке навчання використовували для інтерпретування великих, багатовимірних наборів рекламних даних. Під час циклу інтернет-реклами запит/подача/натискання збирають багато точок даних. Ця інформація може ставати основою машинного навчання для покращення обирання оголошень.
Важливість глибинного навчання по відношенню до еволюції та розвитку людського [[пізнання]] не вислизнула від уваги цих дослідників. Одним із аспектів людського розвитку, що відрізняє нас від наших найближчих сусідів-приматів, можуть бути зміни в хронометражі розвитку.<ref name="BUFILL">{BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity, " ''American Journal of Human Biology'', 23 (6), pp. 729—739, 2011. {{ref-en}}</ref> Серед [[примат]]ів людський мозок залишається відносно пластичним аж до пізнього післяпологового періоду, в той час як мізки наших найближчих родичів є повніше сформованими за народження. Таким чином, люди мають ширший доступ до складних переживань, уможливлених знаходженням назовні в світі під час найформувальнішого періоду розвитку мозку. Це може дозволяти нам «налаштовуватися» на швидко змінювані ознаки середовища, які інші тварини, більш обмежені еволюційним структуруванням їхніх мізків, враховувати не в змозі. В тій мірі, в якій ці зміни відображаються в змінах подібних етапів хронометражу гіпотетичної хвилі розвитку пізнання, вони можуть призводити і до змін у виділянні інформації з простору збудників під час ранньої самоорганізації мозку. Звісно, разом із цією гнучкістю йде й подовжений період незрілості, протягом якого ми залежимо від наших опікунів та нашої спільноти як у плані підтримки, так і в плані навчання. Тому теорія глибинного навчання розглядає співеволюцію [[Культура|культури]] та [[пізнання]] як фундаментальну умову еволюції людини.<ref name="SHRAGER2">J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach, " ''In B. Julesz and I. Kovacs (Eds.), Maturational windows and adult cortical plasticity'', 1995. {{ref-en}}</ref>

=== Відновлювання зображень ===

Глибоке навчання було успішно застосовано до {{нп|Обернена задача|обернених задач||Inverse problem}}, таких як [[знешумлювання]], {{нп|надвисока роздільність|||Super-resolution}}, {{нп|заповнювання прогалин|||Inpainting}} та [[Кольоризація|кольоризування фільмів]].<ref>{{Cite web|url=https://blog.floydhub.com/colorizing-and-restoring-old-images-with-deep-learning/|title=Colorizing and Restoring Old Images with Deep Learning|date=13 November 2018|website=FloydHub Blog|language=en|access-date=11 October 2019|archive-date=11 October 2019|archive-url=https://web.archive.org/web/20191011162814/https://blog.floydhub.com/colorizing-and-restoring-old-images-with-deep-learning/|url-status=live|language=en}}</ref> До цих застосувань входять такі методи навчання як «''Shrinkage Fields for Effective Image Restoration''»,<ref>{{cite conference |url= http://research.uweschmidt.org/pubs/cvpr14schmidt.pdf |first1= Uwe |last1= Schmidt |first2= Stefan |last2= Roth |conference= Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on |title= Shrinkage Fields for Effective Image Restoration |access-date= 2018-01-01 |archive-date= 2018-01-02 |archive-url= https://web.archive.org/web/20180102013217/http://research.uweschmidt.org/pubs/cvpr14schmidt.pdf |url-status= live |language= en }}</ref> який тренується на наборі зображень, та {{нп|глибоке апріорне зображень|||Deep Image Prior}} ({{lang-en|Deep Image Prior}}), що тренується на зображенні, якому потрібне відновлення.

=== Виявляння фінансового шахрайства ===

Глибоке навчання успішно застосовують для [[Виявляння шахрайства|виявляння фінансового шахрайства]], ухилення від сплати податків<ref>{{cite journal
|first1=Christos |last1=Kleanthous
|first2=Sotirios |last2=Chatzis
|title=Gated Mixture Variational Autoencoders for Value Added Tax audit case selection
|journal=Knowledge-Based Systems
|volume=188
|year=2020
|page=105048
|doi=10.1016/j.knosys.2019.105048
|s2cid=204092079
|language=en
}}</ref> та боротьби з відмиванням грошей.<ref>{{cite journal
|first=Tomasz
|last=Czech
|title=Deep learning: the next frontier for money laundering detection
|url=https://www.globalbankingandfinance.com/deep-learning-the-next-frontier-for-money-laundering-detection/
|journal=Global Banking and Finance Review
|date=28 June 2018
|access-date=2018-07-15
|archive-date=2018-11-16
|archive-url=https://web.archive.org/web/20181116082711/https://www.globalbankingandfinance.com/deep-learning-the-next-frontier-for-money-laundering-detection/
|url-status=live
|language=en
}}</ref>

=== Військові ===

Міністерство оборони Сполучених Штатів застосовувало глибоке навчання, щоб тренувати роботів виконувати нові завдання через спостереження.<ref name=":12">{{Cite web|url=https://www.eurekalert.org/pub_releases/2018-02/uarl-ard020218.php|title=Army researchers develop new algorithms to train robots|website=EurekAlert!|access-date=29 August 2018|archive-date=28 August 2018|archive-url=https://web.archive.org/web/20180828035608/https://www.eurekalert.org/pub_releases/2018-02/uarl-ard020218.php|url-status=live|language=en}}</ref>

=== Диференціальні рівняння з частинними похідними ===

Фізичні нейронні мережі ({{lang-en|physics informed neural networks}}) використовували для розв'язування [[Диференціальне рівняння з частинними похідними|диференціальних рівнянь із частинними похідними]] як у прямих, так і в обернених задачах на основі даних.<ref>{{Cite journal|last1=Raissi|first1=M.|last2=Perdikaris|first2=P.|last3=Karniadakis|first3=G. E.|date=2019-02-01|title=Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations|url=https://www.sciencedirect.com/science/article/pii/S0021999118307125|journal=Journal of Computational Physics|language=en|volume=378|pages=686–707|doi=10.1016/j.jcp.2018.10.045|bibcode=2019JCoPh.378..686R|osti=1595805|s2cid=57379996|issn=0021-9991}}</ref> Одним із прикладів є відбудова потоку рідини, керована [[Рівняння Нав'є — Стокса|рівняннями Нав'є&nbsp;— Стокса]]. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи [[Обчислювальна гідродинаміка|обчислювальної гідродинаміки]].<ref>{{Cite journal|last1=Mao|first1=Zhiping|last2=Jagtap|first2=Ameya D.|last3=Karniadakis|first3=George Em|date=2020-03-01|title=Physics-informed neural networks for high-speed flows|url=https://www.sciencedirect.com/science/article/pii/S0045782519306814|journal=Computer Methods in Applied Mechanics and Engineering|language=en|volume=360|pages=112789|doi=10.1016/j.cma.2019.112789|bibcode=2020CMAME.360k2789M|s2cid=212755458|issn=0045-7825}}</ref><ref>{{Cite journal|last1=Raissi|first1=Maziar|last2=Yazdani|first2=Alireza|last3=Karniadakis|first3=George Em|date=2020-02-28|title=Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations|journal=Science|volume=367|issue=6481|pages=1026–1030|doi=10.1126/science.aaw4741|pmc=7219083|pmid=32001523|bibcode=2020Sci...367.1026R|language=en}}</ref>

=== Відбудова зображень ===

Відбудова зображень ({{lang-en|image reconstruction}})&nbsp;— це відбудова зображень, що лежать в основі пов'язаних із зображеннями вимірювань. Декілька праць показали кращу та відмінну продуктивність методів глибокого навчання порівняно з аналітичними методами для різних застосувань, наприклад, спектральних<ref>{{Cite journal |last1=Oktem |first1=Figen S. |last2=Kar |first2=Oğuzhan Fatih |last3=Bezek |first3=Can Deniz |last4=Kamalabadi |first4=Farzad |date=2021 |title=High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction |url=https://ieeexplore.ieee.org/document/9415140 |journal=IEEE Transactions on Computational Imaging |volume=7 |pages=489–504 |doi=10.1109/TCI.2021.3075349 |arxiv=2008.11625 |s2cid=235340737 |issn=2333-9403 |language=en}}</ref> та ультразвукових зображень.<ref>{{Cite journal |last1=Bernhardt |first1=Melanie |last2=Vishnevskiy |first2=Valery |last3=Rau |first3=Richard |last4=Goksel |first4=Orcun |date=December 2020 |title=Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction |url=https://ieeexplore.ieee.org/document/9144249 |journal=IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control |volume=67 |issue=12 |pages=2584–2594 |doi=10.1109/TUFFC.2020.3010186 |pmid=32746211 |arxiv=2006.14395 |s2cid=220055785 |issn=1525-8955 |language=en}}</ref>

=== Епігенетичний годинник ===
{{Main|{{нп|Епігенетичний годинник|||Epigenetic clock}}}}

Епігенетичний годинник ({{lang-en|epigenetic clock}})&nbsp;— це [[Біомаркери старіння|біохімічний тест]], який можливо використовувати для вимірювання віку. Галкін зі співавт. використали глибокі нейронні мережі, щоби натренувати епігенетичний годинник старіння з безпрецедентною точністю, використавши понад 6000 зразків крові.<ref>{{cite journal | last1 = Galkin | first1 = F. | last2 = Mamoshina | first2 = P. | last3 = Kochetov | first3 = K. | last4 = Sidorenko | first4 = D. | last5 = Zhavoronkov | first5 = A. | year = 2020 | title = DeepMAge: A Methylation Aging Clock Developed with Deep Learning | journal = Aging and Disease | doi = 10.14336/AD | doi-access = free | language = en }}</ref> Цей годинник використовує інформацію з 1000 [[CpG-острівці|''CpG''-острівців]] і передбачує людей з певними станами старше здорових контрольних груп: {{нп|Запальні захворювання кишківника|ЗЗК||Inflammatory bowel disease}}, [[Лобово-скронева деменція|лобово-скроневою деменцією]], [[Рак яєчника|раком яєчника]], [[ожиріння]]м. Цей годинник старіння планувала випустити для загального використання в 2021 року дочірня компанія компанії ''{{нп|Insilico Medicine}}'', ''Deep Longevity''.

== Відношення до когнітивного розвитку людини та розвитку мозку ==

Глибоке навчання тісно пов'язане з класом теорій {{нп|Розвиток мозку|розвитку мозку||Brain development}} (особливо [[Нова кора|нової кори]]), запропонованих [[Когнітивна нейробіологія|когнітивними нейробіологами]] на початку 1990-х років.<ref name="UTGOFF">{{cite journal | last1 = Utgoff | first1 = P. E. | last2 = Stracuzzi | first2 = D. J. | s2cid = 1119517 | year = 2002 | title = Many-layered learning | journal = Neural Computation | volume = 14 | issue = 10| pages = 2497–2529 | doi=10.1162/08997660260293319| pmid = 12396572| language = en }}</ref><ref name="ELMAN">{{cite book|url={{google books |plainurl=y |id=vELaRu_MrwoC}}|title=Rethinking Innateness: A Connectionist Perspective on Development|last=Elman|first=Jeffrey L.|publisher=MIT Press|year=1998|isbn=978-0-262-55030-7|language=en}}</ref><ref name="SHRAGER">{{cite journal | last1 = Shrager | first1 = J. | last2 = Johnson | first2 = MH | year = 1996 | title = Dynamic plasticity influences the emergence of function in a simple cortical array | journal = Neural Networks | volume = 9 | issue = 7| pages = 1119–1129 | doi=10.1016/0893-6080(96)00033-0| pmid = 12662587| language = en }}</ref><ref name="QUARTZ">{{cite journal | last1 = Quartz | first1 = SR | last2 = Sejnowski | first2 = TJ | year = 1997 | title = The neural basis of cognitive development: A constructivist manifesto | journal = Behavioral and Brain Sciences | volume = 20 | issue = 4| pages = 537–556 | doi=10.1017/s0140525x97001581| pmid = 10097006 | citeseerx = 10.1.1.41.7854 | s2cid = 5818342 | language = en }}</ref> Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля [[Чинник росту нервів|чинника росту нервів]]) підтримують [[Самоорганізація|самоорганізацію,]] дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і [[нова кора]], нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос [[Вимірювальний перетворювач|вимірювальних перетворювачів]], добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих [[Фактори росту|чинників росту]]… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».<ref name="BLAKESLEE">S. Blakeslee., "In brain's early growth, timetable may be critical," ''The New York Times, Science Section'', pp. B5–B6, 1995. {{ref-en}}</ref>

Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму [[Зворотне поширення|зворотного поширення]] з метою підвищення реалістичності його обробки.<ref>{{Cite journal|last1=Mazzoni|first1=P.|last2=Andersen|first2=R. A.|last3=Jordan|first3=M. I.|date=15 May 1991|title=A more biologically plausible learning rule for neural networks.|journal=Proceedings of the National Academy of Sciences|volume=88|issue=10|pages=4433–4437|doi=10.1073/pnas.88.10.4433|issn=0027-8424|pmid=1903542|pmc=51674|bibcode=1991PNAS...88.4433M|doi-access=free|language=en}}</ref><ref>{{Cite journal|last=O'Reilly|first=Randall C.|s2cid=2376781|date=1 July 1996|title=Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm|journal=Neural Computation|volume=8|issue=5|pages=895–938|doi=10.1162/neco.1996.8.5.895|issn=0899-7667|language=en}}</ref> Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних [[Породжувальна модель|породжувальних моделях]] та [[Глибока мережа переконань|глибоких мережах переконань]].<ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Zorzi|first2=Marco|s2cid=9868901|date=2016|title=Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions|journal=Frontiers in Computational Neuroscience|volume=10|pages=73|doi=10.3389/fncom.2016.00073|pmid=27468262|pmc=4943066|issn=1662-5188|doi-access=free|language=en}}</ref><ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Stoianov|first2=Ivilin|last3=Zorzi|first3=Marco|s2cid=24504018|date=September 2017|title=Letter perception emerges from unsupervised deep learning and recycling of natural image features|journal=Nature Human Behaviour|volume=1|issue=9|pages=657–664|doi=10.1038/s41562-017-0186-2|pmid=31024135|issn=2397-3374|language=en}}</ref> У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.<ref>{{Cite journal|last1=Buesing|first1=Lars|last2=Bill|first2=Johannes|last3=Nessler|first3=Bernhard|last4=Maass|first4=Wolfgang|s2cid=7504633|date=3 November 2011|title=Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons|journal=PLOS Computational Biology|volume=7|issue=11|pages=e1002211|doi=10.1371/journal.pcbi.1002211|pmid=22096452|pmc=3207943|issn=1553-7358|bibcode=2011PLSCB...7E2211B|language=en}}</ref>

Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів<ref>{{Cite journal|last1=Cash|first1=S.|last2=Yuste|first2=R.|date=February 1999|title=Linear summation of excitatory inputs by CA1 pyramidal neurons|journal=Neuron|volume=22|issue=2|pages=383–394|issn=0896-6273|pmid=10069343|doi=10.1016/s0896-6273(00)81098-3|s2cid=14663106|language=en}}</ref> і нейронних популяцій.<ref>{{Cite journal|date=1 August 2004|title=Sparse coding of sensory inputs|journal=Current Opinion in Neurobiology|volume=14|issue=4|pages=481–487|doi=10.1016/j.conb.2004.07.007|pmid=15321069|issn=0959-4388 | last1 = Olshausen | first1 = B | last2 = Field | first2 = D|s2cid=16560320|language=en}}</ref> Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі [[Примати|приматів]]<ref>{{Cite journal|last1=Yamins|first1=Daniel L K|last2=DiCarlo|first2=James J|s2cid=16970545|date=March 2016|title=Using goal-driven deep learning models to understand sensory cortex|journal=Nature Neuroscience|volume=19|issue=3|pages=356–365|doi=10.1038/nn.4244|pmid=26906502|issn=1546-1726|language=en}}</ref> як на рівні окремого вузла<ref>{{Cite journal|last1=Zorzi|first1=Marco|last2=Testolin|first2=Alberto|s2cid=39281431|date=19 February 2018|title=An emergentist perspective on the origin of number sense|journal=Phil. Trans. R. Soc. B|volume=373|issue=1740|pages=20170043|doi=10.1098/rstb.2017.0043|issn=0962-8436|pmid=29292348|pmc=5784047|language=en}}</ref>, так і на рівні популяції.<ref>{{Cite journal|last1=Güçlü|first1=Umut|last2=van Gerven|first2=Marcel A. J.|date=8 July 2015|title=Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream|journal=Journal of Neuroscience|volume=35|issue=27|pages=10005–10014|doi=10.1523/jneurosci.5023-14.2015|pmid=26157000|pmc=6605414|arxiv=1411.6422|language=en}}</ref>


== Комерційна діяльність ==
== Комерційна діяльність ==
Глибинне навчання часто представляють як крок назустріч реалізації [[Сильний штучний інтелект|сильного штучного інтелекту]],<ref name="HERN2013">D. Hernandez., "The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI, " ''http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/ {{Webarchive|url=https://web.archive.org/web/20140329215752/http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all |date=29 березня 2014 }}. Wired'', 10 May 2013. {{ref-en}}</ref> і відтак багато організацій стали зацікавленими в його практичному застосуванні. В грудні 2013 року компанія [[Facebook]] найняла [[Ян ЛеКун|Яна ЛеКуна]], щоби він очолив її нову лабораторію [[Штучний інтелект|штучного інтелекту]] (ШІ, {{lang-en|artificial intelligence, AI}}), яка мала діяти в Каліфорнії, Лондоні та Нью-Йорку. Лабораторія ШІ розроблятиме методики глибинного навчання, щоби допомогти Facebook виконувати такі задачі як {{нп|Автоматичне анотування зображень|автоматичне мічення завантажених зображень||Automatic image annotation}} іменами людей на них.<ref name="METZ2013">C. Metz., "Facebook's 'Deep Learning' Guru Reveals the Future of AI, " ''http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ {{Webarchive|url=https://web.archive.org/web/20140328071226/http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |date=28 березня 2014 }}. Wired'', 12 December 2013. {{ref-en}}</ref> Наприкінці 2014 року Facebook також найняла [[Вапник Володимир Наумович|Володимира Вапника]], головного розробника теорії статистичного навчання [[Теорія Вапника — Червоненкіса|Вапника&nbsp;— Червоненкіса]] та співавтора [[Метод опорних векторів|методу опорних векторів]].<ref name="Vapnik2014">V. Vapnik., [https://research.facebook.com/researchers/1566384816909948/vladimir-vapnik/ «research.facebook.com»] {{Webarchive|url=https://web.archive.org/web/20150723025555/https://research.facebook.com/researchers/1566384816909948/vladimir-vapnik/ |date=23 липня 2015 }}. {{ref-en}}</ref>


Лабораторія ШІ ''[[Facebook]]'' виконує такі завдання як {{нп|Автоматичне анотування зображень|автоматичне мічення завантажених зображень||Automatic image annotation}} іменами людей на них.<ref name="METZ2013">{{cite magazine |first=C. |last=Metz |title=Facebook's 'Deep Learning' Guru Reveals the Future of AI |url=https://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |magazine=Wired |date=12 December 2013 |access-date=26 August 2017 |archive-date=28 March 2014 |archive-url=https://web.archive.org/web/20140328071226/http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |url-status=live |language=en }}</ref>
В березні 2013 року компанія [[Google]] найняла [[Джефрі Хінтон]]а та двох його аспірантів, {{H:title|Alex Krizhevsky|Алекса Крижевського}} та {{H:title|Ilya Sutskever|Іллю Суцкевера}}. Їхня праця мала зосереджуватися на вдосконаленні наявних продуктів машинного навчання в Google та на допомозі впоратися з наростаючою кількістю даних, що має Google. Google також придбала компанію Хінтона, DNNresearch.


2014 року Google також придбала [[DeepMind Technologies]], британський стартап, що розробив систему, здатну навчатися грати у відеоігри [[Atari]], використовуючи як вхідні дані лише сирі пікселі. 2015 року вони продемонстрували систему [[AlphaGo]], яка успішно виконала один із давніх «великих викликів» ШІ, навчившись грі в [[Ґо (гра)|Ґо]] достатньо добре, щоби бити професійного людського гравця.<ref>{{Cite web|title = Google AI algorithm masters ancient game of Go|url = http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234|website = Nature News & Comment|accessdate = 2016-01-30|archive-date = 2 травня 2019|archive-url = https://web.archive.org/web/20190502200837/http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234}} {{ref-en}}</ref><ref>{{Cite journal|title = Mastering the game of Go with deep neural networks and tree search|url = http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html|journal = Nature|date = 2016-01-28|issn = 0028-0836|pages = 484–489|volume = 529|issue = 7587|doi = 10.1038/nature16961|language = en|first = David|last = Silver|first2 = Aja|last2 = Huang|first3 = Chris J.|last3 = Maddison|first4 = Arthur|last4 = Guez|first5 = Laurent|last5 = Sifre|first6 = George|last6 = van den Driessche|first7 = Julian|last7 = Schrittwieser|first8 = Ioannis|last8 = Antonoglou|first9 = Veda|last9 = Panneershelvam|accessdate = 30 січня 2016|archive-date = 24 вересня 2019|archive-url = https://web.archive.org/web/20190924233603/https://www.nature.com/articles/nature16961}} {{ref-en}}</ref><ref>{{Cite web|title = A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go {{!}} MIT Technology Review|url = http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|website = MIT Technology Review|accessdate = 2016-01-30|archive-date = 1 лютого 2016|archive-url = https://web.archive.org/web/20160201140636/http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/}} {{ref-en}}</ref>
''Google [[DeepMind Technologies]]'' розробила систему, здатну навчитися грати у відеоігри ''[[Atari]]'', використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему ''[[AlphaGo]]'', яка навчилася грі [[Ґо (гра)|Ґо]] настільки добре, що перемогла професійного гравця.<ref>{{Cite journal|title = Google AI algorithm masters ancient game of Go|url = http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234|journal = Nature|year = 2016|doi = 10.1038/529445a|access-date = 30 January 2016|archive-date = 2 May 2019|archive-url = https://web.archive.org/web/20190502200837/http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234|url-status = live|last1 = Gibney|first1 = Elizabeth|volume = 529|issue = 7587|pages = 445–446|pmid = 26819021|bibcode = 2016Natur.529..445G|s2cid = 4460235|language = en}}</ref><ref>{{Cite journal|title = Mastering the game of Go with deep neural networks and tree search|journal = [[Nature]]| issn= 0028-0836|pages = 484–489|volume = 529|issue = 7587|doi = 10.1038/nature16961|pmid = 26819042|first1 = David|last1 = Silver|author-link1=Девід Сілвер (інформатик)|first2 = Aja|last2 = Huang|author-link2=Аджа Хуан|first3 = Chris J.|last3 = Maddison|first4 = Arthur|last4 = Guez|first5 = Laurent|last5 = Sifre|first6 = George van den|last6 = Driessche|first7 = Julian|last7 = Schrittwieser|first8 = Ioannis|last8 = Antonoglou|first9 = Veda|last9 = Panneershelvam|first10= Marc|last10= Lanctot|first11= Sander|last11= Dieleman|first12=Dominik|last12= Grewe|first13= John|last13= Nham|first14= Nal|last14= Kalchbrenner|first15= Ilya|last15= Sutskever|author-link15=Ілля Суцкевер|first16= Timothy|last16= Lillicrap|first17= Madeleine|last17= Leach|first18= Koray|last18= Kavukcuoglu|first19= Thore|last19= Graepel|first20= Demis |last20=Hassabis|s2cid = 515925|author-link20=Деміс Гассабіс|date= 28 January 2016|bibcode = 2016Natur.529..484S|language = en}}{{closed access}}</ref><ref>{{Cite web|title = A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go {{!}} MIT Technology Review|url = http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|website = MIT Technology Review|access-date = 30 January 2016|archive-date = 1 February 2016|archive-url = https://web.archive.org/web/20160201140636/http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|url-status = dead|language = en}}</ref> [[Перекладач Google|Перекладач ''Google'']] використовує нейронну мережу, щоби перекладати між понад 100 мовами.


2017 року було запущено ''Covariant.ai'', зосереджений на інтегруванні глибокого навчання на заводах.<ref>{{Cite news|url=https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|title=A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up|first=Cade|last=Metz|newspaper=The New York Times|date=6 November 2017|access-date=5 July 2019|archive-date=7 July 2019|archive-url=https://web.archive.org/web/20190707161547/https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|url-status=live|language=en}}</ref>
Також 2014 року Microsoft заснувала Центр технологій глибинного навчання ({{lang-en|The Deep Learning Technology Center}}) у своєму підрозділі [[Microsoft Research|MSR]], накопичуючи фахівців з глибинного навчання для діяльності, зосередженої на застосуваннях.


Станом на 2008 рік<ref>{{Cite book|author1=Bradley Knox, W.|author2=Stone, Peter|title=2008 7th IEEE International Conference on Development and Learning |chapter=TAMER: Training an Agent Manually via Evaluative Reinforcement |year=2008|pages = 292–297|doi=10.1109/devlrn.2008.4640845|isbn = 978-1-4244-2661-4|s2cid = 5613334|language = en}}</ref> дослідники [[Техаський університет в Остіні|Техаського університету в Остіні]] (''UT'') розробили систему машинного навчання під назвою ''Training an Agent Manually via Evaluative Reinforcement'' ({{lang-uk|ручне тренування агента через оцінювальне підкріплення}}), або ''TAMER'', яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.<ref name=":12" /> Спершу розроблений як ''TAMER'', новий алгоритм під назвою ''Deep TAMER'' було пізніше представлено 2018 року під час співпраці між [[Дослідницька лабораторія Армії США|Дослідницькою лабораторією армії США]] (''ARL'') та дослідниками ''UT''. ''Deep TAMER'' використовував глибоке навчання, щоби надати роботу здатності навчатися нових завдань шляхом спостерігання.<ref name=":12" /> Використовуючи ''Deep TAMER'', робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».<ref>{{Cite web|url=https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|title=Talk to the Algorithms: AI Becomes a Faster Learner|website=governmentciomedia.com|date=16 May 2018 |access-date=29 August 2018|archive-date=28 August 2018|archive-url=https://web.archive.org/web/20180828001727/https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|url-status=live|language=en}}</ref>
[[Baidu]] найняла [[Ендрю Ин]]а, щоби він очолив її нову дослідницьку лабораторію в [[Кремнієва долина|Кремнієвій долині]], зосереджену на глибинному навчанні.

2015 року {{нп|Blippar}} продемонструвала новий мобільний додаток [[Доповнена реальність|доповненої реальності]], який застосовує глибинне навчання для розпізнавання об'єктів у реальному часі.<ref>{{Cite web|title=Blippar Demonstrates New Real-Time Augmented Reality App|url=http://techcrunch.com/2015/12/08/blippar-demonstrates-new-real-time-augmented-reality-app/|website=TechCrunch|accessdate=3 травня 2016|archive-date=21 квітня 2016|archive-url=https://web.archive.org/web/20160421212648/http://techcrunch.com/2015/12/08/blippar-demonstrates-new-real-time-augmented-reality-app/}} {{ref-en}}</ref>


== Критика та коментарі ==
== Критика та коментарі ==
Враховуючи далекосяжні наслідки штучного інтелекту в поєднанні з усвідомленням того, що глибинне навчання стає однією з його найпотужніших методик, цей предмет зрозуміло притягує як критику, так і коментарі, й у деяких випадках з-поза меж області самої інформатики.


Глибоке навчання притягувало як критику, так і коментарі, у деяких випадках поза межами галузі інформатики.
Основна критика глибинного навчання полягає у відсутності теорії навколо багатьох із його методів. Навчання в найпоширеніших глибинних архітектурах реалізовано із застосуванням [[Градієнтний спуск|градієнтного спуску]]. В той час як найшвидший спуск був зрозумілим протягом якогось часу й раніше, теорія, що оточує інші алгоритми, такі як [[порівняльна розбіжність]], є менш ясною (тобто, Чи він сходиться? Якщо так, то як швидко? Що він наближує?). Методи глибинного навчання часто розглядаються як чорна скринька, при цьому більшість підтверджень здійснюються емпірично, а не теоретично.


=== Теорія ===
Інші вказують на те, що глибинне навчання слід розглядати як крок до реалізації [[Сильний штучний інтелект|сильного штучного інтелекту]], а не як всеохоплювальне рішення. Незважаючи на потужність методів глибинного навчання, їм все ще бракує більшості функціональності, необхідної для повної реалізації цієї мети. Дослідний психолог {{нп|Ґері Маркус|||Gary Marcus}} зазначив, що
{{see also|Поясненний штучний інтелект}}


Основна критика стосується браку теорії навколо деяких методів.<ref>{{Cite web|url=https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|title=In defense of skepticism about deep learning|last=Marcus|first=Gary|date=14 January 2018|website=Gary Marcus|access-date=11 October 2018|archive-date=12 October 2018|archive-url=https://web.archive.org/web/20181012035405/https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|url-status=live|language=en}}</ref> Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як [[порівняльна розбіжність]], не така ясна{{Джерело|дата=липень 2023}} (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на [[Чорна скринька|чорну скриньку]], роблячи більшість підтверджень емпірично, а не теоретично.<ref name="Knight 2017">{{cite web | last=Knight | first=Will | title=DARPA is funding projects that will try to open up AI's black boxes | website=MIT Technology Review | date=14 March 2017 | url=https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | access-date=2 November 2017 | archive-date=4 November 2019 | archive-url=https://web.archive.org/web/20191104033107/https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | url-status=live | language=en }}</ref>
{{Цитата|Правдоподібно, що глибинне навчання є лише частиною масштабнішого завдання побудови розумних машин. Таким методикам бракує способів представлення [[Причинність|причинних зв'язків]] (…) вони не мають очевидних способів здійснення [[Висновок|логічних висновків]], і вони також все ще далекі від поєднання абстрактних знань, таких як інформація про те, чим об'єкти є, для чого вони є, і як вони зазвичай використовуються. Найпотужніші системи ШІ, такі як [[IBM Watson|Watson]] (…) використовують такі методики як глибинне навчання лише як один з елементів у дуже складному ансамблі методик, починаючи зі статистичної методики [[Баєсове висновування|баєсового висновування]], і аж до [[Дедукція|дедуктивного міркування]].<ref name="MARCUS">G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?" ''The New Yorker'', 25 November 2012. {{ref-en}}</ref>

{{oq||Realistically, deep learning is only part of the larger challenge of building intelligent machines. Such techniques lack ways of representing [[Причинність|causal relationships]] (…) have no obvious ways of performing [[Висновок|logical inferences]], and they are also still a long way from integrating abstract knowledge, such as information about what objects are, what they are for, and how they are typically used. The most powerful A.I. systems, like [[IBM Watson|Watson]] (…) use techniques like deep learning as just one element in a very complicated ensemble of techniques, ranging from the statistical technique of [[Баєсове висновування|Bayesian inference]] to [[Дедукція|deductive reasoning]].}}
Інші зазначають, що глибоке навчання слід розглядати як крок до втілення [[Сильний штучний інтелект|сильного ШІ]], а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної для повного втілення цієї мети. Психолог-дослідник {{нп|Ґері Маркус|||Gary Marcus}} зазначив:
}}

<blockquote>«Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання [[Причинність|причинно-наслідкових зв'язків]] (…) вони не мають очевидних способів здійснення [[Висновок|логічних висновків]], і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як [[IBM Watson|''Watson'']] (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик [[Баєсове висновування|баєсового висновування]], і аж до [[Дедукція|дедуктивного міркування]]<nowiki/>».<ref>{{cite magazine|url=https://www.newyorker.com/|title=Is "Deep Learning" a Revolution in Artificial Intelligence?|last=Marcus|first=Gary|date=November 25, 2012|magazine=The New Yorker|access-date=2017-06-14|archive-date=2009-11-27|archive-url=https://web.archive.org/web/20091127184826/http://www.newyorker.com/|url-status=live|language=en}}</ref></blockquote>

Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,<ref>{{cite web |url=http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |author1=Alexander Mordvintsev |author2=Christopher Olah |author3=Mike Tyka |date=17 June 2015 |title=Inceptionism: Going Deeper into Neural Networks |publisher=Google Research Blog |access-date=20 June 2015 |archive-date=3 July 2015 |archive-url=https://web.archive.org/web/20150703064823/http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |url-status=live |language=en }}</ref> демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті [[Ґардіан (газета)|Ґардіан]].<ref>{{cite news|url=https://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|title=Yes, androids do dream of electric sheep|date=18 June 2015|newspaper=The Guardian|author=Alex Hern|access-date=20 June 2015|archive-date=19 June 2015|archive-url=https://web.archive.org/web/20150619200845/http://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|url-status=live|language=en}}</ref>

Хоч глибоке навчання й складається з дюжин і навіть сотень шарів, ця архітектура не видається схожою на структуру мозку. Симуляції на неглибоких мережах, ближчі до динаміки мозку, вказують на подібну продуктивність, як глибоке навчання з меншою складністю.<ref>{{Cite journal |last1=Meir |first1=Yuval |last2=Tevet |first2=Ofek |last3=Tzach |first3=Yarden |last4=Hodassman |first4=Shiri |last5=Gross |first5=Ronit D. |last6=Kanter |first6=Ido |date=2023-04-20 |title=Efficient shallow learning as an alternative to deep learning |journal=Scientific Reports |language=en |volume=13 |issue=1 |pages=5423 |doi=10.1038/s41598-023-32559-8 |pmid=37080998 |pmc=10119101 |arxiv=2211.11106 |bibcode=2023NatSR..13.5423M |issn=2045-2322}}</ref><ref>{{Cite journal |last1=Meir |first1=Yuval |last2=Ben-Noam |first2=Itamar |last3=Tzach |first3=Yarden |last4=Hodassman |first4=Shiri |last5=Kanter |first5=Ido |date=2023-01-30 |title=Learning on tree architectures outperforms a convolutional feedforward network |journal=Scientific Reports |language=en |volume=13 |issue=1 |pages=962 |doi=10.1038/s41598-023-27986-6 |issn=2045-2322 |pmc=9886946 |pmid=36717568|bibcode=2023NatSR..13..962M }}</ref>


=== Помилки ===
В тій мірі, в якій така точка зору ненавмисно припускає, що глибинне навчання в кінцевому підсумку становитиме не щось більше за примітивні описові рівні майбутнього всеосяжного машинного інтелекту, нещодавня пара міркувань стосовно мистецтва та штучного інтелекту<ref>{{cite web|url=http://artent.net/2015/03/27/art-and-artificial-intelligence-by-g-w-smith/|author=Smith, G. W.|date=27 березня 2015|title=Art and Artificial Intelligence|publisher=ArtEnt|accessdate=27 березня 2015|archiveurl=https://web.archive.org/web/20170625075845/http://artent.net/2015/03/27/art-and-artificial-intelligence-by-g-w-smith/|archivedate=червень 25, 2017|deadurl=yes}} {{ref-en}}</ref> пропонує альтернативне та ширше бачення. Перше таке міркування полягає в тім, що може бути можливим натренувати стек машинного бачення для виконання витонченого завдання розрізнювання між картинами «великого майстра» та аматора; а друге&nbsp;— в тім, що така чутливість може фактично представляти рудименти нетривіальної машинної [[Емпатія|емпатії]]. Більше того, висунуто припущення, що така гіпотетична подія відповідатиме антропології, яка визначає питання естетики ключовим елементом [[Великий стрибок уперед|поведінкової сучасності]] (наприклад, у&nbsp;<ref>{{cite web |url=https://www.newscientist.com/article/dn1528-tools-point-to-african-origin-for-human-behaviour/ |author=Knight, Will |date=7 листопада 2001 |title=Tools point to African origin for human behaviour |publisher=New Scientist |accessdate=7 жовтня 2015 |archive-date=10 березня 2016 |archive-url=https://web.archive.org/web/20160310031644/https://www.newscientist.com/article/dn1528-tools-point-to-african-origin-for-human-behaviour/ }} {{ref-en}}</ref>).


Деякі архітектури глибокого навчання демонструють проблематичну поведінку,<ref name="goertzel">{{cite web |first=Ben |last=Goertzel |title=Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? |year=2015 |url=http://goertzel.org/DeepLearning_v1.pdf |access-date=2015-05-10 |archive-date=2015-05-13 |archive-url=https://web.archive.org/web/20150513053107/http://goertzel.org/DeepLearning_v1.pdf |url-status=live |language=en }}</ref> наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)<ref>{{cite arXiv |eprint=1412.1897|last1=Nguyen|first1=Anh|title=Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images|last2=Yosinski|first2=Jason|last3=Clune|first3=Jeff|class=cs.CV|year=2014|language=en}}</ref> та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).<ref>{{cite arXiv |eprint=1312.6199|last1=Szegedy|first1=Christian|title=Intriguing properties of neural networks|last2=Zaremba|first2=Wojciech|last3=Sutskever|first3=Ilya|last4=Bruna|first4=Joan|last5=Erhan|first5=Dumitru|last6=Goodfellow|first6=Ian|last7=Fergus|first7=Rob|class=cs.CV|year=2013|language=en}}</ref> [[Бен Ґьорцель|Ґьорцель]] припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури [[Загальний штучний інтелект|загального штучного інтелекту]] (ЗШІ).<ref name="goertzel" /> Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень<ref>{{cite journal | last1 = Zhu | first1 = S.C. | last2 = Mumford | first2 = D. | year = 2006| title = A stochastic grammar of images | journal = Found. Trends Comput. Graph. Vis. | volume = 2 | issue = 4| pages = 259–362 | doi = 10.1561/0600000018| citeseerx = 10.1.1.681.2190| language = en }}</ref> спостережуваних об'єктів та подій.<ref name="goertzel" /> {{нп|Виведення граматик|Виведення граматики||Grammar induction}} (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи {{нп|Міркування здорового глузду|міркуваннями здорового глузду||Commonsense reasoning}}, які оперують поняттями в термінах граматичних {{нп|Породжувальне правило|породжувальних правил||Production (computer science)}}, і є основною метою як засвоєння мови людиною,<ref>Miller, G. A., and N. Chomsky. «Pattern conception.» Paper for Conference on pattern detection, University of Michigan. 1957. {{ref-en}}</ref> так і [[Штучний інтелект|штучного інтелекту]] (ШІ).<ref>{{cite web |first=Jason |last=Eisner |title=Deep Learning of Recursive Structure: Grammar Induction |url=http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |access-date=2015-05-10 |archive-date=2017-12-30 |archive-url=https://web.archive.org/web/20171230010335/http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |url-status=dead |language=en }}</ref>
Серед подальших відсилань до тієї ідеї, що значна міра художньої чутливості може належати відносно низьким рівням ієрархії пізнання, чи то біологічним, чи то цифровим, схоже, що опублікований ряд графічних представлень внутрішніх станів глибинних (20-30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,<ref>{{cite web|url=http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html|author1=Alexander Mordvintsev|author2=Christopher Olah|author3=Mike Tyka|date=17 червня 2015|title=Inceptionism: Going Deeper into Neural Networks|publisher=Google Research Blog|accessdate=20 червня 2015|archive-date=3 липня 2015|archive-url=https://web.archive.org/web/20150703064823/http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html}} {{ref-en}}</ref> демонструє дивовижну візуальну привабливість, у світлі видатного рівня суспільної уваги, привернутого цією працею; первинне повідомлення про це дослідження отримало набагато більше за тисячу коментарів, а репортаж [[Гардіан]]<ref>{{cite web|url=http://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|author=Alex Hern|date=18 червня 2015|title=Yes, androids do dream of electric sheep|publisher=The Guardian|accessdate=20 червня 2015|archive-date=19 червня 2015|archive-url=https://web.archive.org/web/20150619200845/http://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep}} {{ref-en}}</ref> протягом певного часу був найвідвідуванішою статтею на сайті цієї газети.


=== Кіберзагроза ===
Деякі наразі популярні та успішні архітектури глибинного навчання демонструють певні поведінкові проблеми,<ref name="goertzel">Ben Goertzel. Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? (2015) Url: http://goertzel.org/DeepLearning_v1.pdf {{Webarchive|url=https://web.archive.org/web/20150513053107/http://goertzel.org/DeepLearning_v1.pdf |date=13 травня 2015 }} {{ref-en}}</ref> такі як впевнена класифікація невпізна́нних зображень як належних до знайомої категорії звичайних зображень<ref>Nguyen, Anh, Jason Yosinski, and Jeff Clune. «Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images.» {{arxiv|1412.1897}} (2014). {{ref-en}}</ref> та неправильна класифікація маленьких збурювань правильно класифікованих зображень.<ref>Szegedy, Christian, et al. «Intriguing properties of neural networks.» {{arxiv|1312.6199}} (2013). {{ref-en}}</ref> Творець [[OpenCog]], [[Бен Ґьорцель]], висунув гіпотезу, що таку поведінку спричинено обмеженнями внутрішніх представлень, яких навчаються ці архітектури, і що ці обмеження перешкоджатимуть інтеграції цих архітектур до гетерогенних багатоскладових архітектур [[Сильний штучний інтелект|СШІ]]. Він припустив, що ці питання можна обійти шляхом розробки архітектур глибинного навчання, які формують всередині стани, гомологічні розкладам спостережуваних сутностей та подій граматиками зображень.<ref>{{cite journal | last1 = Zhu | first1 = S.C. | last2 = Mumford | first2 = D. | year = | title = A stochastic grammar of images | url = http://www.stat.ucla.edu/~sczhu/papers/Reprint_Grammar.pdf | journal = Found. Trends Comput. Graph. Vis. | volume = 2 | issue = 4 | pages = 259–362 | doi = 10.1561/0600000018 | accessdate = 7 січня 2016 | archive-date = 4 лютого 2016 | archive-url = https://web.archive.org/web/20160204110132/http://www.stat.ucla.edu/%7Esczhu/papers/Reprint_Grammar.pdf }} {{ref-en}}</ref><ref name="goertzel"/> Навчання [[Граматика|граматики]] (візуальної або мовної) з тренувальних даних буде рівноцінним обмеженню системи {{нп|Міркування на основі здорового глузду|міркуваннями на основі здорового глузду||Commonsense reasoning}}, що оперує поняттями в термінах {{нп|Породження (інформатика)|правил породження||Production (computer science)}} цієї граматики, і є основною метою як опанування людської мови,<ref>Miller, G. A., and N. Chomsky. «Pattern conception.» Paper for Conference on pattern detection, University of Michigan. 1957. {{ref-en}}</ref> так і ШІ. (Див. також {{нп|виведення граматик|||Grammar induction}}.<ref>Jason Eisner, Deep Learning of Recursive Structure: Grammar Induction, http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ {{Webarchive|url=https://web.archive.org/web/20171230010335/http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |date=30 грудня 2017 }} {{ref-en}}</ref>)


Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість [[Штучна нейронна мережа|штучних нейронних мереж]] до хакерів та обману.<ref>{{Cite web|url=https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|title=Hackers Have Already Started to Weaponize Artificial Intelligence|website=Gizmodo|date=11 September 2017 |access-date=11 October 2019|archive-date=11 October 2019|archive-url=https://web.archive.org/web/20191011162231/https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|url-status=live|language=en}}</ref> Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» ({{lang-en|“adversarial attack”}}).<ref>{{Cite web|url=https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|title=How hackers can force AI to make dumb mistakes|date=18 June 2018|website=The Daily Dot|language=en|access-date=11 October 2019|archive-date=11 October 2019|archive-url=https://web.archive.org/web/20191011162230/https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|url-status=live}}</ref>
== Програмні бібліотеки ==
{{Main|Порівняння програмного забезпечення глибинного навчання}}
* [[Caffe (програмне забезпечення)|Caffe]]&nbsp;— Каркас глибинного навчання, який спеціалізується на розпізнаванні зображень.
* [[CNTK]]&nbsp;— відкритий<ref>[http://blogs.microsoft.com/next/2016/01/25/microsoft-releases-cntk-its-open-source-deep-learning-toolkit-on-github/ CNTK on Github] {{Webarchive|url=https://web.archive.org/web/20160503171919/http://blogs.microsoft.com/next/2016/01/25/microsoft-releases-cntk-its-open-source-deep-learning-toolkit-on-github/ |date=3 травня 2016 }} {{ref-en}}</ref> Інструментарій Обчислювальних Мереж ({{lang-en|Computational Network Toolkit}}) глибинного навчання від Microsoft Research.
* ConvNetJS&nbsp;— Бібліотека [[Javascript]] для тренування моделей глибинного навчання. Містить інтерактивні демонстрації.
* [[Deeplearning4j]]&nbsp;— Відкрита<ref>{{Cite web |url=https://github.com/deeplearning4j/deeplearning4j |title=Deeplearning4j на Github |accessdate=3 травня 2016 |archive-date=8 листопада 2020 |archive-url=https://web.archive.org/web/20201108095022/https://github.com/deeplearning4j/deeplearning4j }}</ref> бібліотека глибинного навчання, написана для [[Java]], з ДКЧП та згортковими мережами, і [https://web.archive.org/web/20161108104130/https://skymind.io/ Skymind]. Забезпечує розпаралелювання із [[Центральний процесор|ЦП]] та [[Графічний процесор|ГП]].
* {{нп|Gensim}}&nbsp;— Інструментарій для обробки природної мови, реалізований мовою програмування [[Python]].
* [[Keras]]&nbsp;— система глибинного навчання, здатна працювати над TensorFlow або Theano.
* [https://github.com/NervanaSystems/neon neon] {{Webarchive|url=https://web.archive.org/web/20160201030934/https://github.com/NervanaSystems/neon |date=1 лютого 2016 }}&nbsp;— Neon є відкритою мовою на основі Python, створеною компанією [http://www.nervanasys.com/ Nervana] {{Webarchive|url=https://web.archive.org/web/20160202131336/http://www.nervanasys.com/ |date=2 лютого 2016 }}
* [https://developer.nvidia.com/cudnn NVIDIA cuDNN] {{Webarchive|url=https://web.archive.org/web/20160114185056/https://developer.nvidia.com/cudnn |date=14 січня 2016 }}&nbsp;— Бібліотека примітивів для глибинних нейронних мереж із прискоренням на [[Графічний процесор|ГП]].
* {{нп|OpenNN}}&nbsp;— Відкрита бібліотека [[C++]], яка реалізує глибинні нейронні мережі, та забезпечує розпаралелювання з [[Центральний процесор|ЦП]].
* [[TensorFlow]]&nbsp;— Відкрита бібліотека машинного навчання Google на C++ та Python з [[Прикладний програмний інтерфейс|ППІ]] для обох. Забезпечує розпаралелювання з [[Центральний процесор|ЦП]] та [[Графічний процесор|ГП]].<ref name="DeanMonga2015">{{cite web|last1=Dean|first1=Jeff|last2=Monga|first2=Rajat|authorlink1=[[Джефф Дін (програміст)|Джеф Дін]]|title=TensorFlow: Large-scale machine learning on heterogeneous systems|url=http://download.tensorflow.org/paper/whitepaper2015.pdf|website=TensorFlow.org|publisher=Google Research|accessdate=10 листопада 2015|date=9 листопада 2015|display-authors=etal|archive-date=20 листопада 2015|archive-url=https://web.archive.org/web/20151120004649/http://download.tensorflow.org/paper/whitepaper2015.pdf}} {{ref-en}}</ref>
* [[Theano]]&nbsp;— Відкрита бібліотека машинного навчання для [[Python]].
* [[Torch]]&nbsp;— Відкрита програмна бібліотека для машинного навчання на основі мови програмування [[Lua]].
* {{нп|Apache Singa}}&nbsp;— Загальна платформа розподіленого глибинного навчання ({{lang-en|General Distributed Deep Learning Platform}}).<ref>[https://singa.incubator.apache.org/ Apache SINGA Website] {{Webarchive|url=https://web.archive.org/web/20160424000824/https://singa.incubator.apache.org/ |date=24 квітня 2016 }} {{ref-en}}</ref><ref name="Ooi2015">B. C. Ooi, K.-L. Tan, S. Wang, W. Wang, G. Chen, J. Gao, Z. Luo, A.K.H. Tung, Y. Wang, Z. Xie, M. Zhang, K. Zheng. "[http://www.comp.nus.edu.sg/~ooibc/singaopen-mm15.pdf SINGA: A Distributed Deep Learning Platform] {{Webarchive|url=https://web.archive.org/web/20160207143001/http://www.comp.nus.edu.sg/~ooibc/singaopen-mm15.pdf |date=7 лютого 2016 }}, " ''ACM Multimedia (Open Source Software Competition)''. 2015. {{ref-en}}</ref><ref name="Wang2015">W. Wang, G. Chen, T. T. A. Dinh, J. Gao, B. C. Ooi, K.-L.Tan, S. Wang. "[http://www.comp.nus.edu.sg/~ooibc/singa-mm15.pdf SINGA: Putting Deep Learning in the Hands of Multimedia Users] {{Webarchive|url=https://web.archive.org/web/20160207140553/http://www.comp.nus.edu.sg/~ooibc/singa-mm15.pdf |date=7 лютого 2016 }}, " ''ACM Multimedia''. 2015. {{ref-en}}</ref>


2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.<ref name=":4">{{Cite news|url=https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change|title=AI Is Easy to Fool—Why That Needs to Change|date=10 October 2017|work=Singularity Hub|access-date=11 October 2017|archive-date=11 October 2017|archive-url=https://web.archive.org/web/20171011233017/https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change/|url-status=live|language=en}}</ref> Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад ''[[TinEye]]'', який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято'''.'''<ref>{{Cite journal|last=Gibney|first=Elizabeth|title=The scientist who spots fake videos|url=https://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|journal=Nature|doi=10.1038/nature.2017.22784|year=2017|access-date=2017-10-11|archive-date=2017-10-10|archive-url=https://web.archive.org/web/20171010011017/http://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|url-status=live|language=en}}</ref>
== Графічні інструменти ==

* {{нп|Neural Designer}}&nbsp;— застосунок з [[Графічний інтерфейс користувача|графічним інтерфейсом]] для глибинних нейронних мереж, що забезпечує розпаралелювання на [[центральний процесор|центральному процесорі]].
Інша група показала, що певні [[Психоделічний арт|психоделічні]] видовища можуть змусити [[Система розпізнавання облич|систему розпізнавання облич]] вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до [[Проїзд без зупинки заборонено|знаків заборони проїзду без зупинки]], змусивши ШНМ класифікувати їх неправильно.<ref name=":4" />

Проте ШМН можливо додатково тренувати виявляти спроби [[Брехливість|обману]], що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від [[Зловмисне програмне забезпечення|зловмисних програм]]. ШМН було навчено перемагати програмне забезпечення захисту від [[Зловмисне програмне забезпечення|зловмисного]] програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося [[Генетичний алгоритм|генетичним алгоритмом]], доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.<ref name=":4" />

2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд [[Google Now|''Google Now'']] відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».<ref name=":4" />

В «{{нп|Отруювання даними|отруюванні даними||Data poisoning}}» до тренувального набору системи машинного навчання систематично підкидають хибні дані, щоби завадити їй досягти майстерності.<ref name=":4" />

=== Етика збирання даних ===
{{Недостатньо джерел|розділ|дата=липень 2023}}

Більшість систем глибокого навчання покладаються на тренувальні та контрольні ({{lang-en|verification}}) дані, породжувані та/або розмічувані людьми.<ref>{{Cite journal |last=Tubaro |first=Paola |date=2020 |title=Whose intelligence is artificial intelligence? |url=https://hal.science/hal-03029735 |journal=Global Dialogue |language=en |pages=38}}</ref> У [[Медіазнавство|філософії засобів масової інформації]] стверджують, що для цієї мети регулярно використовують не лише низькооплачувану {{нп|Клікробітники|клікпрацю||Clickworkers}} (наприклад, на [[Amazon Mechanical Turk|''Amazon Mechanical Turk'']]), а й неявні форми людської {{нп|Мікропраця|мікропраці||Microwork}}, які часто не визнають як таку.<ref name=":13">{{Cite journal|last=Mühlhoff|first=Rainer|date=6 November 2019|title=Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning|journal=New Media & Society|language=en|volume=22|issue=10|pages=1868–1884|doi=10.1177/1461444819885334|s2cid=209363848|issn=1461-4448|url=https://depositonce.tu-berlin.de/handle/11303/12510}}</ref> Філософ Райнер Мюльхоф розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) [[ігрофікація]] (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, ''[[CAPTCHA]]'' для розпізнавання зображень, або відстежування кліків на [[Сторінка результатів пошуку|сторінках результатів пошуку]] ''Google''), (3) використання соціальних мотивів (наприклад, позначування облич у ''[[Facebook]]'' для отримування позначених зображень обличчя), (4) [[розроблення інформації]] (наприклад, за допомогою пристроїв {{нп|самооцифровування|||Quantified self}}, таких як [[Фітнес-трекер|відстежувачі активності]]), та (5) {{нп|Клікробітники|клікпрацю||Clickworkers}}.<ref name=":13" />

Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як {{нп|DeepFace|система розпізнавання облич ''Facebook''|en}}, потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою ''Facebook'' запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вона отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити ''Facebook'', що на зображенні не вони.<ref>{{Cite magazine|url=https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|title=Facebook Can Now Find Your Face, Even When It's Not Tagged|magazine=Wired|access-date=22 November 2019|language=en|issn=1059-1028|archive-date=10 August 2019|archive-url=https://web.archive.org/web/20190810223940/https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|url-status=live}}</ref> Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»<ref name=":13" /> для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» ({{lang-en|"human-aided artificial intelligence"}}).<ref name=":13" />


== Див. також ==
== Див. також ==

* [[Розріджене кодування]]
* {{нп|Стиснене сприйняття|||Compressed Sensing}}
* [[Конекціонізм]]
* [[Застосування штучного інтелекту]]
* [[Застосування штучного інтелекту]]
* [[Порівняння програмного забезпечення глибокого навчання]]
* {{нп|Список проектів штучного інтелекту|||List of artificial intelligence projects}}
* {{нп|Стиснене сприйняття|||Compressed sensing}}
* [[Резервуарне обчислення]]
* {{нп|Диференційовне програмування|||Differentiable programming}}
* [[Рідкий скінченний автомат]]
* [[Мережа з відлунням стану]]
* [[Мережа з відлунням стану]]
* {{нп|Перелік проєктів штучного інтелекту|||List of artificial intelligence projects}}
* [[Перелік наборів даних для досліджень у галузі машинного навчання]]
* [[Рідкий скінченний автомат]]
* [[Порівняння програмного забезпечення глибинного навчання]]
* [[Перелік наборів даних для досліджень машинного навчання]]
* [[Простір масштабів#Глибинне навчання та простір масштабів|Простір масштабів та глибинне навчання]]
* [[Резервуарне обчислення]]
* [[Простір масштабів#Глибоке навчання та простір масштабів|Простір масштабів та глибоке навчання]]
* [[Розріджене кодування]]
* {{нп|Стохастичний папуга|||Stochastic parrot}}


== Примітки ==
== Примітки ==
{{Reflist|30em}}
{{Примітки|30em}}


== Посилання ==
== Література ==
{{refbegin}}
* [http://www.teglor.com/b/deep-learning-libraries-language-cm569/ Бібліотеки глибинного навчання за мовою] {{Webarchive|url=https://web.archive.org/web/20160204113428/http://www.teglor.com/b/deep-learning-libraries-language-cm569 |date=4 лютого 2016 }} {{ref-en}}
* {{cite book
|title=Deep Learning
|year=2016
|first1=Ian
|last1=Goodfellow
|author-link1=Ян Ґудфелоу
|first2=Yoshua
|last2=Bengio
|author-link2=Йошуа Бенжіо
|first3=Aaron
|last3=Courville
|publisher=MIT Press
|url=http://www.deeplearningbook.org
|isbn=978-0-26203561-3
|postscript=, introductory textbook.
|access-date=2021-05-09
|archive-date=2016-04-16
|archive-url=https://web.archive.org/web/20160416111010/http://www.deeplearningbook.org/
|url-status=live
|language=en
}}
{{refend}}


{{Диференційовні обчислення}}
{{Диференційовні обчислення}}
Рядок 1066: Рядок 501:


[[Категорія:Глибинне навчання| ]]
[[Категорія:Глибинне навчання| ]]
[[Категорія:Штучні нейронні мережі]]
[[Категорія:Нові технології]]

Версія за 14:43, 30 липня 2023

Подання зображень на кількох шарах абстракції в глибокому навчанні
Подання зображень на кількох шарах абстракції в глибокому навчанні[1]

Глибо́ке навча́ння[2][3][4] (англ. deep learning, також іноді глиби́нне навча́ння) — це частина ширшого сімейства методів машинного навчання, яка ґрунтується на штучних нейронних мережах із навчанням подань. Прикметник «глибоке» (англ. "deep") у глибокому навчанні стосується використання декількох шарів у мережі. Використовувані методи можуть бути керованими, слабокерованими, та некерованими.[5]

Архітектури глибокого навчання, такі як глибокі нейронні мережі, глибокі мережі переконань, глибоке навчання з підкріпленням[en], рекурентні нейронні мережі, згорткові нейронні мережі та трансформери, застосовували в таких галузях як комп'ютерне бачення, розпізнавання мовлення, обробка природної мови, машинний переклад, біоінформатика, конструювання ліків, аналіз медичних зображень[en], кліматологія, перевірка матеріалів і програми настільних ігор, де вони дали результати, порівнянні, а в деяких випадках і кращі за продуктивність експертів — людей.[6][7][8]

Штучні нейронні мережі (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в біологічних системах. ШНМ мають різноманітні відмінності від біологічного мозку. Зокрема, штучні нейронні мережі мають тенденцію бути статичними та символьними, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.[9][10]

Визначення

Глибоке навчання — це клас алгоритмів машинного навчання, який[11]:199–200  використовує декілька шарів для поступового виділяння з сирого входу ознак усе вищих рівнів. Наприклад, при обробці зображень нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.

Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» (англ. “deeper”) та «найглибше» (англ. “deepest”) навчання.[12] Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.

Огляд

Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових штучних нейронних мережах, таких як згорткові нейронні мережі та трансформери, хоча до них також можуть належати пропозиційні формули[en] та латентні змінні, організовані пошарово в глибоких породжувальних моделях, такі як вузли в глибоких мережах переконань чи глибоких машинах Больцмана.[13]

У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути матрицею пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати розташування контурів; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може самостійно вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного налаштування; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.[14][15]

Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину шляху розподілу внеску (ШРВ, англ. credit assignment path, CAP). ШРВ — це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для нейронної мережі прямого поширення глибина ШРВ дорівнює глибині мережі та є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для рекурентних нейронних мереж, у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.[16] Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання (англ. shallow learning) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.[17] Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.

Архітектури глибокого навчання можливо конструювати пошарово жадібним методом.[18] Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.[14]

Для завдань керованого навчання методи глибокого навчання усувають конструювання ознак, переводячи дані до компактних проміжних подань, подібних до головних компонент, і виводять багатошарові структури, які усувають надмірність у поданні.

Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є глибокі мережі переконань.[14][19]

Інтерпретації

Глибокі нейронні мережі зазвичай інтерпретують у термінах теореми про універсальне наближення[20][21][22][23][24] або ймовірнісного висновування.[25][11][14][16][26]

Класична теорема про універсальне наближення стосується здатності нейронної мережі прямого поширення з одним прихованим шаром скінченного розміру наближувати неперервні функції.[20][21][22][23] 1989 року Джордж Цибенко опублікував перше її доведення для сигмоїдних передавальних функцій,[20] а 1991 року Курт Горнік[de] узагальнив його для багатошарових архітектур прямого поширення.[21] Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як випрямлений лінійний вузол (англ. rectified linear unit) Куніхіко Фукусіми[en].[27][28]

Теорема про універсальне наближення для глибоких нейронних мереж розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.[24] довели, що якщо ширина глибокої нейронної мережі з передавальною функцією ReLU строго більша за розмірність входу, то ця мережа може наближувати будь-яку функцію, інтегровну за Лебегом; Якщо її ширина менша або дорівнює розмірності входу, то глибока нейронна мережа не є універсальним наближувачем.

Імовірнісна інтерпретація[26] походить з галузі машинного навчання. Вона відводить провідне місце висновуванню,[11][13][14][16][19][26] а також таким поняттям оптимізації як тренування та випробування, пов'язаним із допасовуванням та узагальнюванням відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як кумулятивну функцію розподілу.[26] Імовірнісна інтерпретація призвела до запровадження виключення (англ. dropout) як регуляризатора в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з Гопфілдом, Уїдроу[en] та Нарендрою[en], й популяризовано в оглядах, таких як від Бішопа[en].[29]

Історія

Існує два типи нейронних мереж: нейронні мережі прямого поширення (НМПП, англ. feedforward neural network, FNN) та рекурентні нейронні мережі (РНМ, англ. recurrent neural network, RNN). РНМ мають цикли у структурі зв'язності, а НМПП — ні. У 1920-х роках Вільгельм Ленц[en] та Ернст Ізінг[en] створили та проаналізували модель Ізінга,[30] яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року Шунічі Амарі[en] зробив цю архітектуру адаптивною.[31][32] Його навчання РНМ популяризував Джон Гопфілд 1982 року.[33] РНМ стали центральними для розпізнавання мовлення та обробки мови[en].

Чарльз Тапперт пише, що Френк Розенблат розробив та дослідив усі основні складові сучасних систем глибокого навчання,[34] посилаючись на книгу Розенблата 1962 року,[35] якою було запроваджено багатошаровий перцептрон (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу.[32] Проте, оскільки з'єднання, що навчалися, мав лише шар виходу, глибоким навчанням це ще не було. Пізніше це назвали машиною екстремального навчання.[32]

Перший загальний, робочий алгоритм навчання для глибоких багатошарових перцептронів прямого поширення керованим навчанням опублікували 1967 року Олексій Івахненко та Валентин Лапа.[36] У статті 1971 року описано глибоку мережу з восьми шарів, треновану методом групового урахування аргументів.[37]

Перший багатошаровий перцептрон глибокого навчання, тренований стохастичним градієнтним спуском,[38] опублікував 1967 року Шунічі Амарі[en].[39][32] У комп'ютерних експериментах, проведених учнем Амарі, Сайто, п'ятишаровий БШП із двома змінними шарами навчився внутрішніх подань для класифікування нелінійно роздільних класів образів.[32] 1987 року Метью Бренд повідомив, що широкі 12-шарові нелінійні перцептрони можливо повністю наскрізно тренувати відтворювати логічні функції нетривіальної глибини ланцюга за допомогою градієнтного спуску на невеликих пакетах випадкових вибірок входів/виходів, але зробив висновок, що час тренування на тогочасному обладнанні (домегафлопних комп'ютерах) зробив цю методику непрактичною, та запропонував використовувати незмінні випадкові ранні шари як хеш входу для єдиного змінюваного рівня.[40] Натомість подальші розробки апаратного забезпечення та підлаштовування гіперпараметрів зробили наскрізний стохастичний градієнтний спуск нині переважною методикою тренування.

1970 року Сеппо Ліннаінмаа[en] опублікував зворотний режим автоматичного диференціювання дискретно зв'язаних мереж вкладених диференційовних функцій.[41][42][43] Він став відомим як зворотне поширення.[16] Це ефективне застосування ланцюгового правила, виведеного Готфрідом Вільгельмом Лейбніцем 1673 року,[44] до мереж диференційовних вузлів.[32] Термінологію «зворотно поширювані похибки» (англ. "back-propagating errors") фактично запровадив 1962 року Розенблат,[35][32] але він не знав, як це втілити, хоча Генрі Келлі[en] вже 1960 року мав безперервного попередника зворотного поширення[45] в контекст теорії керування.[32] 1982 року Пол Вербос[en] застосував зворотне поширення до БШП у спосіб, який став стандартним.[46][47][32] 1985 року Девід Румельхарт[en] зі співавт. опублікували експериментальний аналіз цієї методики.[48]

Ахітектури глибокого навчання для згорткових нейронних мереж (ЗНМ, англ. convolutional neural networks, CNN) зі згортковими шарами та шарами зниження роздільності почалися з неокогнітрона, запропонованого Куніхіко Фукусімою[en] 1980 року.[49] 1969 року він також запропонував передавальну функцію ReLU (англ. rectified linear unit, випрямлений лінійний вузол).[27][32] Цей випрямляч (англ. rectifier) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.[50] ЗНМ стали важливим інструментом комп'ютерного бачення.

Термін глибоке навчання (англ. Deep Learning) у спільноті машинного навчання запровадила 1986 року Ріна Дехтер[en],[51] а для штучних нейронних мереж — Ігор Айзенберг з колегами у 2000 року в контексті булевих[en] порогових нейронів.[52][53]

1988 року Вей Чжан зі співавт. застосували алгоритм зворотного поширення до згорткової нейронної мережі (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.[54][55] 1989 року Ян ЛеКун зі співавт. застосували зворотне поширення до ЗНМ з метою розпізнавання рукописних поштових індексів у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.[56] Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,[57] та для виявляння раку молочної залози на мамограмах 1994 року.[58] LeNet-5 (1998), 7-рівневу ЗНМ від Яна ЛеКуна зі співавт.,[59] що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.

У 1980-х роках зворотне поширення не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево самокерованим навчанням.[60] Вона використовує передбачувальне кодування[en] для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо скласти (англ. collapse) в єдину РНМ шляхом дистилювання[en] фрагментувальної (англ. chunker) мережі вищого рівня до автоматизаторної (англ. automatizer) мережі нижчого рівня.[60][32] 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.[61]

1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (англ. alternative to RNNs),[62] яку зараз називають лінійним трансформером (англ. linear Transformer) або трансформером з лінеаризованою самоувагою[63][64][32] (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (англ. internal spotlights of attention):[65] повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, англ. key, та значенням, англ. value, самоуваги).[63] Це відображення уваги (англ. attention mapping) швидких ваг застосовують до шаблону запиту.

Сучасний трансформер (англ. Transformer) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба».[66] Він поєднує це з оператором softmax та проєкційною матрицею.[32] Трансформери все частіше обирають за модель для обробки природної мови.[67] Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.[68]

1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (англ. adversarial neural networks), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої.[69][70][71] Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (англ. "artificial curiosity"). 2014 року цей принцип використали у породжувальній змагальній мережі (англ. generative adversarial network, GAN) Ян Ґудфелоу зі співавт.[72] Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних діпфейків.[73] Відмінної якості зображення досягла StyleGAN[en] Nvidia (2018)[74] на основі прогресивної породжувальної змагальної мережі (англ. Progressive GAN) Теро Карраса зі співавт.[75] Тут породжувач вирощується від малого до великого пірамідним чином.

Дипломну працю Зеппа Хохрайтера[en] (1991)[76] його керівник Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання».[32] Він не лише випробував нейронний стискач історії,[60] але й виявив та проаналізував проблему зникання градієнта.[76][77] Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні залишкові зв'язки. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, англ. long short-term memory, LSTM), опублікованого 1997 року.[78] Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання»[16] з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» (англ. vanilla LSTM) із забувальним вентилем запропонували 1999 року Фелікс Ґерс[en], Шмідхубер та Фред Каммінс.[79] ДКЧП стала найцитованішою нейронною мережею XX століття.[32] 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі, нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні.[80][81] 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли змагання ImageNet[en] 2015 із відкритовентильним або безвентильним варіантом магістралевої мережі, названим за́лишковою нейронною мережею (англ. Residual neural network).[82] Вона стала найцитованішою нейронною мережею XXI століття.[32]

1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа (англ. weightless neural network), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак (англ. SOFT), з багатошаровим класифікаційним нейромережним модулем (англ. GSN) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.[83]

1995 року Брендан Фрей[en] продемонстрував можливість натренувати (протягом двох днів) мережу із шести повноз'єднаних шарів та кількох сотень прихованих вузлів, використовуючи алгоритм неспання — сну[en], розроблений спільно з Пітером Даяном[en] та Гінтоном.[84]

З 1997 року Свен Бенке розширив ієрархічний згортковий підхід прямого поширення у нейронній піраміді абстракцій (англ. Neural Abstraction Pyramid)[85] за допомогою бічних та зворотних з'єднань, щоби гнучко включати контекст у рішення та ітеративно розв'язувати локальні неоднозначності.

У 1990-х і 2000-х роках популярністю користувалися простіші моделі, які використовують сконструйовані вручну ознаки для конкретних завдань, такі як фільтри Ґабора (англ. Gabor filters) та опорновекторні машини (ОВМ, англ. support vector machines, SVM), через обчислювальну витратність штучних нейронних мереж (ШНМ) та брак розуміння того, як мозок сплітає свої біологічні мережі.

Як неглибоке, так і глибоке навчання (наприклад, рекурентні мережі) ШНМ для розпізнавання мовлення досліджували протягом багатьох років.[86][87][88] Ці методи ніколи не перевершували технологію неоднорідних внутрішньо-ручних гауссових сумішевих моделей[en]/прихованих марковських моделей (ГСМ-ПММ, англ. GMM-HMM) на основі породжувальних моделей мовлення, тренованих розрізнювально.[89] Було проаналізовано основні труднощі, включно зі зниканням градієнта[76] й слабкою структурою часової кореляції в нейронних передбачувальних моделях.[90][91] Додатковими труднощами були брак тренувальних даних та обмежена обчислювальна потужність. Більшість дослідників розпізнавання мовлення відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був SRI International наприкінці 1990-х років. Фінансований агенціями уряду США АНБ та DARPA, SRI вивчав глибокі нейронні мережі в розпізнаванні мовлення та мовця. Команда розпізнавання мовців на чолі з Ларрі Геком[en] повідомила про значний успіх із глибокими нейронними мережами в обробці мовлення на оцінюванні розпізнавання мовців Національного інституту стандартів і технологій 1998 року.[92] Потім глибоку нейронну мережу SRI було розгорнуто в Nuance Verifier, що стало першим великим промисловим застосуванням глибокого навчання.[93] Принцип піднесення «сирих» ознак над ручною оптимізацією було вперше успішно досліджено в архітектурі глибокого автокодувальника на «сирій» спектрограмі або ознаках лінійного блока фільтрів[en] наприкінці 1990-х,[93] що показало його перевагу над мел-кепстровими ознаками, які містять етапи незмінного перетворення зі спектрограм. Сирі ознаки мовлення, хвилеформи, згодом дали чудові великомасштабні результати.[94]

Розпізнавання мовлення перейняла ДКЧП. 2003 року ДКЧП на певних завданнях почала конкурувати з традиційними розпізнавачами мовлення.[95] 2006 року Алекс Ґрейвс[en], Сантьяго Фернандес, Фаустіно Ґомес та Шмідхубер поєднали її з нейромережною часовою класифікацією[en] (НЧК, англ. connectionist temporal classification, CTC)[96] у стеках РНМ ДКЧП.[97] 2015 року в розпізнаванні мовлення Google, як було повідомлено, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яку вони зробили доступною через голосовий пошук Google.[98]

Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10 % до 20 % усіх чеків, виписуваних у США.[99] Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.

2006 року публікації Джеффа Гінтона, Руслана Салахутдінова[en], Осіндеро та Тее[en][100][101][102] показали, як багатошарову нейронну мережу прямого поширення можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану обмежену машину Больцмана, а потім тонко налаштовувати її за допомогою керованого зворотного поширення.[103] Ці праці стосувалися навчання для глибоких мереж переконань.

Мотивом семінару NIPS 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, англ. deep neural nets, DNN) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, англ. deep belief nets, DBN) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього зворотного поширення при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.[104] Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,[105] пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.[11][106][107] Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.[105] Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5 % у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.[104][105][108] 2010 року дослідники розширили глибоке навчання від TIMIT[en] до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою дерев рішень.[109][110][111][106]

Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та автоматичному розпізнаванні мовлення (АРМ, англ. automatic speech recognition, ASR). Результати на загальновживаних оцінювальних наборах, таких як TIMIT[en] (АРМ) та MNIST (класифікування зображень), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.[104][112] Згорткові нейронні мережі (ЗНМ) для АРМ було витіснено НЧК[96] для ДКЧП,[78][98][113][114][115] але в комп'ютернім баченні вони успішніші.

Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року Nvidia брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою графічних процесорів (ГП) Nvidia».[116] Того року Ендрю Ин визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.[117] Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.[118][119][120] ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.[121][122] Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.[123]

Революція глибокого навчання

Як глибоке навчання є підмножиною машинного навчання і як машинне навчання є підмножиною штучного інтелекту (ШІ)

Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з машинного навчання. 2009 року довга короткочасна пам'ять, натренована нейромережною часовою класифікацією[en] (Алекс Ґрейвс[en], Сантьяго Фернандес, Фаустіно Ґомес та Юрген Шмідхубер, 2006)[96] стала першою РНМ, яка виграла конкурси з розпізнавання образів, вигравши три змагання з розпізнавання неперервного рукописного тексту.[124][16] Пізніше Google використала натреновану НЧК ДКЧП для розпізнавання мовлення на смартфоні.[125][98]

Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані зворотним поширенням, існували десятиліттями,[54][56] а втілення НМ на ГП — роками,[118] включно із ЗНМ,[120][16] для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року DanNet[126][6] Дена Чирешана, Улі Меєра, Джонатана Маскі, Луки Марії Гамбардели[en] та Юргена Шмідхубера вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.[16] Також 2011 року DanNet виграла конкурс із китайського рукописного тексту ICDAR, а в травні 2012 року перемогла в конкурсі з сегментування зображень ISBI.[127] До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції CVPR[6] показала, як максимізувально агрегувальні ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року DanNet також виграла конкурс ICPR з аналізу великих медичних зображень для виявляння раку, а наступного року також і MICCAI Grand Challenge на ту ж тему.[128] У жовтні 2012 року подібна AlexNet Олексія Крижевського, Іллі Суцкевера та Джефрі Гінтона[7] виграла великомасштабне змагання ImageNet[en] зі значним відривом від неглибоких методів машинного навчання. Мережа VGG-16 Карена Симоняна[en] та Ендрю Зіссермана[en][129] ще більше знизила рівень похибок і виграла конкурс ImageNet 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.

Потім класифікування зображень було розширено до складнішого завдання породжування описів[en] (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.[130][131][132]

2012 року команда під проводом Джорджа Даля виграла конкурс «Merck Molecular Activity Challenge», використовуючи багатозадачні глибокі нейронні мережі для передбачування біомолекулярної мішені[en] одного препарату.[133][134] 2014 року група Зеппа Хохрайтера[en] використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла «Tox21 Data Challenge» NIH, FDA та NCATS[en].[135][136][137]

2016 року Роджер Парлофф зазначив «революцію глибокого навчання», яка змінила галузь ШІ.[138]

У березні 2019 року Йошуа Бенжіо[en], Джефрі Гінтона та Яна ЛеКуна було нагороджено премією Тюрінга за концептуальні та інженерні прориви, які зробили глибокі нейронні мережі критично важливою складовою обчислювальної техніки.

Нейронні мережі

Штучні нейронні мережі (ШНМ, англ. artificial neural networks, ANN) або коннекціоністські системи (англ. connectionist systems) — це обчислювальні системи, натхненні біологічними нейронними мережами, які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, мічені[en] вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням програмування на основі правил .

ШНМ ґрунтується на сукупності з'єднаних вузлів, званих штучними нейронами (аналогічно біологічним нейронам у біологічному мозку). Кожне з'єднання (синапс) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий дійсними числами, зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.

Як правило, нейрони впорядковано в шари (англ. layers). Різні шари можуть виконувати різні типи перетворень над своїми входами. Сигнали проходять від першого шару (шару входу) до останнього шару (шару виходу), можливо, після проходження шарами декілька разів.

Початкова мета нейромережного підходу полягала у розв'язуванні задач таким же чином, як це робив би людський мозок. З часом увага зосередилася на відповідності конкретним розумовим здібностям, що призвело до відхилень від біології, таких як зворотне поширення, або передавання інформації у зворотному напрямку з підлаштовуванням мережі відображувати цю інформацію.

Нейронні мережі використовували для різноманітних завдань, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, фільтруванням соціальних мереж, грою в настільні та відеоігри[en] та медичною діагностикою.

Станом на 2017 рік нейронні мережі зазвичай мають від кількох тисяч до кількох мільйонів вузлів та мільйони з'єднань. Незважаючи на те, що це число на кілька порядків менше за число нейронів у мозку людини, ці мережі можуть виконувати багато завдань на рівні, що перевершує людський (наприклад, розпізнавати обличчя або грати в «Ґо»[139]).

Глибокі нейронні мережі

Глибока нейронна мережа (ГНМ, англ. deep neural network, DNN) — це штучна нейронна мережа (ШНМ) із кількома шарами між шарами входу та виходу.[13][16] Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.[140] Ці складові в цілому функціонують подібно до людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.[джерело?]

Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,[джерело?] і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.

ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією примітивів.[141] Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.[13] Наприклад, було доведено, що розріджені багатовимірні многочлени експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.[142]

До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.

ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.[143] Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.

Рекурентні нейронні мережі (РНМ, англ. recurrent neural networks, RNN), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як моделювання мови.[144][145][146][147][148] Для цього використання особливо ефективна довга короткочасна пам'ять.[78][149]

Згорткові глибокі нейронні мережі (ЗНМ, англ. convolutional deep neural networks, CNN) використовують у комп'ютернім баченні.[150] ЗНМ також застосовували до акустичного моделювання[en] для автоматичного розпізнавання мовлення (АРМ, англ. automatic speech recognition, ASR).[151]

Виклики

Як і з ШНМ, при наївному тренуванні ГНМ може виникати багато проблем. Двома поширеними проблемами є перенавчання та обчислювальний час.

ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи регуляризації, такі як обрізання вузлів (англ. unit pruning) Івахненка,[37] ослаблення ваг[en] (англ. weight decay, -регуляризація) та розрідженість (англ. sparsity, -регуляризація).[152] Альтернативна регуляризація виключенням (англ. dropout) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.[153] Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.[154]

ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), темп навчання та первинні ваги. Прочісування простору параметрів для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування (англ. batching, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).[155] Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та Intel Xeon Phi) призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.[156][157]

Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ (артикуляційний контролер мозочкової моделі[en], англ. cerebellar model articulation controller, CMAC). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.[158][159]

Апаратне забезпечення

З 2010-х років прогрес як в алгоритмах машинного навчання, так і в комп'ютерному апаратному забезпеченні призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.[160] До 2019 року графічні процесори (ГП), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.[161] OpenAI оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від AlexNet (2012) і до AlphaZero (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.[162][163]

Для прискорення алгоритмів глибокого навчання було розроблено спеціальні електронні схеми, звані процесорами глибокого навчання. До процесорів глибокого навчання належать нейронні процесори (НП, англ. neural processing units, NPU) у мобільних телефонах Huawei[164] та серверах хмарних обчислень, такі як тензорні процесори (ТП, англ. tensor processing units, TPU) у Google Cloud Platform.[165] Cerebras Systems[en] також створила спеціальну систему для обробки великих моделей глибокого навчання, CS-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні Wafer Scale Engine (WSE-2).[166][167]

Атомарно тонкі напівпровідники вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі польових транзисторів з плавни́м затвором (англ. floating-gate field-effect transistors, FGFET).[168]

2021 року Й. Фельдманн зі співавт. запропонували інтегрований фотонний апаратний прискорювач для паралельної згорткової обробки.[169] Автори виділяють дві ключові переваги інтегрованої фотоніки над її електронними аналогами: (1) масивна паралельна передача даних через мультиплексування за довжиною хвилі в поєднанні з частотними гребінцями та (2) надзвичайно висока швидкість модуляції даних.[169] Їхня система може виконувати трильйони операцій множення-додавання за секунду, що вказує на потенціал інтегрованої фотоніки у застосуваннях штучного інтелекту, які потребують великих даних.[169]

Застосування

Автоматичне розпізнавання мовлення

Великомасштабне автоматичне розпізнавання мовлення — це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,[16] до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями[149] на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.[95]

Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі TIMIT[en]. Цей набір даних містить 630 носіїв восьми основних діалектів американської англійської, де кожен читає 10 речень.[170] Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання TIMIT стосується розпізнавання фональних[en] послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фонобіграмні мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, англ. phone error rates, PER), було узагальнено з 1991 року.

Метод Відсоток рівня
фональної похибки (РФП) (%)
РНМ з випадковими початковими значеннями[171] 26,1
Баєсова трифональна ГСМ[en]-ПММ 25,6
Модель прихованої траєкторії (породжувальна) 24,8
Монофональна ГНМ з випадковими початковими значеннями 23,4
Монофональна ГМП-ГНМ 22,4
Трифональна ГСМ[en]-ПММ з навчанням ПМВІ 21,7
Монофональна ГМП-ГНМ на блоці фільтрів[en] 20,7
Згорткова ГНМ[172] 20,0
Згорткова ГНМ з різнорідним агрегуванням 18,7
Ансамблева ГНМ/ЗНМ/РНМ[173] 18,3
Двоспрямована ДКЧП 17,8
Ієрархічна згорткова глибока максимумовиходова мережа[174] 16,5

Дебют ГНМ для розпізнавання мовців наприкінці 1990-х та розпізнавання мовлення приблизно в 2009—2011 роках, а також ДКЧП приблизно в 2003—2007 роках прискорили прогрес у восьми основних областях:[11][108][106]

  • Масштабування вгору/назовні та прискорення тренування та декодування ГНМ
  • Послідовнісно розрізнювальне тренування
  • Обробка ознак глибокими моделями з цілісним розумінням механізмів, що лежать в їхній основі
  • Пристосування ГНМ та споріднених глибоких моделей
  • Багатозадачне[en] та передавальне навчання за допомогою ГНМ і споріднених глибоких моделей
  • ЗНМ та як їх проєктувати, щоби найкращим чином використати предметні знання щодо мовлення
  • РНМ та їхні численні варіанти з ДКЧП
  • Інші типи глибоких моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.

Усі основні комерційні системи розпізнавання мовлення (наприклад, Microsoft Cortana, Xbox, Перекладач Skype[en], Amazon Alexa, Google Now, Apple Siri, Baidu та голосовий пошук iFlytek[en], а також низка мовленнєвих продуктів Nuance[en] тощо) ґрунтуються на глибокому навчанні.[11][175][176]

Розпізнавання зображень

Поширеним оцінковим набором для класифікування зображень є набір даних бази даних MNIST. Він складається з рукописних цифр і містить 60 000 навчальних та 10 000 випробувальних прикладів. Як і у випадку з TIMIT, його невеликий розмір дозволяє користувачам випробувати кілька конфігурацій. Доступний вичерпний перелік результатів на цьому наборі.[177]

Розпізнавання зображень на основі глибокого навчання стало «надлюдським», даючи точніші результати, ніж люди, учасники змагання. Вперше це сталося 2011 року з розпізнаванням дорожніх знаків, а 2014 року з розпізнаванням облич людей.[178][179]

Треновані глибоким навчанням транспортні засоби тепер інтерпретують камери кругового огляду.[180] Іншим прикладом є новітній аналіз у лицевій дисморфології (англ. Facial Dysmorphology Novel Analysis, FDNA), який використовують для аналізу випадків вад розвитку людини, пов'язаних із великою базою даних генетичних синдромів.

Обробка образотворчого мистецтва

Візуальна художня обробка Джиммі Вейлза у Франції у стилі «Крику» Мунка, застосованого за допомогою нейронного перенесення стилю

З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у

  • встановлюванні періоду стилю заданої картини[181][182]
  • Нейроннім перенесенні стилю[en] — вловлюванні стилю певного твору мистецтва та застосуванні його візуально приємним чином до довільної фотографії чи відео[181][182]
  • створенні вражаючих зображень на основі випадкових вхідних зорових полів.[181][182]

Обробка природної мови

Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.[144] ДКЧП допомогла покращити машинний переклад і моделювання мови.[145][146][147]

Іншими ключовими методиками в цій галузі є негативне вибирання (англ. negative sampling)[183] та вкладання слів. Вкладання слів, наприклад word2vec, можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у векторному просторі. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як імовірнісну контекстновільну граматику[en] (ІКВГ, англ. probabilistic context free grammar, PCFG), втілену РНМ.[184] Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.[184] Глибокі нейронні архітектури забезпечують найкращі результати для аналізу складників[en],[185] тональності,[186] пошуку інформації,[187][188] розуміння розмовної мови,[189] машинного перекладу,[145][190] контекстного зв'язування об'єктів,[190] розпізнавання стилю написання,[191] розпізнавання іменованих сутностей (класифікування лексем),[192] класифікування тексту та інших.[193]

Останні розробки узагальнюють вкладання слів до вкладання речень.

Перекладач Google використовує велику наскрізну мережу довгої короткочасної пам'яті (ДКЧП).[194][195][196][197] Нейронний машинний переклад Google використовує метод машинного перекладу на основі прикладів, у якому система «вчиться на мільйонах прикладів».[195] Він перекладає «цілі речення за раз, а не частини». Перекладач Google підтримує понад сто мов.[195] Мережа кодує «семантику речення, а не просто запам'ятовує пофразові переклади».[195][198] Перекладач Google використовує англійську як проміжну між більшістю мовних пар.[198]

Пошук нових ліків та токсикологія

Значний відсоток ліків-кандидатів не отримує схвалення регуляторних органів. Ці невдачі спричинені недостатньою ефективністю (впливом на мішень), небажаними взаємодіями (впливами поза мішенню) або непередбаченими токсичними впливами.[199][200] Дослідники вивчали використання глибокого навчання для передбачування біомолекулярних мішеней[en],[133][134] антимішеней[en] та токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.[135][136][137]

AtomNet — це система глибокого навчання для раціонального конструювання ліків на основі структури.[201] AtomNet використовували для передбачування новітніх біомолекул-кандидатів для мішеней таких захворювань як вірус Ебола[202] та розсіяний склероз.[203][202]

2017 року графові нейронні мережі[en] було вперше використано для передбачування різних властивостей молекул у великому наборі токсикологічних даних.[204] 2019 року породжувальні нейронні мережі було використано для створення молекул, які було перевірено експериментально від початку до кінця на мишах.[205][206]

Управління відносинами з клієнтами

Глибоке навчання з підкріпленням[en] використовували для наближування цінності можливих дій прямого маркетингу, визначених у термінах змінних RFM. Було показано, що ця функція оцінки цінності має природну інтерпретацію як пожиттєва цінність клієнта.[207]

Рекомендаційні системи

Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.[208][209] Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання (англ. multi-view deep learning).[210] Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.

Біоінформатика

Докладніше: Біоінформатика

Автокодувальну ШНМ використовували в біоінформатиці для передбачування анотацій генної онтології та зв'язків між генами й функціями.[211]

У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв[212] та для передбачування ускладнень здоров'я з даних електронних медичних записів.[213]

Аналіз медичних зображень

Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявлення уражень, сегментування органів та покращування зображень.[214][215] Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.[216][217]

Мобільна реклама

Знайти відповідну мобільну аудиторію для мобільної реклами завжди складно, оскільки необхідно розглянути та проаналізувати багато точок даних, перш ніж стане можливо створити цільовий сегмент і використати його для розміщення реклами на будь-якому рекламному сервері.[218] Глибоке навчання використовували для інтерпретування великих, багатовимірних наборів рекламних даних. Під час циклу інтернет-реклами запит/подача/натискання збирають багато точок даних. Ця інформація може ставати основою машинного навчання для покращення обирання оголошень.

Відновлювання зображень

Глибоке навчання було успішно застосовано до обернених задач[en], таких як знешумлювання, надвисока роздільність[en], заповнювання прогалин[en] та кольоризування фільмів.[219] До цих застосувань входять такі методи навчання як «Shrinkage Fields for Effective Image Restoration»,[220] який тренується на наборі зображень, та глибоке апріорне зображень[en] (англ. Deep Image Prior), що тренується на зображенні, якому потрібне відновлення.

Виявляння фінансового шахрайства

Глибоке навчання успішно застосовують для виявляння фінансового шахрайства, ухилення від сплати податків[221] та боротьби з відмиванням грошей.[222]

Військові

Міністерство оборони Сполучених Штатів застосовувало глибоке навчання, щоб тренувати роботів виконувати нові завдання через спостереження.[223]

Диференціальні рівняння з частинними похідними

Фізичні нейронні мережі (англ. physics informed neural networks) використовували для розв'язування диференціальних рівнянь із частинними похідними як у прямих, так і в обернених задачах на основі даних.[224] Одним із прикладів є відбудова потоку рідини, керована рівняннями Нав'є — Стокса. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи обчислювальної гідродинаміки.[225][226]

Відбудова зображень

Відбудова зображень (англ. image reconstruction) — це відбудова зображень, що лежать в основі пов'язаних із зображеннями вимірювань. Декілька праць показали кращу та відмінну продуктивність методів глибокого навчання порівняно з аналітичними методами для різних застосувань, наприклад, спектральних[227] та ультразвукових зображень.[228]

Епігенетичний годинник

Епігенетичний годинник (англ. epigenetic clock) — це біохімічний тест, який можливо використовувати для вимірювання віку. Галкін зі співавт. використали глибокі нейронні мережі, щоби натренувати епігенетичний годинник старіння з безпрецедентною точністю, використавши понад 6000 зразків крові.[229] Цей годинник використовує інформацію з 1000 CpG-острівців і передбачує людей з певними станами старше здорових контрольних груп: ЗЗК[en], лобово-скроневою деменцією, раком яєчника, ожирінням. Цей годинник старіння планувала випустити для загального використання в 2021 року дочірня компанія компанії Insilico Medicine[en], Deep Longevity.

Відношення до когнітивного розвитку людини та розвитку мозку

Глибоке навчання тісно пов'язане з класом теорій розвитку мозку[en] (особливо нової кори), запропонованих когнітивними нейробіологами на початку 1990-х років.[230][231][232][233] Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля чинника росту нервів) підтримують самоорганізацію, дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і нова кора, нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос вимірювальних перетворювачів, добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих чинників росту… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».[234]

Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму зворотного поширення з метою підвищення реалістичності його обробки.[235][236] Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних породжувальних моделях та глибоких мережах переконань.[237][238] У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.[239]

Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів[240] і нейронних популяцій.[241] Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі приматів[242] як на рівні окремого вузла[243], так і на рівні популяції.[244]

Комерційна діяльність

Лабораторія ШІ Facebook виконує такі завдання як автоматичне мічення завантажених зображень[en] іменами людей на них.[245]

Google DeepMind Technologies розробила систему, здатну навчитися грати у відеоігри Atari, використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему AlphaGo, яка навчилася грі Ґо настільки добре, що перемогла професійного гравця.[246][247][248] Перекладач Google використовує нейронну мережу, щоби перекладати між понад 100 мовами.

2017 року було запущено Covariant.ai, зосереджений на інтегруванні глибокого навчання на заводах.[249]

Станом на 2008 рік[250] дослідники Техаського університету в Остіні (UT) розробили систему машинного навчання під назвою Training an Agent Manually via Evaluative Reinforcement (укр. ручне тренування агента через оцінювальне підкріплення), або TAMER, яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.[223] Спершу розроблений як TAMER, новий алгоритм під назвою Deep TAMER було пізніше представлено 2018 року під час співпраці між Дослідницькою лабораторією армії США (ARL) та дослідниками UT. Deep TAMER використовував глибоке навчання, щоби надати роботу здатності навчатися нових завдань шляхом спостерігання.[223] Використовуючи Deep TAMER, робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».[251]

Критика та коментарі

Глибоке навчання притягувало як критику, так і коментарі, у деяких випадках поза межами галузі інформатики.

Теорія

Основна критика стосується браку теорії навколо деяких методів.[252] Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як порівняльна розбіжність, не така ясна[джерело?] (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на чорну скриньку, роблячи більшість підтверджень емпірично, а не теоретично.[253]

Інші зазначають, що глибоке навчання слід розглядати як крок до втілення сильного ШІ, а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної для повного втілення цієї мети. Психолог-дослідник Ґері Маркус[en] зазначив:

«Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання причинно-наслідкових зв'язків (…) вони не мають очевидних способів здійснення логічних висновків, і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як Watson (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик баєсового висновування, і аж до дедуктивного міркування».[254]

Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,[255] демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті Ґардіан.[256]

Хоч глибоке навчання й складається з дюжин і навіть сотень шарів, ця архітектура не видається схожою на структуру мозку. Симуляції на неглибоких мережах, ближчі до динаміки мозку, вказують на подібну продуктивність, як глибоке навчання з меншою складністю.[257][258]

Помилки

Деякі архітектури глибокого навчання демонструють проблематичну поведінку,[259] наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)[260] та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).[261] Ґьорцель припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури загального штучного інтелекту (ЗШІ).[259] Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень[262] спостережуваних об'єктів та подій.[259] Виведення граматики[en] (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи міркуваннями здорового глузду[en], які оперують поняттями в термінах граматичних породжувальних правил[en], і є основною метою як засвоєння мови людиною,[263] так і штучного інтелекту (ШІ).[264]

Кіберзагроза

Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість штучних нейронних мереж до хакерів та обману.[265] Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» (англ. “adversarial attack”).[266]

2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.[267] Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад TinEye, який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято.[268]

Інша група показала, що певні психоделічні видовища можуть змусити систему розпізнавання облич вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до знаків заборони проїзду без зупинки, змусивши ШНМ класифікувати їх неправильно.[267]

Проте ШМН можливо додатково тренувати виявляти спроби обману, що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від зловмисних програм. ШМН було навчено перемагати програмне забезпечення захисту від зловмисного програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося генетичним алгоритмом, доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.[267]

2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд Google Now відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».[267]

В «отруюванні даними[en]» до тренувального набору системи машинного навчання систематично підкидають хибні дані, щоби завадити їй досягти майстерності.[267]

Етика збирання даних

Більшість систем глибокого навчання покладаються на тренувальні та контрольні (англ. verification) дані, породжувані та/або розмічувані людьми.[269] У філософії засобів масової інформації стверджують, що для цієї мети регулярно використовують не лише низькооплачувану клікпрацю[en] (наприклад, на Amazon Mechanical Turk), а й неявні форми людської мікропраці[en], які часто не визнають як таку.[270] Філософ Райнер Мюльхоф розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) ігрофікація (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, CAPTCHA для розпізнавання зображень, або відстежування кліків на сторінках результатів пошуку Google), (3) використання соціальних мотивів (наприклад, позначування облич у Facebook для отримування позначених зображень обличчя), (4) розроблення інформації (наприклад, за допомогою пристроїв самооцифровування[en], таких як відстежувачі активності), та (5) клікпрацю[en].[270]

Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як система розпізнавання облич Facebook[en], потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою Facebook запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вона отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити Facebook, що на зображенні не вони.[271] Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»[270] для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» (англ. "human-aided artificial intelligence").[270]

Див. також

Примітки

  1. Schulz, Hannes; Behnke, Sven (1 November 2012). Deep Learning. KI - Künstliche Intelligenz (англ.). 26 (4): 357—363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
  2. Хома, Ю. В.; Бенч, А. Я. (2019). Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання (PDF). Комп'ютерні системи і мережі (укр.). 1 (1): 97—102.
  3. Дорош, Н. Л.; Цаплюк, О. В. (3-5 листопада 2021). Розпізнавання зображень алгоритмом глибокого навчання (PDF). VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем» (укр.). Дніпро: УДХТУ. с. 91—92.
  4. Бродкевич, В. М.; Ремесло, В. Я. (2018). Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках (PDF). Міжнародний науковий журнал «Інтернаука» (укр.). Київ. 1 (11 (51)): 56—60. ISSN 2520-2057.
  5. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep Learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  6. а б в Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition (англ.). с. 3642—3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
  7. а б Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). ImageNet Classification with Deep Convolutional Neural Networks (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada (англ.). Архів (PDF) оригіналу за 10 січня 2017. Процитовано 24 травня 2017.
  8. Google's AlphaGo AI wins three-match series against the world's best Go player. TechCrunch (англ.). 25 May 2017. Архів оригіналу за 17 June 2018. Процитовано 17 June 2018.
  9. Marblestone, Adam H.; Wayne, Greg; Kording, Konrad P. (2016). Toward an Integration of Deep Learning and Neuroscience. Frontiers in Computational Neuroscience (англ.). 10: 94. arXiv:1606.03813. Bibcode:2016arXiv160603813M. doi:10.3389/fncom.2016.00094. PMC 5021692. PMID 27683554. S2CID 1994856.
  10. Bengio, Yoshua; Lee, Dong-Hyun; Bornschein, Jorg; Mesnard, Thomas; Lin, Zhouhan (13 February 2015). Towards Biologically Plausible Deep Learning (англ.). arXiv:1502.04156 [cs.LG].
  11. а б в г д е Deng, L.; Yu, D. (2014). Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing (англ.). 7 (3–4): 1—199. doi:10.1561/2000000039. Архів (PDF) оригіналу за 14 березня 2016. Процитовано 18 жовтня 2014.
  12. Zhang, W. J.; Yang, G.; Ji, C.; Gupta, M. M. (2018). On Definition of Deep Learning. 2018 World Automation Congress (WAC) (англ.): 1—5. doi:10.23919/WAC.2018.8430387. ISBN 978-1-5323-7791-4.
  13. а б в г Bengio, Yoshua (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. S2CID 207178999. Архів оригіналу (PDF) за 4 March 2016. Процитовано 3 September 2015.
  14. а б в г д Bengio, Y.; Courville, A.; Vincent, P. (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  15. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 May 2015). Deep learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  16. а б в г д е ж и к л Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks (англ.). 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  17. Shigeki, Sugiyama (12 April 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (англ.). IGI Global. ISBN 978-1-5225-8218-2.
  18. Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems (англ.). с. 153—160. Архів (PDF) оригіналу за 20 жовтня 2019. Процитовано 6 жовтня 2019.
  19. а б Hinton, G.E. (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
  20. а б в Cybenko (1989). Approximations by superpositions of sigmoidal functions (PDF). Mathematics of Control, Signals, and Systems[en] (англ.). 2 (4): 303—314. doi:10.1007/bf02551274. S2CID 3958369. Архів оригіналу (PDF) за 10 October 2015.
  21. а б в Hornik, Kurt (1991). Approximation Capabilities of Multilayer Feedforward Networks. Neural Networks (англ.). 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. S2CID 7343126.
  22. а б Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation (англ.). Prentice Hall. ISBN 978-0-13-273350-2.
  23. а б Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks (англ.). MIT Press. с. 48. ISBN 978-0-262-08239-6.
  24. а б Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width [Архівовано 2019-02-13 у Wayback Machine.]. Neural Information Processing Systems, 6231-6239. (англ.)
  25. Orhan, A. E.; Ma, W. J. (2017). Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback. Nature Communications (англ.). 8 (1): 138. Bibcode:2017NatCo...8..138O. doi:10.1038/s41467-017-00181-8. PMC 5527101. PMID 28743932.
  26. а б в г Murphy, Kevin P. (24 August 2012). Machine Learning: A Probabilistic Perspective (англ.). MIT Press. ISBN 978-0-262-01802-9.
  27. а б Fukushima, K. (1969). Visual feature extraction by a multilayered network of analog threshold elements. IEEE Transactions on Systems Science and Cybernetics (англ.). 5 (4): 322—333. doi:10.1109/TSSC.1969.300225.
  28. Sonoda, Sho; Murata, Noboru (2017). Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis (англ.). 43 (2): 233—268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
  29. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF) (англ.). Springer. ISBN 978-0-387-31073-2. Архів (PDF) оригіналу за 11 січня 2017. Процитовано 6 серпня 2017.
  30. Brush, Stephen G. (1967). History of the Lenz-Ising Model. Reviews of Modern Physics (англ.). 39 (4): 883—893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
  31. Amari, Shun-Ichi (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions (англ.). C (21): 1197—1206.
  32. а б в г д е ж и к л м н п р с т Schmidhuber, Jürgen (2022). Annotated History of Modern AI and Deep Learning (англ.). arXiv:2212.11279 [cs.NE].
  33. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (англ.). 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
  34. Tappert, Charles C. (2019). Who Is the Father of Deep Learning?. 2019 International Conference on Computational Science and Computational Intelligence (CSCI) (англ.). IEEE. с. 343—348. doi:10.1109/CSCI49370.2019.00067. ISBN 978-1-7281-5584-5. S2CID 216043128. Процитовано 31 May 2021.
  35. а б Rosenblatt, Frank (1962). Principles of Neurodynamics (англ.). Spartan, New York.
  36. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques (англ.). American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
  37. а б Ivakhnenko, Alexey (1971). Polynomial theory of complex systems (PDF). IEEE Transactions on Systems, Man, and Cybernetics (англ.). SMC-1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. Архів (PDF) оригіналу за 29 серпня 2017. Процитовано 5 листопада 2019.
  38. Robbins, H.; Monro, S. (1951). A Stochastic Approximation Method. The Annals of Mathematical Statistics (англ.). 22 (3): 400. doi:10.1214/aoms/1177729586.
  39. Amari, Shun'ichi (1967). A theory of adaptive pattern classifier. IEEE Transactions (англ.). EC (16): 279—307.
  40. Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987 (англ.)
  41. Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (фін.). University of Helsinki. с. 6—7.
  42. Linnainmaa, Seppo (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics (англ.). 16 (2): 146—160. doi:10.1007/bf01931367. S2CID 122357351.
  43. Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation? (PDF). Documenta Mathematica (англ.) (Extra Volume ISMP): 389—400. Архів оригіналу (PDF) за 21 July 2017. Процитовано 11 June 2017.
  44. Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (англ.). Open court publishing Company. ISBN 9780598818461.
  45. Kelley, Henry J. (1960). Gradient theory of optimal flight paths. ARS Journal (англ.). 30 (10): 947—954. doi:10.2514/8.5282.
  46. Werbos, Paul (1982). Applications of advances in nonlinear sensitivity analysis. System modeling and optimization (англ.). Springer. с. 762—770.
  47. Werbos, P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University (англ.). Процитовано 12 June 2017.
  48. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986. (англ.)
  49. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. (англ.). 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
  50. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions (англ.). arXiv:1710.05941 [cs.NE].
  51. Rina Dechter[en] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online [Архівовано 2016-04-19 у Wayback Machine.] (англ.)
  52. Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media. (англ.)
  53. Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005. (англ.)
  54. а б Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics (англ.).
  55. Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics (англ.). 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
  56. а б LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989. (англ.)
  57. Zhang, Wei (1991). Image processing of human corneal endothelium based on a learning network. Applied Optics (англ.). 30 (29): 4211—7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526.
  58. Zhang, Wei (1994). Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network. Medical Physics (англ.). 21 (4): 517—24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017.
  59. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). Gradient-based learning applied to document recognition (PDF). Proceedings of the IEEE (англ.). 86 (11): 2278—2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Процитовано 7 жовтня 2016.
  60. а б в Schmidhuber, Jürgen (1992). Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991) (PDF). Neural Computation (англ.). 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
  61. Schmidhuber, Jürgen (1993). Habilitation Thesis (PDF) (нім.). Архів оригіналу (PDF) за 26 June 2021.
  62. Schmidhuber, Jürgen (1 November 1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
  63. а б Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021 (англ.). Springer. с. 9355—9366.
  64. Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers (англ.). arXiv:2009.14794 [cs.CL].
  65. Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993 (англ.). Springer. с. 460—463.
  66. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (12 червня 2017). Attention Is All You Need (англ.). arXiv:1706.03762 [cs.CL].
  67. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (англ.). с. 38—45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  68. He, Cheng (31 December 2021). Transformer in CV. Transformer in CV (англ.). Towards Data Science.
  69. Schmidhuber, Jürgen (1991). A possibility for implementing curiosity and boredom in model-building neural controllers. Proc. SAB'1991 (англ.). MIT Press/Bradford Books. с. 222—227.
  70. Schmidhuber, Jürgen (2010). Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010). IEEE Transactions on Autonomous Mental Development (англ.). 2 (3): 230—247. doi:10.1109/TAMD.2010.2056368. S2CID 234198.
  71. Schmidhuber, Jürgen (2020). Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991). Neural Networks (англ.). 127: 58—66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
  72. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014) (англ.). с. 2672—2680. Архів (PDF) оригіналу за 22 November 2019. Процитовано 20 August 2019.
  73. Prepare, Don't Panic: Synthetic Media and Deepfakes (англ.). witness.org. Архів оригіналу за 2 December 2020. Процитовано 25 November 2020.
  74. GAN 2.0: NVIDIA's Hyperrealistic Face Generator. SyncedReview.com (англ.). 14 грудня 2018. Процитовано 3 жовтня 2019.
  75. Karras, Tero; Aila, Timo; Laine, Samuli; Lehtinen, Jaakko (1 жовтня 2017). Progressive Growing of GANs for Improved Quality, Stability, and Variation (англ.). arXiv:1710.10196.
  76. а б в S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen [Архівовано 2015-03-06 у Wayback Machine.]," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
  77. Hochreiter, S. та ін. (15 January 2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kolen, John F.; Kremer, Stefan C. (ред.). A Field Guide to Dynamical Recurrent Networks (англ.). John Wiley & Sons. ISBN 978-0-7803-5369-5.
  78. а б в Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
  79. Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM. 9th International Conference on Artificial Neural Networks: ICANN '99 (англ.). Т. 1999. с. 850—855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
  80. Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 May 2015). Highway Networks (англ.). arXiv:1505.00387 [cs.LG].
  81. Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Jürgen (2015). Training Very Deep Networks. Advances in Neural Information Processing Systems (англ.). Curran Associates, Inc. 28: 2377—2385.
  82. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). Las Vegas, NV, USA: IEEE. с. 770—778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  83. de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8 August 1994). An integrated Boolean neural network for pattern classification. Pattern Recognition Letters (англ.). 15 (8): 807—813. Bibcode:1994PaReL..15..807D. doi:10.1016/0167-8655(94)90009-4.
  84. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 May 1995). The wake-sleep algorithm for unsupervised neural networks. Science (англ.). 268 (5214): 1158—1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831. S2CID 871473.
  85. Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science (англ.). Т. 2766. Springer. doi:10.1007/b11963. ISBN 3-540-40722-7. S2CID 1304548.
  86. Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 August 1993). Hybrid neural network/hidden markov model systems for continuous speech recognition. International Journal of Pattern Recognition and Artificial Intelligence (англ.). 07 (4): 899—916. doi:10.1142/s0218001493000455. ISSN 0218-0014.
  87. Robinson, T. (1992). A real-time recurrent error propagation network word recognition system. ICASSP. Icassp'92 (англ.): 617—620. ISBN 9780780305328. Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
  88. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (March 1989). Phoneme recognition using time-delay neural networks (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing (англ.). 37 (3): 328—339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Архів (PDF) оригіналу за 27 квітня 2021. Процитовано 24 вересня 2019.
  89. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). Research Developments and Directions in Speech Recognition and Understanding, Part 1. IEEE Signal Processing Magazine (англ.). 26 (3): 75—80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891. S2CID 357467.
  90. Bengio, Y. (1991). Artificial Neural Networks and their Application to Speech/Sequence Recognition (англ.). McGill University Ph.D. thesis. Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
  91. Deng, L.; Hassanein, K.; Elmasry, M. (1994). Analysis of correlation structure for a neural predictive model with applications to speech recognition. Neural Networks (англ.). 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.
  92. Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective. Speech Communication (англ.). 31 (2): 225—254. doi:10.1016/S0167-6393(99)00080-1.
  93. а б Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design. Speech Communication (англ.). 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.
  94. Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 May 2021. Процитовано 14 June 2017.
  95. а б Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). Biologically Plausible Speech Recognition with LSTM Neural Nets (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland (англ.). с. 175—184. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 9 квітня 2016.
  96. а б в Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the International Conference on Machine Learning, ICML 2006 (англ.): 369—376. CiteSeerX 10.1.1.75.6306.
  97. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting [Архівовано 2018-11-18 у Wayback Machine.]. Proceedings of ICANN (2), pp. 220–229. (англ.)
  98. а б в Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). Google voice search: faster and more accurate (англ.). Архів оригіналу за 9 березня 2016. Процитовано 9 квітня 2016.
  99. Yann LeCun (2016). Slides on Deep Learning Online [Архівовано 2016-04-23 у Wayback Machine.] (англ.)
  100. Hinton, Geoffrey E. (1 October 2007). Learning multiple layers of representation. Trends in Cognitive Sciences (англ.). 11 (10): 428—434. doi:10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Архів оригіналу за 11 October 2013. Процитовано 12 June 2017.
  101. Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). A Fast Learning Algorithm for Deep Belief Nets (PDF). Neural Computation[en] (англ.). 18 (7): 1527—1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Архів (PDF) оригіналу за 23 грудня 2015. Процитовано 20 липня 2011.
  102. Bengio, Yoshua (2012). Practical recommendations for gradient-based training of deep architectures (англ.). arXiv:1206.5533 [cs.LG].
  103. G. E. Hinton., "Learning multiple layers of representation [Архівовано 2018-05-22 у Wayback Machine.]," Trends in Cognitive Sciences, 11, pp. 428–434, 2007. (англ.)
  104. а б в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups. IEEE Signal Processing Magazine (англ.). 29 (6): 82—97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. S2CID 206485943.
  105. а б в Deng, L.; Hinton, G.; Kingsbury, B. (2013). New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP) (PDF) (англ.). Архів (PDF) оригіналу за 26 вересня 2017. Процитовано 12 червня 2017.
  106. а б в Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer) (англ.). ISBN 978-1-4471-5779-3.
  107. Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research. Microsoft Research (англ.). 3 December 2015. Архів оригіналу за 16 March 2018. Процитовано 16 March 2018.
  108. а б Li, Deng (September 2014). Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'. Interspeech (англ.). Архів оригіналу за 26 вересня 2017. Процитовано 12 червня 2017.
  109. Yu, D.; Deng, L. (2010). Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition. NIPS Workshop on Deep Learning and Unsupervised Feature Learning (англ.). Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
  110. Seide, F.; Li, G.; Yu, D. (2011). Conversational speech transcription using context-dependent deep neural networks. Interspeech (англ.): 437—440. doi:10.21437/Interspeech.2011-169. S2CID 398770. Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
  111. Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 May 2013). Recent Advances in Deep Learning for Speech Research at Microsoft. Microsoft Research (англ.). Архів оригіналу за 12 October 2017. Процитовано 14 June 2017.
  112. Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). Non-linear frequency warping using constant-Q transformation for speech emotion recognition. 2021 International Conference on Computer Communication and Informatics (ICCCI) (англ.). с. 1—4. arXiv:2102.04029. doi:10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID 231846518.
  113. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling (PDF) (англ.). Архів оригіналу (PDF) за 24 April 2018.
  114. Li, Xiangang; Wu, Xihong (2014). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. arXiv:1410.4281 [cs.CL]. {{cite arXiv}}: Проігноровано невідомий параметр |langyage= (довідка)
  115. Zen, Heiga; Sak, Hasim (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis (PDF). Google.com (англ.). ICASSP. с. 4470—4474. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  116. Nvidia CEO bets big on deep learning and VR (англ.). Venture Beat. 5 April 2016. Архів оригіналу за 25 November 2020. Процитовано 21 April 2017.
  117. From not working to neural networking. The Economist (англ.). Архів оригіналу за 31 грудня 2016. Процитовано 26 серпня 2017.
  118. а б Oh, K.-S.; Jung, K. (2004). GPU implementation of neural networks. Pattern Recognition (англ.). 37 (6): 1311—1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
  119. "A Survey of Techniques for Optimizing Deep Learning on GPUs [Архівовано 2021-05-09 у Wayback Machine.]", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 (англ.)
  120. а б Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing (англ.), архів оригіналу за 18 травня 2020, процитовано 14 лютого 2021
  121. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 September 2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation (англ.). 22 (12): 3207—3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
  122. Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). Large-scale Deep Unsupervised Learning Using Graphics Processors. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09 (англ.). New York, NY, USA: ACM: 873—880. CiteSeerX 10.1.1.154.372. doi:10.1145/1553374.1553486. ISBN 9781605585161. S2CID 392458.
  123. Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). Efficient Processing of Deep Neural Networks: A Tutorial and Survey. arXiv:1703.09039 [cs.CV].
  124. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 (англ.)
  125. Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html (англ.)
  126. Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF). International Joint Conference on Artificial Intelligence (англ.). doi:10.5591/978-1-57735-516-8/ijcai11-210. Архів (PDF) оригіналу за 29 вересня 2014. Процитовано 13 червня 2017.
  127. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 25 (PDF) (англ.). Curran Associates, Inc. с. 2843—2851. Архів (PDF) оригіналу за 9 серпня 2017. Процитовано 13 червня 2017.
  128. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks. Proceedings MICCAI. Lecture Notes in Computer Science (англ.). 7908 (Pt 2): 411—418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  129. Simonyan, Karen; Andrew, Zisserman (2014). Very Deep Convolution Networks for Large Scale Image Recognition (англ.). arXiv:1409.1556 [cs.CV].
  130. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). Show and Tell: A Neural Image Caption Generator (англ.). arXiv:1411.4555 [cs.CV]..
  131. Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). From Captions to Visual Concepts and Back (англ.). arXiv:1411.4952 [cs.CV]..
  132. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (англ.). arXiv:1411.2539 [cs.LG]..
  133. а б Merck Molecular Activity Challenge. kaggle.com (англ.). Архів оригіналу за 16 липня 2020. Процитовано 16 липня 2020.
  134. а б Multi-task Neural Networks for QSAR Predictions | Data Science Association. www.datascienceassn.org (англ.). Архів оригіналу за 30 April 2017. Процитовано 14 June 2017.
  135. а б "Toxicology in the 21st century Data Challenge" (англ.)
  136. а б NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 8 вересня 2015. Процитовано 5 березня 2015.
  137. а б NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 28 February 2015. Процитовано 5 March 2015.
  138. Why Deep Learning Is Suddenly Changing Your Life. Fortune (англ.). 2016. Архів оригіналу за 14 April 2018. Процитовано 13 April 2018.
  139. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (January 2016). Mastering the game of Go with deep neural networks and tree search. Nature (англ.). 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
  140. A Guide to Deep Learning and Neural Networks (англ.), архів оригіналу за 2 листопада 2020, процитовано 16 листопада 2020
  141. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). Deep neural networks for object detection. Advances in Neural Information Processing Systems (англ.): 2553—2561. Архів оригіналу за 29 червня 2017. Процитовано 13 червня 2017.
  142. Rolnick, David; Tegmark, Max (2018). The power of deeper networks for expressing natural functions. International Conference on Learning Representations. ICLR 2018 (англ.). Архів оригіналу за 7 січня 2021. Процитовано 5 січня 2021.
  143. Hof, Robert D. Is Artificial Intelligence Finally Coming into Its Own?. MIT Technology Review (англ.). Архів оригіналу за 31 March 2019. Процитовано 10 July 2018.
  144. а б Gers, Felix A.; Schmidhuber, Jürgen (2001). LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks (англ.). 12 (6): 1333—1340. doi:10.1109/72.963769. PMID 18249962. Архів оригіналу за 26 січня 2020. Процитовано 25 лютого 2020.
  145. а б в Sutskever, L.; Vinyals, O.; Le, Q. (2014). Sequence to Sequence Learning with Neural Networks (PDF). Proc. NIPS (англ.). arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  146. а б Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). Exploring the Limits of Language Modeling (англ.). arXiv:1602.02410 [cs.CL].
  147. а б Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). Multilingual Language Processing from Bytes (англ.). arXiv:1512.00103 [cs.CL].
  148. Mikolov, T. та ін. (2010). Recurrent neural network based language model (PDF). Interspeech (англ.): 1045—1048. doi:10.21437/Interspeech.2010-343. S2CID 17048224. Архів (PDF) оригіналу за 16 травня 2017. Процитовано 13 червня 2017.
  149. а б Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 May 2021. Процитовано 13 June 2017.
  150. LeCun, Y. та ін. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE (англ.). 86 (11): 2278—2324. doi:10.1109/5.726791. S2CID 14542261.
  151. Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). Deep convolutional neural networks for LVCSR. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8614—8618. doi:10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6. S2CID 13816461.
  152. Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). Advances in optimizing recurrent networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8624—8628. arXiv:1212.0901. CiteSeerX 10.1.1.752.9151. doi:10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6. S2CID 12485056.
  153. Dahl, G. та ін. (2013). Improving DNNs for LVCSR using rectified linear units and dropout (PDF). ICASSP (англ.). Архів (PDF) оригіналу за 12 серпня 2017. Процитовано 13 червня 2017.
  154. Data Augmentation - deeplearning.ai | Coursera. Coursera (англ.). Архів оригіналу за 1 December 2017. Процитовано 30 November 2017.
  155. Hinton, G. E. (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003 (англ.). Архів оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  156. You, Yang; Buluç, Aydın; Demmel, James (November 2017). Scaling deep learning on GPU and knights landing clusters. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17 (англ.). SC '17, ACM. с. 1—12. doi:10.1145/3126908.3126912. ISBN 9781450351140. S2CID 8869270. Архів оригіналу за 29 July 2020. Процитовано 5 March 2018.
  157. Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi. The Journal of Supercomputing (англ.). 75: 197—227. arXiv:1702.07908. Bibcode:2017arXiv170207908V. doi:10.1007/s11227-017-1994-x. S2CID 14135321.
  158. Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61. (англ.)
  159. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array [Архівовано 2018-11-18 у Wayback Machine.]." Neural Processing Letters 22.1 (2005): 1-16. (англ.)
  160. Research, AI (23 October 2015). Deep Neural Networks for Acoustic Modeling in Speech Recognition. airesearch.com (англ.). Архів оригіналу за 1 February 2016. Процитовано 23 October 2015.
  161. GPUs Continue to Dominate the AI Accelerator Market for Now. InformationWeek (англ.). December 2019. Архів оригіналу за 10 June 2020. Процитовано 11 June 2020.
  162. Ray, Tiernan (2019). AI is changing the entire nature of computation. ZDNet (англ.). Архів оригіналу за 25 May 2020. Процитовано 11 June 2020.
  163. AI and Compute. OpenAI (англ.). 16 May 2018. Архів оригіналу за 17 June 2020. Процитовано 11 June 2020.
  164. HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global. consumer.huawei.com (англ.).
  165. P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 червня 2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. ACM SIGARCH Computer Architecture News (EN) . 45 (2): 1—12. doi:10.1145/3140659.3080246.
  166. Woodie, Alex (1 листопада 2021). Cerebras Hits the Accelerator for Deep Learning Workloads. Datanami (англ.). Процитовано 3 серпня 2022.
  167. Cerebras launches new AI supercomputing processor with 2.6 trillion transistors. VentureBeat (амер.). 20 квітня 2021. Процитовано 3 серпня 2022.
  168. Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). Logic-in-memory based on an atomically thin semiconductor. Nature (англ.). 587 (2): 72—77. Bibcode:2020Natur.587...72M. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
  169. а б в Feldmann, J.; Youngblood, N.; Karpov, M. та ін. (2021). Parallel convolutional processing using an integrated photonic tensor. Nature (англ.). 589 (2): 52—58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
  170. TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia. (англ.)
  171. Robinson, Tony (30 September 1991). Several Improvements to a Recurrent Error Propagation Network Phone Recognition System. Cambridge University Engineering Department Technical Report (англ.). CUED/F-INFENG/TR82. doi:10.13140/RG.2.2.15418.90567.
  172. Abdel-Hamid, O. та ін. (2014). Convolutional Neural Networks for Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing (англ.). 22 (10): 1533—1545. doi:10.1109/taslp.2014.2339736. S2CID 206602362. Архів оригіналу за 22 вересня 2020. Процитовано 20 квітня 2018.
  173. Deng, L.; Platt, J. (2014). Ensemble Deep Learning for Speech Recognition. Proc. Interspeech (англ.): 1915—1919. doi:10.21437/Interspeech.2014-433. S2CID 15641618.
  174. Tóth, Laszló (2015). Phone Recognition with Hierarchical Convolutional Deep Maxout Networks (PDF). EURASIP Journal on Audio, Speech, and Music Processing (англ.). 2015. doi:10.1186/s13636-015-0068-3. S2CID 217950236. Архів (PDF) оригіналу за 24 вересня 2020. Процитовано 1 квітня 2019.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  175. McMillan, Robert (17 December 2014). How Skype Used AI to Build Its Amazing New Language Translator | WIRED. Wired (англ.). Архів оригіналу за 8 June 2017. Процитовано 14 June 2017.
  176. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). Deep Speech: Scaling up end-to-end speech recognition (англ.). arXiv:1412.5567 [cs.CL].
  177. MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges. yann.lecun.com (англ.). Архів оригіналу за 13 січня 2014. Процитовано 28 січня 2014.
  178. Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (August 2012). Multi-column deep neural network for traffic sign classification. Neural Networks. Selected Papers from IJCNN 2011 (англ.). 32: 333—338. CiteSeerX 10.1.1.226.8219. doi:10.1016/j.neunet.2012.02.023. PMID 22386783.
  179. Chaochao Lu; Xiaoou Tang (2014). Surpassing Human Level Face Recognition (англ.). arXiv:1404.3840 [cs.CV].
  180. Nvidia Demos a Car Computer Trained with "Deep Learning" (6 January 2015), David Talbot, MIT Technology Review (англ.)
  181. а б в G. W. Smith; Frederic Fol Leymarie (10 April 2017). The Machine as Artist: An Introduction. Arts (англ.). 6 (4): 5. doi:10.3390/arts6020005.
  182. а б в Blaise Agüera y Arcas (29 September 2017). Art in the Age of Machine Intelligence. Arts (англ.). 6 (4): 18. doi:10.3390/arts6040018.
  183. Goldberg, Yoav; Levy, Omar (2014). word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method (англ.). arXiv:1402.3722 [cs.CL].
  184. а б Socher, Richard; Manning, Christopher. Deep Learning for NLP (PDF) (англ.). Архів (PDF) оригіналу за 6 July 2014. Процитовано 26 October 2014.
  185. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing With Compositional Vector Grammars (PDF). Proceedings of the ACL 2013 Conference (англ.). Архів (PDF) оригіналу за 27 листопада 2014. Процитовано 3 вересня 2014.
  186. Socher, Richard (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (PDF) (англ.). Архів (PDF) оригіналу за 28 грудня 2016. Процитовано 3 вересня 2014.
  187. Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 November 2014). A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval. Microsoft Research (англ.). Архів оригіналу за 27 October 2017. Процитовано 14 June 2017.
  188. Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 October 2013). Learning Deep Structured Semantic Models for Web Search using Clickthrough Data. Microsoft Research (англ.). Архів оригіналу за 27 October 2017. Процитовано 14 June 2017.
  189. Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). Using recurrent neural networks for slot filling in spoken language understanding. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 23 (3): 530—539. doi:10.1109/taslp.2014.2383614. S2CID 1317136.
  190. а б Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 June 2014). Learning Continuous Phrase Representations for Translation Modeling. Microsoft Research (англ.). Архів оригіналу за 27 October 2017. Процитовано 14 June 2017.
  191. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). Authorship verification using deep belief network systems. International Journal of Communication Systems (англ.). 30 (12): e3259. doi:10.1002/dac.3259. S2CID 40745740.
  192. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). Precision information extraction for rare disease epidemiology at scale. Journal of Translational Medicine (англ.). 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  193. Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research. Microsoft Research (англ.). Архів оригіналу за 13 March 2017. Процитовано 14 June 2017.
  194. Turovsky, Barak (15 November 2016). Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog (англ.). Архів оригіналу за 7 April 2017. Процитовано 23 March 2017.
  195. а б в г Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 November 2016). Zero-Shot Translation with Google's Multilingual Neural Machine Translation System. Google Research Blog (англ.). Архів оригіналу за 10 July 2017. Процитовано 23 March 2017.
  196. Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg та ін. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (англ.). arXiv:1609.08144 [cs.CL].
  197. Metz, Cade (27 September 2016). An Infusion of AI Makes Google Translate More Powerful Than Ever. Wired (англ.). Архів оригіналу за 8 November 2020. Процитовано 12 October 2017.
  198. а б Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). MT on and for the Web (PDF) (англ.). Архів оригіналу (PDF) за 29 March 2017. Процитовано 1 December 2016.
  199. Arrowsmith, J; Miller, P (2013). Trial watch: Phase II and phase III attrition rates 2011-2012. Nature Reviews Drug Discovery (англ.). 12 (8): 569. doi:10.1038/nrd4090. PMID 23903212. S2CID 20246434.
  200. Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project. Drug Discovery Today (англ.). 20 (5): 505—513. doi:10.1016/j.drudis.2014.12.014. PMID 25582842.
  201. Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 October 2015). AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery (англ.). arXiv:1510.02855 [cs.LG].
  202. а б Toronto startup has a faster way to discover effective medicines. The Globe and Mail (англ.). Архів оригіналу за 20 October 2015. Процитовано 9 November 2015.
  203. Startup Harnesses Supercomputers to Seek Cures. KQED Future of You (англ.). 27 May 2015. Архів оригіналу за 24 December 2015. Процитовано 9 November 2015.
  204. Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 червня 2017). Neural Message Passing for Quantum Chemistry (англ.). arXiv:1704.01212 [cs.LG].
  205. Zhavoronkov, Alex (2019). Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nature Biotechnology (англ.). 37 (9): 1038—1040. doi:10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
  206. Gregory, Barber. A Molecule Designed By AI Exhibits 'Druglike' Qualities. Wired (англ.). Архів оригіналу за 30 квітня 2020. Процитовано 5 вересня 2019.
  207. Tkachenko, Yegor (8 April 2015). Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space (англ.). arXiv:1504.01840 [cs.LG].
  208. van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 26 (PDF) (англ.). Curran Associates, Inc. с. 2643—2651. Архів (PDF) оригіналу за 16 травня 2017. Процитовано 14 червня 2017.
  209. Feng, X.Y.; Zhang, H.; Ren, Y.J.; Shang, P.H.; Zhu, Y.; Liang, Y.C.; Guan, R.C.; Xu, D. (2019). The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study. Journal of Medical Internet Research[en] (англ.). 21 (5): e12957. doi:10.2196/12957. PMC 6555124. PMID 31127715.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  210. Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 May 2015). A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems. Microsoft Research (англ.). Архів оригіналу за 25 January 2018. Процитовано 14 June 2017.
  211. Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 January 2014). Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions (англ.). ACM. с. 533—540. doi:10.1145/2649387.2649442. hdl:11311/964622. ISBN 9781450328944. S2CID 207217210. Архів оригіналу за 9 May 2021. Процитовано 23 November 2015. {{cite book}}: Проігноровано |journal= (довідка)
  212. Sathyanarayana, Aarti (1 January 2016). Sleep Quality Prediction From Wearable Data Using Deep Learning. JMIR mHealth and uHealth (англ.). 4 (4): e125. doi:10.2196/mhealth.6562. PMC 5116102. PMID 27815231. S2CID 3821594.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  213. Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 August 2016). Using recurrent neural network models for early detection of heart failure onset. Journal of the American Medical Informatics Association (англ.). 24 (2): 361—370. doi:10.1093/jamia/ocw112. ISSN 1067-5027. PMC 5391725. PMID 27521897.
  214. Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen A.W.M.; van Ginneken, Bram; Sánchez, Clara I. (December 2017). A survey on deep learning in medical image analysis. Medical Image Analysis (англ.). 42: 60—88. arXiv:1702.05747. Bibcode:2017arXiv170205747L. doi:10.1016/j.media.2017.07.005. PMID 28778026. S2CID 2088679.
  215. Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) (англ.). с. 82—89. doi:10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID 4728736. Архів оригіналу за 9 травня 2021. Процитовано 12 листопада 2019.
  216. Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework. IEEE Access (англ.). 8: 129889—129898. doi:10.1109/ACCESS.2020.3006362. ISSN 2169-3536. S2CID 220733699.
  217. Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 квітня 2022). System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network. Cancers (англ.). 14 (7): 1819. doi:10.3390/cancers14071819. ISSN 2072-6694. PMC 8997449. PMID 35406591.
  218. De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). Predicting the popularity of instagram posts for a lifestyle magazine using deep learning. 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA) (англ.). с. 174—177. doi:10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
  219. Colorizing and Restoring Old Images with Deep Learning. FloydHub Blog (англ.). 13 November 2018. Архів оригіналу за 11 October 2019. Процитовано 11 October 2019.
  220. Schmidt, Uwe; Roth, Stefan. Shrinkage Fields for Effective Image Restoration (PDF). Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on (англ.). Архів (PDF) оригіналу за 2 січня 2018. Процитовано 1 січня 2018.
  221. Kleanthous, Christos; Chatzis, Sotirios (2020). Gated Mixture Variational Autoencoders for Value Added Tax audit case selection. Knowledge-Based Systems (англ.). 188: 105048. doi:10.1016/j.knosys.2019.105048. S2CID 204092079.
  222. Czech, Tomasz (28 June 2018). Deep learning: the next frontier for money laundering detection. Global Banking and Finance Review (англ.). Архів оригіналу за 16 листопада 2018. Процитовано 15 липня 2018.
  223. а б в Army researchers develop new algorithms to train robots. EurekAlert! (англ.). Архів оригіналу за 28 August 2018. Процитовано 29 August 2018.
  224. Raissi, M.; Perdikaris, P.; Karniadakis, G. E. (1 лютого 2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics (англ.). 378: 686—707. Bibcode:2019JCoPh.378..686R. doi:10.1016/j.jcp.2018.10.045. ISSN 0021-9991. OSTI 1595805. S2CID 57379996.
  225. Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 березня 2020). Physics-informed neural networks for high-speed flows. Computer Methods in Applied Mechanics and Engineering (англ.). 360: 112789. Bibcode:2020CMAME.360k2789M. doi:10.1016/j.cma.2019.112789. ISSN 0045-7825. S2CID 212755458.
  226. Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 лютого 2020). Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations. Science (англ.). 367 (6481): 1026—1030. Bibcode:2020Sci...367.1026R. doi:10.1126/science.aaw4741. PMC 7219083. PMID 32001523.
  227. Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction. IEEE Transactions on Computational Imaging (англ.). 7: 489—504. arXiv:2008.11625. doi:10.1109/TCI.2021.3075349. ISSN 2333-9403. S2CID 235340737.
  228. Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (December 2020). Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction. IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control (англ.). 67 (12): 2584—2594. arXiv:2006.14395. doi:10.1109/TUFFC.2020.3010186. ISSN 1525-8955. PMID 32746211. S2CID 220055785.
  229. Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). DeepMAge: A Methylation Aging Clock Developed with Deep Learning. Aging and Disease (англ.). doi:10.14336/AD.
  230. Utgoff, P. E.; Stracuzzi, D. J. (2002). Many-layered learning. Neural Computation (англ.). 14 (10): 2497—2529. doi:10.1162/08997660260293319. PMID 12396572. S2CID 1119517.
  231. Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development (англ.). MIT Press. ISBN 978-0-262-55030-7.
  232. Shrager, J.; Johnson, MH (1996). Dynamic plasticity influences the emergence of function in a simple cortical array. Neural Networks (англ.). 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0. PMID 12662587.
  233. Quartz, SR; Sejnowski, TJ (1997). The neural basis of cognitive development: A constructivist manifesto. Behavioral and Brain Sciences (англ.). 20 (4): 537—556. CiteSeerX 10.1.1.41.7854. doi:10.1017/s0140525x97001581. PMID 10097006. S2CID 5818342.
  234. S. Blakeslee., "In brain's early growth, timetable may be critical," The New York Times, Science Section, pp. B5–B6, 1995. (англ.)
  235. Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 May 1991). A more biologically plausible learning rule for neural networks. Proceedings of the National Academy of Sciences (англ.). 88 (10): 4433—4437. Bibcode:1991PNAS...88.4433M. doi:10.1073/pnas.88.10.4433. ISSN 0027-8424. PMC 51674. PMID 1903542.
  236. O'Reilly, Randall C. (1 July 1996). Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm. Neural Computation (англ.). 8 (5): 895—938. doi:10.1162/neco.1996.8.5.895. ISSN 0899-7667. S2CID 2376781.
  237. Testolin, Alberto; Zorzi, Marco (2016). Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions. Frontiers in Computational Neuroscience (англ.). 10: 73. doi:10.3389/fncom.2016.00073. ISSN 1662-5188. PMC 4943066. PMID 27468262. S2CID 9868901.
  238. Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (September 2017). Letter perception emerges from unsupervised deep learning and recycling of natural image features. Nature Human Behaviour (англ.). 1 (9): 657—664. doi:10.1038/s41562-017-0186-2. ISSN 2397-3374. PMID 31024135. S2CID 24504018.
  239. Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 November 2011). Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons. PLOS Computational Biology (англ.). 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. doi:10.1371/journal.pcbi.1002211. ISSN 1553-7358. PMC 3207943. PMID 22096452. S2CID 7504633.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  240. Cash, S.; Yuste, R. (February 1999). Linear summation of excitatory inputs by CA1 pyramidal neurons. Neuron (англ.). 22 (2): 383—394. doi:10.1016/s0896-6273(00)81098-3. ISSN 0896-6273. PMID 10069343. S2CID 14663106.
  241. Olshausen, B; Field, D (1 August 2004). Sparse coding of sensory inputs. Current Opinion in Neurobiology (англ.). 14 (4): 481—487. doi:10.1016/j.conb.2004.07.007. ISSN 0959-4388. PMID 15321069. S2CID 16560320.
  242. Yamins, Daniel L K; DiCarlo, James J (March 2016). Using goal-driven deep learning models to understand sensory cortex. Nature Neuroscience (англ.). 19 (3): 356—365. doi:10.1038/nn.4244. ISSN 1546-1726. PMID 26906502. S2CID 16970545.
  243. Zorzi, Marco; Testolin, Alberto (19 February 2018). An emergentist perspective on the origin of number sense. Phil. Trans. R. Soc. B (англ.). 373 (1740): 20170043. doi:10.1098/rstb.2017.0043. ISSN 0962-8436. PMC 5784047. PMID 29292348. S2CID 39281431.
  244. Güçlü, Umut; van Gerven, Marcel A. J. (8 July 2015). Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream. Journal of Neuroscience (англ.). 35 (27): 10005—10014. arXiv:1411.6422. doi:10.1523/jneurosci.5023-14.2015. PMC 6605414. PMID 26157000.
  245. Metz, C. (12 December 2013). Facebook's 'Deep Learning' Guru Reveals the Future of AI. Wired (англ.). Архів оригіналу за 28 March 2014. Процитовано 26 August 2017.
  246. Gibney, Elizabeth (2016). Google AI algorithm masters ancient game of Go. Nature (англ.). 529 (7587): 445—446. Bibcode:2016Natur.529..445G. doi:10.1038/529445a. PMID 26819021. S2CID 4460235. Архів оригіналу за 2 May 2019. Процитовано 30 January 2016.
  247. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 January 2016). Mastering the game of Go with deep neural networks and tree search. Nature (англ.). 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 0028-0836. PMID 26819042. S2CID 515925.публікація із закритим доступом — за платною стіною
  248. A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review. MIT Technology Review (англ.). Архів оригіналу за 1 February 2016. Процитовано 30 January 2016.
  249. Metz, Cade (6 November 2017). A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up. The New York Times (англ.). Архів оригіналу за 7 July 2019. Процитовано 5 July 2019.
  250. Bradley Knox, W.; Stone, Peter (2008). TAMER: Training an Agent Manually via Evaluative Reinforcement. 2008 7th IEEE International Conference on Development and Learning (англ.). с. 292—297. doi:10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID 5613334.
  251. Talk to the Algorithms: AI Becomes a Faster Learner. governmentciomedia.com (англ.). 16 May 2018. Архів оригіналу за 28 August 2018. Процитовано 29 August 2018.
  252. Marcus, Gary (14 January 2018). In defense of skepticism about deep learning. Gary Marcus (англ.). Архів оригіналу за 12 October 2018. Процитовано 11 October 2018.
  253. Knight, Will (14 March 2017). DARPA is funding projects that will try to open up AI's black boxes. MIT Technology Review (англ.). Архів оригіналу за 4 November 2019. Процитовано 2 November 2017.
  254. Marcus, Gary (25 листопада 2012). Is "Deep Learning" a Revolution in Artificial Intelligence?. The New Yorker (англ.). Архів оригіналу за 27 листопада 2009. Процитовано 14 червня 2017.
  255. Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 June 2015). Inceptionism: Going Deeper into Neural Networks (англ.). Google Research Blog. Архів оригіналу за 3 July 2015. Процитовано 20 June 2015.
  256. Alex Hern (18 June 2015). Yes, androids do dream of electric sheep. The Guardian (англ.). Архів оригіналу за 19 June 2015. Процитовано 20 June 2015.
  257. Meir, Yuval; Tevet, Ofek; Tzach, Yarden; Hodassman, Shiri; Gross, Ronit D.; Kanter, Ido (20 квітня 2023). Efficient shallow learning as an alternative to deep learning. Scientific Reports (англ.). 13 (1): 5423. arXiv:2211.11106. Bibcode:2023NatSR..13.5423M. doi:10.1038/s41598-023-32559-8. ISSN 2045-2322. PMC 10119101. PMID 37080998.
  258. Meir, Yuval; Ben-Noam, Itamar; Tzach, Yarden; Hodassman, Shiri; Kanter, Ido (30 січня 2023). Learning on tree architectures outperforms a convolutional feedforward network. Scientific Reports (англ.). 13 (1): 962. Bibcode:2023NatSR..13..962M. doi:10.1038/s41598-023-27986-6. ISSN 2045-2322. PMC 9886946. PMID 36717568.
  259. а б в Goertzel, Ben (2015). Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? (PDF) (англ.). Архів (PDF) оригіналу за 13 травня 2015. Процитовано 10 травня 2015.
  260. Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images (англ.). arXiv:1412.1897 [cs.CV].
  261. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). Intriguing properties of neural networks (англ.). arXiv:1312.6199 [cs.CV].
  262. Zhu, S.C.; Mumford, D. (2006). A stochastic grammar of images. Found. Trends Comput. Graph. Vis. (англ.). 2 (4): 259—362. CiteSeerX 10.1.1.681.2190. doi:10.1561/0600000018.
  263. Miller, G. A., and N. Chomsky. «Pattern conception.» Paper for Conference on pattern detection, University of Michigan. 1957. (англ.)
  264. Eisner, Jason. Deep Learning of Recursive Structure: Grammar Induction (англ.). Архів оригіналу за 30 грудня 2017. Процитовано 10 травня 2015.
  265. Hackers Have Already Started to Weaponize Artificial Intelligence. Gizmodo (англ.). 11 September 2017. Архів оригіналу за 11 October 2019. Процитовано 11 October 2019.
  266. How hackers can force AI to make dumb mistakes. The Daily Dot (англ.). 18 June 2018. Архів оригіналу за 11 October 2019. Процитовано 11 October 2019.
  267. а б в г д AI Is Easy to Fool—Why That Needs to Change. Singularity Hub (англ.). 10 October 2017. Архів оригіналу за 11 October 2017. Процитовано 11 October 2017.
  268. Gibney, Elizabeth (2017). The scientist who spots fake videos. Nature (англ.). doi:10.1038/nature.2017.22784. Архів оригіналу за 10 жовтня 2017. Процитовано 11 жовтня 2017.
  269. Tubaro, Paola (2020). Whose intelligence is artificial intelligence?. Global Dialogue (англ.): 38.
  270. а б в г Mühlhoff, Rainer (6 November 2019). Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning. New Media & Society (англ.). 22 (10): 1868—1884. doi:10.1177/1461444819885334. ISSN 1461-4448. S2CID 209363848.
  271. Facebook Can Now Find Your Face, Even When It's Not Tagged. Wired (англ.). ISSN 1059-1028. Архів оригіналу за 10 August 2019. Процитовано 22 November 2019.

Література