Глибоке навчання: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
актуалізовано переклад «Deep learning»
Рядок 1: Рядок 1:
{{Short description|Галузь машинного навчання}}
{{Short description|Галузь машинного навчання}}
{{Машинне навчання|Штучна нейронна мережа}}
[[Файл:Deep_Learning.jpg|альт=Подання зображень на кількох шарах абстракції в глибокому навчанні|міні|Подання зображень на кількох шарах абстракції в глибокому навчанні<ref>{{Cite journal|last1=Schulz|first1=Hannes|last2=Behnke|first2=Sven|date=1 листопада 2012|title=Deep Learning|journal=KI - Künstliche Intelligenz|language=en|volume=26|issue=4|pages=357–363|doi=10.1007/s13218-012-0198-z|s2cid=220523562|issn=1610-1987|url=https://www.semanticscholar.org/paper/51a80649d16a38d41dbd20472deb3bc9b61b59a0}}</ref>]]
[[Файл:Deep_Learning.jpg|альт=Подання зображень на кількох шарах абстракції в глибокому навчанні|міні|Подання зображень на кількох шарах абстракції в глибокому навчанні<ref>{{Cite journal|last1=Schulz|first1=Hannes|last2=Behnke|first2=Sven|date=1 листопада 2012|title=Deep Learning|journal=KI - Künstliche Intelligenz|language=en|volume=26|issue=4|pages=357–363|doi=10.1007/s13218-012-0198-z|s2cid=220523562|issn=1610-1987|url=https://www.semanticscholar.org/paper/51a80649d16a38d41dbd20472deb3bc9b61b59a0}}</ref>]]
{{Машинне навчання|Штучна нейронна мережа}}


'''Глибо́ке навча́ння'''<ref>{{Cite journal|last=Хома|first=Ю.&nbsp;В.|last2=Бенч|first2=А.&nbsp;Я.|year=2019|title=Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання|language=uk|url=https://science.lpnu.ua/sites/default/files/journal-paper/2020/feb/21058/var1ksm-19-99-104.pdf|journal=Комп'ютерні системи і мережі|volume=1|issue=1|pages=97—102}}</ref><ref>{{Cite conference|url=https://udhtu.edu.ua/wp-content/uploads/2021/11/kmoss-2021_05_11_2021.pdf#page=89|title=Розпізнавання зображень алгоритмом глибокого навчання|language=uk|last1=Дорош|first1=Н.&nbsp;Л.|last2=Цаплюк|first2=О.&nbsp;В.|date=3-5 листопада 2021|conference=VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем»|publisher=[[Український державний хіміко-технологічний університет|УДХТУ]]|location=Дніпро|pages=91—92|year=}}</ref><ref>{{Cite journal|last=Бродкевич|first=В.&nbsp;М.|last2=Ремесло|first2=В.&nbsp;Я.|year=2018|title=Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках|language=uk|url=https://www.inter-nauka.com/uploads/public/15305134116492.pdf#page=57|journal=Міжнародний науковий журнал «Інтернаука»|location=Київ|volume=1|issue=11 (51)|pages=56—60|issn=2520-2057}}</ref> ({{lang-en|deep learning}}, також іноді '''глиби́нне навча́ння''')&nbsp;— це частина ширшого сімейства методів [[Машинне навчання|машинного навчання]], яка ґрунтується на [[Штучна нейронна мережа|штучних нейронних мережах]] із [[Навчання подань|навчанням подань]]. Прикметник «глибоке» ({{lang-en|"deep"}}) у глибокому навчанні стосується використання декількох шарів у мережі. Використовувані методи можуть бути [[Кероване навчання|керованими]], [[Напівкероване навчання|напівкерованими]], та [[Некероване навчання|некерованими]].<ref name="NatureBengio">{{cite journal |last1=LeCun |first1= Yann|last2=Bengio |first2=Yoshua | last3=Hinton | first3= Geoffrey|s2cid=3074096 |year=2015 |title=Deep Learning |journal=Nature |volume=521 |issue=7553 |pages=436–444 |doi=10.1038/nature14539 |pmid=26017442|bibcode=2015Natur.521..436L|language=en }}</ref>
'''Глибо́ке навча́ння'''<ref name="ХомаБенч2019" /><ref name="ДорошЦаплюк2021" /><ref name="БродкевичРемесло2018" /> ({{lang-en|deep learning}}, також іноді '''глиби́нне навча́ння''')&nbsp;— це підмножина методів [[Машинне навчання|машинного навчання]] на основі [[Штучна нейронна мережа|штучних нейронних мережах]] із [[Навчання подань|навчанням подань]]. Прикметник «глибоке» ({{lang-en|"deep"}}) стосується використання декількох шарів у мережі. Використовувані методи можуть бути [[Кероване навчання|керованими]], [[Напівкероване навчання|напівкерованими]], та [[Некероване навчання|некерованими]].<ref name="NatureBengio">{{cite journal |last1=LeCun |first1= Yann|last2=Bengio |first2=Yoshua | last3=Hinton | first3= Geoffrey|s2cid=3074096 |year=2015 |title=Deep Learning |journal=Nature |volume=521 |issue=7553 |pages=436–444 |doi=10.1038/nature14539 |pmid=26017442|bibcode=2015Natur.521..436L|language=en }}</ref>


Архітектури глибокого навчання, такі як [[#Глибокі нейронні мережі|глибокі нейронні мережі]], [[Глибока мережа переконань|глибокі мережі переконань]], {{нп|глибоке навчання з підкріпленням|||Deep reinforcement learning}}, [[рекурентні нейронні мережі]], [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], застосовували в таких галузях як [[комп'ютерне бачення]], [[розпізнавання мовлення]], [[обробка природної мови]], [[машинний переклад]], [[біоінформатика]], [[конструювання ліків]], {{нп|аналіз медичних зображень|||Medical image analysis}}, [[кліматологія]], перевірка матеріалів і програми [[Ігри на спеціальній дошці|настільних ігор]], де вони дали результати, порівнянні, а в деяких випадках і кращі за продуктивність експертів&nbsp;— людей.<ref name=":9">{{Cite book |doi=10.1109/cvpr.2012.6248110 |isbn=978-1-4673-1228-8|arxiv=1202.2745|chapter=Multi-column deep neural networks for image classification|title=2012 IEEE Conference on Computer Vision and Pattern Recognition|pages=3642–3649|year=2012|last1=Ciresan|first1=D.|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|s2cid=2161592|language=en}}</ref><ref name="krizhevsky2012">{{cite journal|last1=Krizhevsky|first1=Alex|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffrey|date=2012|title=ImageNet Classification with Deep Convolutional Neural Networks|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|access-date=2017-05-24|archive-date=2017-01-10|archive-url=https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|url-status=live|language=en}}</ref><ref>{{cite web |title=Google's AlphaGo AI wins three-match series against the world's best Go player |url=https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |website=TechCrunch |date=25 травня 2017 |access-date=17 червня 2018 |archive-date=17 червня 2018 |archive-url=https://web.archive.org/web/20180617065807/https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |url-status=live |language=en }}</ref>
Архітектури глибокого навчання, такі як [[#Глибокі нейронні мережі|глибокі нейронні мережі]], [[Глибока мережа переконань|глибокі мережі переконань]], [[рекурентні нейронні мережі]], [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], застосовували в таких галузях як [[комп'ютерне бачення]], [[розпізнавання мовлення]], [[обробка природної мови]], [[машинний переклад]], [[біоінформатика]], [[конструювання ліків]], {{нп|аналіз медичних зображень|||Medical image analysis}}, [[кліматологія]], перевірка матеріалів і програми [[Ігри на спеціальній дошці|настільних ігор]], де вони дали результати, порівнянні, а в деяких випадках і кращі за продуктивність експертів&nbsp;— людей.<ref name=":9">{{Cite book |doi=10.1109/cvpr.2012.6248110 |isbn=978-1-4673-1228-8|arxiv=1202.2745|chapter=Multi-column deep neural networks for image classification|title=2012 IEEE Conference on Computer Vision and Pattern Recognition|pages=3642–3649|year=2012|last1=Ciresan|first1=D.|last2=Meier|first2=U.|last3=Schmidhuber|first3=J.|s2cid=2161592|language=en}}</ref><ref name="krizhevsky2012">{{cite journal|last1=Krizhevsky|first1=Alex|last2=Sutskever|first2=Ilya|last3=Hinton|first3=Geoffrey|date=2012|title=ImageNet Classification with Deep Convolutional Neural Networks|url=https://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|journal=NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada|access-date=2017-05-24|archive-date=2017-01-10|archive-url=https://web.archive.org/web/20170110123024/http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf|url-status=live|language=en}}</ref><ref>{{cite web |title=Google's AlphaGo AI wins three-match series against the world's best Go player |url=https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |website=TechCrunch |date=25 травня 2017 |access-date=17 червня 2018 |archive-date=17 червня 2018 |archive-url=https://web.archive.org/web/20180617065807/https://techcrunch.com/2017/05/24/alphago-beats-planets-best-human-go-player-ke-jie/amp/ |url-status=live |language=en }}</ref>


[[Штучна нейронна мережа|Штучні нейронні мережі]] (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в [[Біологічна система|біологічних системах]]. ШНМ мають різноманітні відмінності від біологічного [[Головний мозок|мозку]]. Зокрема, штучні нейронні мережі мають тенденцію бути статичними та символьними, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.<ref>{{Cite journal|last1=Marblestone|first1=Adam H.|last2=Wayne|first2=Greg|last3=Kording|first3=Konrad P.|s2cid=1994856|date=2016|title=Toward an Integration of Deep Learning and Neuroscience |journal=Frontiers in Computational Neuroscience |volume=10|pages=94|doi=10.3389/fncom.2016.00094 |pmc=5021692|pmid=27683554|bibcode=2016arXiv160603813M|arxiv=1606.03813|doi-access=free|language=en}}</ref><ref>{{cite arXiv|last1=Bengio|first1=Yoshua|last2=Lee|first2=Dong-Hyun|last3=Bornschein|first3=Jorg|last4=Mesnard|first4=Thomas|last5=Lin|first5=Zhouhan|date=13 лютого 2015|title=Towards Biologically Plausible Deep Learning|eprint=1502.04156|class=cs.LG|language=en}}</ref>
[[Штучна нейронна мережа|Штучні нейронні мережі]] (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в [[Біологічна система|біологічних системах]]. ШНМ мають різноманітні відмінності від біологічного мозку. Зокрема, штучні нейронні мережі мають тенденцію бути статичними та символьними, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.<ref>{{Cite journal|last1=Marblestone|first1=Adam H.|last2=Wayne|first2=Greg|last3=Kording|first3=Konrad P.|s2cid=1994856|date=2016|title=Toward an Integration of Deep Learning and Neuroscience |journal=Frontiers in Computational Neuroscience |volume=10|pages=94|doi=10.3389/fncom.2016.00094 |pmc=5021692|pmid=27683554|bibcode=2016arXiv160603813M|arxiv=1606.03813|doi-access=free|language=en}}</ref><ref>{{cite arXiv|last1=Bengio|first1=Yoshua|last2=Lee|first2=Dong-Hyun|last3=Bornschein|first3=Jorg|last4=Mesnard|first4=Thomas|last5=Lin|first5=Zhouhan|date=13 лютого 2015|title=Towards Biologically Plausible Deep Learning|eprint=1502.04156|class=cs.LG|language=en}}</ref> ШНМ загалом розглядають як низькоякісні моделі функціювання мозку.<ref>{{Cite web |date=2 листопада 2022 |title=Study urges caution when comparing neural networks to the brain |url=https://news.mit.edu/2022/neural-networks-brain-function-1102 |access-date=6 грудня 2023 |website=MIT News {{!}} Massachusetts Institute of Technology |language=en}}</ref>


{{TOC limit|3}}
{{TOC limit|3}}
Рядок 15: Рядок 15:
Глибоке навчання&nbsp;— це клас [[алгоритм]]ів [[Машинне навчання|машинного навчання]], який<ref name="BOOK2014">{{cite journal|last2=Yu|first2=D.|year=2014|title=Deep Learning: Methods and Applications|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=1–199|doi=10.1561/2000000039|last1=Deng|first1=L.|access-date=2014-10-18|archive-date=2016-03-14|archive-url=https://web.archive.org/web/20160314152112/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|url-status=live|language=en}}</ref>{{rp|page=199–200 }} використовує декілька шарів для поступового виділяння з сирого входу ознак усе вищих рівнів. Наприклад, при [[Цифрова обробка зображень|обробці зображень]] нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.
Глибоке навчання&nbsp;— це клас [[алгоритм]]ів [[Машинне навчання|машинного навчання]], який<ref name="BOOK2014">{{cite journal|last2=Yu|first2=D.|year=2014|title=Deep Learning: Methods and Applications|url=http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|journal=Foundations and Trends in Signal Processing|volume=7|issue=3–4|pages=1–199|doi=10.1561/2000000039|last1=Deng|first1=L.|access-date=2014-10-18|archive-date=2016-03-14|archive-url=https://web.archive.org/web/20160314152112/http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf|url-status=live|language=en}}</ref>{{rp|page=199–200 }} використовує декілька шарів для поступового виділяння з сирого входу ознак усе вищих рівнів. Наприклад, при [[Цифрова обробка зображень|обробці зображень]] нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.


Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» ({{lang-en|“deeper”}}) та «найглибше» ({{lang-en|“deepest”}}) навчання.<ref>{{cite journal |last1=Zhang |first1=W. J. |last2=Yang |first2=G. |last3=Ji |first3=C. |last4=Gupta |first4=M. M. |title=On Definition of Deep Learning |journal=2018 World Automation Congress (WAC) |date=2018 |pages=1–5 |doi=10.23919/WAC.2018.8430387|isbn=978-1-5323-7791-4 |language=en }}</ref> Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.
Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» ({{lang-en|"deeper"}}) та «найглибше» ({{lang-en|"deepest"}}) навчання.<ref>{{cite book |last1=Zhang |first1=W. J. |last2=Yang |first2=G. |last3=Ji |first3=C. |last4=Gupta |first4=M. M. |title=2018 World Automation Congress (WAC) |chapter=On Definition of Deep Learning |date=2018 |pages=1–5 |doi=10.23919/WAC.2018.8430387 |isbn=978-1-5323-7791-4 |s2cid=51971897 |language=en }}</ref> Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.


== Огляд ==
== Огляд ==
Рядок 21: Рядок 21:
Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових [[Штучна нейронна мережа|штучних нейронних мережах]], таких як [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], хоча до них також можуть належати {{нп|Пропозиційна формула|пропозиційні формули||Propositional formula}} та латентні змінні, організовані пошарово в глибоких [[Породжувальна модель|породжувальних моделях]], такі як вузли в [[Глибока мережа переконань|глибоких мережах переконань]] чи глибоких [[Машина Больцмана|машинах Больцмана]].<ref name="BENGIODEEP">{{cite journal|last=Bengio|first=Yoshua|year=2009|title=Learning Deep Architectures for AI|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|journal=Foundations and Trends in Machine Learning|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|citeseerx=10.1.1.701.9550|s2cid=207178999 |access-date=3 вересня 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 березня 2016|url-status=dead|language=en}}</ref>
Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових [[Штучна нейронна мережа|штучних нейронних мережах]], таких як [[згорткові нейронні мережі]] та [[Трансформер (модель машинного навчання)|трансформери]], хоча до них також можуть належати {{нп|Пропозиційна формула|пропозиційні формули||Propositional formula}} та латентні змінні, організовані пошарово в глибоких [[Породжувальна модель|породжувальних моделях]], такі як вузли в [[Глибока мережа переконань|глибоких мережах переконань]] чи глибоких [[Машина Больцмана|машинах Больцмана]].<ref name="BENGIODEEP">{{cite journal|last=Bengio|first=Yoshua|year=2009|title=Learning Deep Architectures for AI|url=http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf|journal=Foundations and Trends in Machine Learning|volume=2|issue=1|pages=1–127|doi=10.1561/2200000006|citeseerx=10.1.1.701.9550|s2cid=207178999 |access-date=3 вересня 2015|archive-url=https://web.archive.org/web/20160304084250/http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20(2009).pdf|archive-date=4 березня 2016|url-status=dead|language=en}}</ref>


У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути [[Матриця (математика)|матрицею]] пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати розташування контурів; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може ''самостійно'' вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного налаштування; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.<ref name="BENGIO2012">{{cite journal|last2=Courville|first2=A.|last3=Vincent|first3=P.|year=2013|title=Representation Learning: A Review and New Perspectives|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1798–1828|arxiv=1206.5538|doi=10.1109/tpami.2013.50|pmid=23787338|last1=Bengio|first1=Y.|s2cid=393948|language=en}}</ref><ref>{{cite journal|last1=LeCun|first1=Yann|last2=Bengio|first2=Yoshua|last3=Hinton|first3=Geoffrey|s2cid=3074096|title=Deep learning|journal=Nature|date=28 травня 2015|volume=521|issue=7553|pages=436–444|doi=10.1038/nature14539|pmid=26017442|bibcode=2015Natur.521..436L|language=en}}</ref>
У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути [[Матриця (математика)|матрицею]] пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати розташування контурів; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може ''самостійно'' вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного настроювання; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.<ref name="BENGIO2012">{{cite journal|last2=Courville|first2=A.|last3=Vincent|first3=P.|year=2013|title=Representation Learning: A Review and New Perspectives|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=35|issue=8|pages=1798–1828|arxiv=1206.5538|doi=10.1109/tpami.2013.50|pmid=23787338|last1=Bengio|first1=Y.|s2cid=393948|language=en}}</ref><ref>{{cite journal|last1=LeCun|first1=Yann|last2=Bengio|first2=Yoshua|last3=Hinton|first3=Geoffrey|s2cid=3074096|title=Deep learning|journal=Nature|date=28 травня 2015|volume=521|issue=7553|pages=436–444|doi=10.1038/nature14539|pmid=26017442|bibcode=2015Natur.521..436L|language=en}}</ref>


Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину ''шляху розподілу внеску'' (ШРВ, {{lang-en|credit assignment path, CAP}}). ШРВ&nbsp;— це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] глибина ШРВ дорівнює глибині мережі та є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для [[Рекурентна нейронна мережа|рекурентних нейронних мереж]], у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.<ref name="SCHIDHUB" /> Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання ({{lang-en|shallow learning}}) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.<ref>{{Cite book|url=https://books.google.com/books?id=9CqQDwAAQBAJ&pg=PA15|title=Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities|last=Shigeki|first=Sugiyama|date=12 квітня 2019|publisher=IGI Global|isbn=978-1-5225-8218-2|language=en}}</ref> Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.
Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину ''шляху розподілу внеску'' (ШРВ, {{lang-en|credit assignment path, CAP}}). ШРВ&nbsp;— це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] глибина ШРВ дорівнює глибині мережі й є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для [[Рекурентна нейронна мережа|рекурентних нейронних мереж]], у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.<ref name="SCHIDHUB" /> Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання ({{lang-en|shallow learning}}) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.<ref>{{Cite book|url=https://books.google.com/books?id=9CqQDwAAQBAJ&pg=PA15|title=Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities|last=Shigeki|first=Sugiyama|date=12 квітня 2019|publisher=IGI Global|isbn=978-1-5225-8218-2|language=en}}</ref> Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.


Архітектури глибокого навчання можливо конструювати пошарово [[Жадібний алгоритм|жадібним]] методом.<ref name="BENGIO2007">{{cite conference | first1=Yoshua | last1=Bengio | first2=Pascal | last2=Lamblin | first3=Dan | last3=Popovici | first4=Hugo | last4=Larochelle | title=Greedy layer-wise training of deep networks | year=2007 | url=http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | conference=Advances in neural information processing systems | pages=153–160 | access-date=2019-10-06 | archive-date=2019-10-20 | archive-url=https://web.archive.org/web/20191020195638/http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | url-status=live | language=en }}</ref> Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.<ref name="BENGIO2012" />
Архітектури глибокого навчання можливо конструювати пошарово [[Жадібний алгоритм|жадібним]] методом.<ref name="BENGIO2007">{{cite conference | first1=Yoshua | last1=Bengio | first2=Pascal | last2=Lamblin | first3=Dan | last3=Popovici | first4=Hugo | last4=Larochelle | title=Greedy layer-wise training of deep networks | year=2007 | url=http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | conference=Advances in neural information processing systems | pages=153–160 | access-date=2019-10-06 | archive-date=2019-10-20 | archive-url=https://web.archive.org/web/20191020195638/http://papers.nips.cc/paper/3048-greedy-layer-wise-training-of-deep-networks.pdf | url-status=live | language=en }}</ref> Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.<ref name="BENGIO2012" />


Для завдань [[Кероване навчання|керованого навчання]] методи глибокого навчання усувають [[конструювання ознак]], переводячи дані до компактних проміжних подань, подібних до [[Метод головних компонент|головних компонент]], і виводять багатошарові структури, які усувають надмірність у поданні.
Для завдань [[Кероване навчання|керованого навчання]] методи глибокого навчання уможливлюють усування [[конструювання ознак]], переводячи дані до компактних проміжних подань, подібних до [[Метод головних компонент|головних компонент]], і виводять багатошарові структури, які усувають надмірність у поданні.


Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є [[Глибока мережа переконань|глибокі мережі переконань]].<ref name="BENGIO2012" /><ref name="SCHOLARDBNS">{{cite journal | last1 = Hinton | first1 = G.E. | year = 2009| title = Deep belief networks | journal = Scholarpedia | volume = 4 | issue = 5| page = 5947 | doi=10.4249/scholarpedia.5947| bibcode = 2009SchpJ...4.5947H| doi-access = free| language = en }}</ref>
Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є [[Глибока мережа переконань|глибокі мережі переконань]].<ref name="BENGIO2012" /><ref name="SCHOLARDBNS">{{cite journal | last1 = Hinton | first1 = G.E. | year = 2009| title = Deep belief networks | journal = Scholarpedia | volume = 4 | issue = 5| page = 5947 | doi=10.4249/scholarpedia.5947| bibcode = 2009SchpJ...4.5947H| doi-access = free| language = en }}</ref>

Моделі машинного навчання тепер вправні у виявлянні складних шаблонів у даних фінансових ринків. Завдяки перевагам штучного інтелекту інвестори все частіше використовують методики глибокого навчання для прогнозування та аналізу тенденцій на фондових та валютних ринках.<ref>{{Cite journal |last1=Sahu |first1=Santosh Kumar |last2=Mokhade |first2=Anil |last3=Bokde |first3=Neeraj Dhanraj |date=січень 2023 |title=An Overview of Machine Learning, Deep Learning, and Reinforcement Learning-Based Techniques in Quantitative Finance: Recent Progress and Challenges |journal=Applied Sciences |language=en |volume=13 |issue=3 |pages=1956 |doi=10.3390/app13031956 |issn=2076-3417 |doi-access=free }}</ref>


== Інтерпретації ==
== Інтерпретації ==
Рядок 37: Рядок 39:
Класична теорема про універсальне наближення стосується здатності [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з одним прихованим шаром скінченного розміру наближувати [[Неперервна функція|неперервні функції]].<ref name="cyb" /><ref name="horn" /><ref name="Haykin, Simon 1998" /><ref name="Hassoun, M. 1995 p. 48" /> 1989 року [[Джордж Цибенко]] опублікував перше її доведення для [[Сигмоїда|сигмоїдних]] передавальних функцій,<ref name="cyb" /> а 1991 року {{нп|Курт Горнік|3=de|4=Kurt Hornik}} узагальнив його для багатошарових архітектур прямого поширення.<ref name="horn" /> Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як [[випрямлений лінійний вузол]] ({{lang-en|rectified linear unit}}) {{нп|Куніхіко Фукусіма|Куніхіко Фукусіми||Kunihiko Fukushima}}.<ref name="Fukushima1969" /><ref name="sonoda17">{{cite journal | last1 = Sonoda | first1 = Sho | last2=Murata | first2=Noboru | s2cid = 12149203 | year = 2017 | title = Neural network with unbounded activation functions is universal approximator | journal = Applied and Computational Harmonic Analysis | volume = 43 | issue = 2 | pages = 233–268 | doi = 10.1016/j.acha.2015.12.005| arxiv = 1505.03654| language = en }}</ref>
Класична теорема про універсальне наближення стосується здатності [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з одним прихованим шаром скінченного розміру наближувати [[Неперервна функція|неперервні функції]].<ref name="cyb" /><ref name="horn" /><ref name="Haykin, Simon 1998" /><ref name="Hassoun, M. 1995 p. 48" /> 1989 року [[Джордж Цибенко]] опублікував перше її доведення для [[Сигмоїда|сигмоїдних]] передавальних функцій,<ref name="cyb" /> а 1991 року {{нп|Курт Горнік|3=de|4=Kurt Hornik}} узагальнив його для багатошарових архітектур прямого поширення.<ref name="horn" /> Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як [[випрямлений лінійний вузол]] ({{lang-en|rectified linear unit}}) {{нп|Куніхіко Фукусіма|Куніхіко Фукусіми||Kunihiko Fukushima}}.<ref name="Fukushima1969" /><ref name="sonoda17">{{cite journal | last1 = Sonoda | first1 = Sho | last2=Murata | first2=Noboru | s2cid = 12149203 | year = 2017 | title = Neural network with unbounded activation functions is universal approximator | journal = Applied and Computational Harmonic Analysis | volume = 43 | issue = 2 | pages = 233–268 | doi = 10.1016/j.acha.2015.12.005| arxiv = 1505.03654| language = en }}</ref>


Теорема про універсальне наближення для [[Глибока нейронна мережа|глибоких нейронних мереж]] розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.<ref name="ZhouLu" /> довели, що якщо ширина [[Глибока нейронна мережа|глибокої нейронної мережі]] з передавальною функцією ''[[ReLU]]'' строго більша за розмірність входу, то ця мережа може наближувати будь-яку [[Інтегровна за Лебегом функція|функцію, інтегровну за Лебегом]]; Якщо її ширина менша або дорівнює розмірності входу, то [[глибока нейронна мережа]] не є універсальним наближувачем.
Теорема про універсальне наближення для [[Глибока нейронна мережа|глибоких нейронних мереж]] розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.<ref name="ZhouLu" /> довели, що якщо ширина [[Глибока нейронна мережа|глибокої нейронної мережі]] з передавальною функцією ''[[ReLU]]'' строго більша за розмірність входу, то ця мережа може наближувати будь-яку [[Інтегровна за Лебегом функція|функцію, інтегровну за Лебегом]]; якщо її ширина менша або дорівнює розмірності входу, то [[глибока нейронна мережа]] не є універсальним наближувачем.


[[Імовірність|Імовірнісна]] інтерпретація<ref name="MURPHY" /> походить з галузі [[Машинне навчання|машинного навчання]]. Вона відводить провідне місце висновуванню,<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS"/><ref name="MURPHY" /> а також таким поняттям [[Оптимізація (математика)|оптимізації]] як [[тренування]] та [[Іспит|випробування]], пов'язаним із допасовуванням та [[Узагальнення|узагальнюванням]] відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як [[Кумулятивна функція розподілу ймовірності|кумулятивну функцію розподілу]].<ref name="MURPHY" /> Імовірнісна інтерпретація призвела до запровадження [[Виключення (нейронні мережі)|виключення]] ({{lang-en|dropout}}) як [[Регуляризація (математика)|регуляризатора]] в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з [[Джон Гопфілд|Гопфілдом]], {{нп|Бернард Уїдроу|Уїдроу||Bernard Widrow}} та {{нп|Кумпаті Нарендра|Нарендрою||Kumpati S. Narendra}}, й популяризовано в оглядах, таких як від {{нп|Крістофер Бішоп|Бішопа||Christopher Bishop}}.<ref name="prml">{{cite book|title=Pattern Recognition and Machine Learning|author=Bishop, Christopher M.|year=2006|publisher=Springer|url=http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|isbn=978-0-387-31073-2|access-date=2017-08-06|archive-date=2017-01-11|archive-url=https://web.archive.org/web/20170111005101/http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|url-status=live|language=en}}</ref>
[[Імовірність|Імовірнісна]] інтерпретація<ref name="MURPHY" /> походить з галузі [[Машинне навчання|машинного навчання]]. Вона відводить провідне місце висновуванню,<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="SCHOLARDBNS"/><ref name="MURPHY" /> а також таким поняттям [[Оптимізація (математика)|оптимізації]] як [[тренування]] та [[Іспит|випробування]], пов'язаним із допасовуванням та [[Узагальнення|узагальнюванням]] відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як [[Кумулятивна функція розподілу ймовірності|кумулятивну функцію розподілу]].<ref name="MURPHY" /> Імовірнісна інтерпретація призвела до запровадження [[Виключення (нейронні мережі)|виключення]] ({{lang-en|dropout}}) як [[Регуляризація (математика)|регуляризатора]] в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з [[Джон Гопфілд|Гопфілдом]], {{нп|Бернард Уїдроу|Уїдроу||Bernard Widrow}} та {{нп|Кумпаті Нарендра|Нарендрою||Kumpati S. Narendra}}, й популяризовано в оглядах, таких як від {{нп|Крістофер Бішоп|Бішопа||Christopher Bishop}}.<ref name="prml">{{cite book|title=Pattern Recognition and Machine Learning|author=Bishop, Christopher M.|year=2006|publisher=Springer|url=http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|isbn=978-0-387-31073-2|access-date=2017-08-06|archive-date=2017-01-11|archive-url=https://web.archive.org/web/20170111005101/http://users.isr.ist.utl.pt/~wurmd/Livros/school/Bishop%20-%20Pattern%20Recognition%20And%20Machine%20Learning%20-%20Springer%20%202006.pdf|url-status=live|language=en}}</ref>
Рядок 43: Рядок 45:
== Історія ==
== Історія ==


Існує два типи нейронних мереж: [[Нейронна мережа прямого поширення|нейронні мережі прямого поширення]] (НМПП, {{lang-en|feedforward neural network, FNN}}) та [[Рекурентна нейронна мережа|рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural network, RNN}}). РНМ мають цикли у структурі зв'язності, а НМПП&nbsp;— ні. У 1920-х роках {{нп|Вільгельм Ленц|||Wilhelm Lenz}} та {{нп|Ернст Ізінг|||Ernst Ising}} створили та проаналізували [[модель Ізінга]],<ref name="brush67">{{cite journal |doi=10.1103/RevModPhys.39.883|title=History of the Lenz-Ising Model|year=1967|last1=Brush|first1=Stephen G.|journal=Reviews of Modern Physics|volume=39|issue=4|pages=883–893|bibcode=1967RvMP...39..883B|language=en}}</ref> яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року {{нп|Шунічі Амарі|||Shun'ichi Amari}} зробив цю архітектуру адаптивною.<ref name="Amari1972">{{cite journal |last1=Amari |first1=Shun-Ichi |title=Learning patterns and pattern sequences by self-organizing nets of threshold elements|journal= IEEE Transactions |date=1972 |volume=C |issue=21 |pages=1197–1206 |language=en }}</ref><ref name="DLhistory" /> Його навчання РНМ популяризував [[Джон Гопфілд]] 1982 року.<ref name="Hopfield1982">{{cite journal |last1=Hopfield |first1=J. J. |title=Neural networks and physical systems with emergent collective computational abilities |journal= Proceedings of the National Academy of Sciences|date=1982 |volume=79 |issue=8 |pages=2554–2558 |doi=10.1073/pnas.79.8.2554 |pmid=6953413 |pmc=346238 |bibcode=1982PNAS...79.2554H |doi-access=free |language=en }}</ref> РНМ стали центральними для [[розпізнавання мовлення]] та {{нп|Обробка мови|обробки мови||Language processing}}.
Існує два типи нейронних мереж: [[Нейронна мережа прямого поширення|нейронні мережі прямого поширення]] (НМПП, {{lang-en|feedforward neural network, FNN}}) та [[Рекурентна нейронна мережа|рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural network, RNN}}). РНМ мають цикли у структурі зв'язності, а НМПП&nbsp;— ні. У 1920-х роках {{нп|Вільгельм Ленц|||Wilhelm Lenz}} та {{нп|Ернст Ізінг|||Ernst Ising}} створили та проаналізували [[модель Ізінга]],<ref name="brush67">{{cite journal |doi=10.1103/RevModPhys.39.883|title=History of the Lenz-Ising Model|year=1967|last1=Brush|first1=Stephen G.|journal=Reviews of Modern Physics|volume=39|issue=4|pages=883–893|bibcode=1967RvMP...39..883B|language=en}}</ref> яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року {{нп|Шунічі Амарі|||Shun'ichi Amari}} зробив цю архітектуру адаптивною.<ref name="Amari1972">{{cite journal |last1=Amari |first1=Shun-Ichi |title=Learning patterns and pattern sequences by self-organizing nets of threshold elements|journal= IEEE Transactions |date=1972 |volume=C |issue=21 |pages=1197–1206 |language=en }}</ref><ref name="DLhistory">{{cite arXiv |eprint=2212.11279 |class=cs.NE |first=Jürgen |last=Schmidhuber |author-link=Юрген Шмідхубер |title=Annotated History of Modern AI and Deep Learning |language=en |date=2022}}</ref> Його навчання РНМ популяризував [[Джон Гопфілд]] 1982 року.<ref name="Hopfield1982">{{cite journal |last1=Hopfield |first1=J. J. |title=Neural networks and physical systems with emergent collective computational abilities |journal= Proceedings of the National Academy of Sciences|date=1982 |volume=79 |issue=8 |pages=2554–2558 |doi=10.1073/pnas.79.8.2554 |pmid=6953413 |pmc=346238 |bibcode=1982PNAS...79.2554H |doi-access=free |language=en }}</ref> РНМ стали центральними для [[розпізнавання мовлення]] та {{нп|Обробка мови|обробки мови||Language processing}}.


Чарльз Тапперт пише, що [[Френк Розенблат]] розробив та дослідив усі основні складові сучасних систем глибокого навчання,<ref name="Who Is the Father of Deep Learning?">{{cite book |chapter-url=https://ieeexplore.ieee.org/document/9070967 |chapter=Who Is the Father of Deep Learning? |publisher=IEEE |doi=10.1109/CSCI49370.2019.00067 |accessdate=31 травня 2021|title=2019 International Conference on Computational Science and Computational Intelligence (CSCI) |year=2019 |last1=Tappert |first1=Charles C. |pages=343–348 |isbn=978-1-7281-5584-5 |s2cid=216043128 |language=en }}</ref> посилаючись на книгу Розенблата 1962 року,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Френк Розенблат|title=Principles of Neurodynamics|year=1962|publisher=Spartan, New York|language=en}}</ref> якою було запроваджено [[багатошаровий перцептрон]] (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу.<ref name="DLhistory">{{cite arXiv|last=Schmidhuber|first=Jürgen|author-link=Юрген Шмідхубер|date=2022|title=Annotated History of Modern AI and Deep Learning |class=cs.NE|eprint=2212.11279|language=en}}</ref> Проте, оскільки з'єднання, що навчалися, мав лише шар виходу, глибоким навчанням це ще не було. Пізніше це назвали [[Машина екстремального навчання|машиною екстремального навчання]].<ref name="DLhistory" />
Чарльз Тапперт пише, що [[Френк Розенблат]] розробив та дослідив усі основні складові сучасних систем глибокого навчання,<ref name="Who Is the Father of Deep Learning?">{{cite book |chapter-url=https://ieeexplore.ieee.org/document/9070967 |chapter=Who Is the Father of Deep Learning? |publisher=IEEE |doi=10.1109/CSCI49370.2019.00067 |accessdate=31 травня 2021|title=2019 International Conference on Computational Science and Computational Intelligence (CSCI) |year=2019 |last1=Tappert |first1=Charles C. |pages=343–348 |isbn=978-1-7281-5584-5 |s2cid=216043128 |language=en }}</ref> посилаючись на книгу Розенблата 1962 року,<ref name="rosenblatt1962">{{cite book|last=Rosenblatt|first=Frank|author-link=Френк Розенблат|title=Principles of Neurodynamics|year=1962|publisher=Spartan, New York|language=en}}</ref> якою було запроваджено [[багатошаровий перцептрон]] (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу. Він також запропонував варіанти, включно з версією з чотирьохшаровими перцептронами, де останні два шари мають ваги, що навчаються (й отже, справжній багатошаровий перцептрон).<ref name="rosenblatt1962" />{{rp|section 16}} Крім того, термін глибоке навчання запропонувала 1986 року {{нп|Ріна Дехтер|||Rina Dechter}},<ref name="dechter1986" /> хоча історія його появи, схоже, набагато складніша.<ref>{{Cite journal |last=Fradkov |first=Alexander L. |date=2020-01-01 |title=Early History of Machine Learning |journal=IFAC-PapersOnLine |language=en |series=21st IFAC World Congress |volume=53 |issue=2 |pages=1385–1390 |doi=10.1016/j.ifacol.2020.12.1888 |s2cid=235081987 |issn=2405-8963|doi-access=free }}</ref>


Перший загальний, робочий алгоритм навчання для глибоких багатошарових [[перцептрон]]ів прямого поширення керованим навчанням опублікували 1967 року [[Івахненко Олексій Григорович|Олексій Івахненко]] та [[Лапа Валентин Григорович|Валентин Лапа]].<ref name="ivak1965">{{cite book|first1=A. G. |last1=Ivakhnenko |author-link1=Івахненко Олексій Григорович |first2=V. G. |last2=Lapa |title=Cybernetics and Forecasting Techniques|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|year=1967|publisher=American Elsevier Publishing Co.|isbn=978-0-444-00020-0|language=en}}</ref> У статті 1971 року описано глибоку мережу з восьми шарів, треновану [[Метод групового урахування аргументів|методом групового урахування аргументів]].<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|author-link1=Івахненко Олексій Григорович|date=1971|title=Polynomial theory of complex systems|url=http://gmdh.net/articles/history/polynomial.pdf|journal=IEEE Transactions on Systems, Man, and Cybernetics|pages=364–378|doi=10.1109/TSMC.1971.4308320|volume=SMC-1|issue=4|access-date=2019-11-05|archive-date=2017-08-29|archive-url=https://web.archive.org/web/20170829230621/http://www.gmdh.net/articles/history/polynomial.pdf|url-status=live|language=en}}</ref>
Перший загальний, робочий алгоритм навчання для глибоких багатошарових [[перцептрон]]ів прямого поширення керованим навчанням опублікували 1967 року [[Івахненко Олексій Григорович|Олексій Івахненко]] та [[Лапа Валентин Григорович|Валентин Лапа]].<ref name="ivak1965">{{cite book|first1=A. G. |last1=Ivakhnenko |author-link1=Івахненко Олексій Григорович |first2=V. G. |last2=Lapa |title=Cybernetics and Forecasting Techniques|url={{google books |plainurl=y |id=rGFgAAAAMAAJ}}|year=1967|publisher=American Elsevier Publishing Co.|isbn=978-0-444-00020-0|language=en}}</ref> У статті 1971 року описано глибоку мережу з восьми шарів, треновану [[Метод групового урахування аргументів|методом групового урахування аргументів]].<ref name="ivak1971">{{Cite journal|last=Ivakhnenko|first=Alexey|author-link1=Івахненко Олексій Григорович|date=1971|title=Polynomial theory of complex systems|url=http://gmdh.net/articles/history/polynomial.pdf|journal=IEEE Transactions on Systems, Man, and Cybernetics|pages=364–378|doi=10.1109/TSMC.1971.4308320|volume=SMC-1|issue=4|access-date=2019-11-05|archive-date=2017-08-29|archive-url=https://web.archive.org/web/20170829230621/http://www.gmdh.net/articles/history/polynomial.pdf|url-status=live|language=en}}</ref>
Рядок 55: Рядок 57:
Ахітектури глибокого навчання для [[Згорткова нейронна мережа|згорткових нейронних мереж]] (ЗНМ, {{lang-en|convolutional neural networks, CNN}}) зі згортковими шарами та шарами зниження роздільності почалися з [[неокогнітрон]]а, запропонованого {{нп|Куніхіко Фукусіма|Куніхіко Фукусімою||Kunihiko Fukushima}} 1980 року.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | journal = Biol. Cybern. | volume = 36 | issue = 4| pages = 193–202 | doi=10.1007/bf00344251 | pmid=7370364| s2cid = 206775608| language = en }}</ref> 1969 року він також запропонував [[Передавальна функція штучного нейрона|передавальну функцію]] ''[[ReLU]]'' ({{lang-en|rectified linear unit}}, випрямлений лінійний вузол).<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=Visual feature extraction by a multilayered network of analog threshold elements |journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225 |language=en}}</ref><ref name="DLhistory" /> Цей випрямляч ({{lang-en|rectifier}}) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=16 жовтня 2017 |title=Searching for Activation Functions |eprint=1710.05941 |class=cs.NE |language=en}}</ref> ЗНМ стали важливим інструментом [[Комп'ютерне бачення|комп'ютерного бачення]].
Ахітектури глибокого навчання для [[Згорткова нейронна мережа|згорткових нейронних мереж]] (ЗНМ, {{lang-en|convolutional neural networks, CNN}}) зі згортковими шарами та шарами зниження роздільності почалися з [[неокогнітрон]]а, запропонованого {{нп|Куніхіко Фукусіма|Куніхіко Фукусімою||Kunihiko Fukushima}} 1980 року.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | journal = Biol. Cybern. | volume = 36 | issue = 4| pages = 193–202 | doi=10.1007/bf00344251 | pmid=7370364| s2cid = 206775608| language = en }}</ref> 1969 року він також запропонував [[Передавальна функція штучного нейрона|передавальну функцію]] ''[[ReLU]]'' ({{lang-en|rectified linear unit}}, випрямлений лінійний вузол).<ref name="Fukushima1969">{{cite journal |first1=K. |last1=Fukushima |title=Visual feature extraction by a multilayered network of analog threshold elements |journal=IEEE Transactions on Systems Science and Cybernetics |volume=5 |issue=4 |date=1969 |pages=322–333 |doi=10.1109/TSSC.1969.300225 |language=en}}</ref><ref name="DLhistory" /> Цей випрямляч ({{lang-en|rectifier}}) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.<ref>{{cite arXiv |last1=Ramachandran |first1=Prajit |last2=Barret |first2=Zoph |last3=Quoc |first3=V. Le |date=16 жовтня 2017 |title=Searching for Activation Functions |eprint=1710.05941 |class=cs.NE |language=en}}</ref> ЗНМ стали важливим інструментом [[Комп'ютерне бачення|комп'ютерного бачення]].


Термін ''глибоке навчання'' ({{lang-en|Deep Learning}}) у спільноті машинного навчання запровадила 1986 року {{нп|Ріна Дехтер|||Rina Dechter}},<ref name="dechter1986">{{нп|Ріна Дехтер|Rina Dechter||Rina Dechter}} (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online] {{Webarchive|url=https://web.archive.org/web/20160419054654/https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems |date=2016-04-19 }} {{ref-en}}</ref> а для [[Штучна нейронна мережа|штучних нейронних мереж]]&nbsp;— Ігор Айзенберг з колегами у 2000 року в контексті {{нп|Булева мережа|булевих||Boolean network}} порогових нейронів.<ref name="aizenberg2000">Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media. {{ref-en}}</ref><ref>Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795-1802, ACM Press, New York, NY, USA, 2005. {{ref-en}}</ref>
Термін ''глибоке навчання'' ({{lang-en|Deep Learning}}) у спільноті машинного навчання запровадила 1986 року {{нп|Ріна Дехтер|||Rina Dechter}},<ref name="dechter1986">{{нп|Ріна Дехтер|Rina Dechter||Rina Dechter}} (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Online] {{Webarchive|url=https://web.archive.org/web/20160419054654/https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems |date=2016-04-19 }} {{ref-en}}</ref> а для [[Штучна нейронна мережа|штучних нейронних мереж]]&nbsp;— Ігор Айзенберг з колегами у 2000 року в контексті {{нп|Булева мережа|булевих||Boolean network}} порогових нейронів.<ref name=MV_1>{{cite book| title=Multi-Valued and Universal Binary Neurons| language=en| author1=Aizenberg, I.N.| author2=Aizenberg, N.N.| author3=Vandewalle, J.| url=https://link.springer.com/book/10.1007/978-1-4757-3115-6| publisher=Science & Business Media| date=2000| access-date=27 грудня 2023| doi=10.1007/978-1-4757-3115-6| isbn=978-0-7923-7824-2}}</ref><ref>Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005. {{ref-en}}</ref>


1988 року Вей Чжан зі співавт. застосували алгоритм [[Зворотне поширення|зворотного поширення]] до [[Згорткова нейронна мережа|згорткової нейронної мережі]] (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.<ref name="wz1988">{{cite journal |last=Zhang |first=Wei |date=1988 |title=Shift-invariant pattern recognition neural network and its optical architecture |url=https://drive.google.com/file/d/1nN_5odSG_QVae54EsQN_qSz-0ZsX6wA0/view?usp=sharing |journal=Proceedings of Annual Conference of the Japan Society of Applied Physics |language=en}}</ref><ref name="wz1990">{{cite journal |last=Zhang |first=Wei |date=1990 |title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture |url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing |journal=Applied Optics |volume=29 |issue=32 |pages=4790–7 |doi=10.1364/AO.29.004790 |pmid=20577468 |bibcode=1990ApOpt..29.4790Z |language=en}}</ref> 1989 року [[Ян ЛеКун]] зі співавт. застосували [[зворотне поширення]] до ЗНМ з метою [[Розпізнавання рукописного введення|розпізнавання рукописних поштових індексів]] у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989. {{ref-en}}</ref> Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,<ref>{{cite journal |last=Zhang |first=Wei |date=1991 |title=Image processing of human corneal endothelium based on a learning network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5cm5DTlNGd0NPUmM/view?usp=sharing |journal=Applied Optics |volume=30 |issue=29 |pages=4211–7 |doi=10.1364/AO.30.004211 |pmid=20706526 |bibcode=1991ApOpt..30.4211Z |language=en}}</ref> та для виявляння раку молочної залози на [[мамограма]]х 1994 року.<ref>{{cite journal |last=Zhang |first=Wei |date=1994 |title=Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5Ml9qeW5nQ3poVTQ/view?usp=sharing |journal=Medical Physics |volume=21 |issue=4 |pages=517–24 |doi=10.1118/1.597177 |pmid=8058017 |bibcode=1994MedPh..21..517Z |language=en}}</ref> ''LeNet''-5 (1998), 7-рівневу ЗНМ від [[Ян ЛеКун|Яна ЛеКуна]] зі співавт.,<ref name="lecun98">{{cite journal |last=LeCun |first=Yann |author2=Léon Bottou |author3=Yoshua Bengio |author4=Patrick Haffner |title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |year=1998 |volume=86 |issue=11 |pages=2278–2324 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf |access-date=7 жовтня 2016 |doi=10.1109/5.726791 |citeseerx=10.1.1.32.9552|s2cid=14542261|language=en }}</ref> що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.
1988 року Вей Чжан зі співавт. застосували алгоритм [[Зворотне поширення|зворотного поширення]] до [[Згорткова нейронна мережа|згорткової нейронної мережі]] (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.<ref name="wz1988">{{cite journal |last=Zhang |first=Wei |date=1988 |title=Shift-invariant pattern recognition neural network and its optical architecture |url=https://drive.google.com/file/d/1nN_5odSG_QVae54EsQN_qSz-0ZsX6wA0/view?usp=sharing |journal=Proceedings of Annual Conference of the Japan Society of Applied Physics |language=en}}</ref><ref name="wz1990">{{cite journal |last=Zhang |first=Wei |date=1990 |title=Parallel distributed processing model with local space-invariant interconnections and its optical architecture |url=https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing |journal=Applied Optics |volume=29 |issue=32 |pages=4790–7 |doi=10.1364/AO.29.004790 |pmid=20577468 |bibcode=1990ApOpt..29.4790Z |language=en}}</ref> 1989 року [[Ян ЛеКун]] зі співавт. застосували [[зворотне поширення]] до ЗНМ з метою [[Розпізнавання рукописного введення|розпізнавання рукописних поштових індексів]] у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition", ''Neural Computation'', 1, pp. 541–551, 1989. {{ref-en}}</ref> Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,<ref>{{cite journal |last=Zhang |first=Wei |date=1991 |title=Image processing of human corneal endothelium based on a learning network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5cm5DTlNGd0NPUmM/view?usp=sharing |journal=Applied Optics |volume=30 |issue=29 |pages=4211–7 |doi=10.1364/AO.30.004211 |pmid=20706526 |bibcode=1991ApOpt..30.4211Z |language=en}}</ref> та для виявляння раку молочної залози на [[мамограма]]х 1994 року.<ref>{{cite journal |last=Zhang |first=Wei |date=1994 |title=Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network |url=https://drive.google.com/file/d/0B65v6Wo67Tk5Ml9qeW5nQ3poVTQ/view?usp=sharing |journal=Medical Physics |volume=21 |issue=4 |pages=517–24 |doi=10.1118/1.597177 |pmid=8058017 |bibcode=1994MedPh..21..517Z |language=en}}</ref> ''LeNet''-5 (1998), 7-рівневу ЗНМ від [[Ян ЛеКун|Яна ЛеКуна]] зі співавт.,<ref name="lecun98">{{cite journal |last=LeCun |first=Yann |author2=Léon Bottou |author3=Yoshua Bengio |author4=Patrick Haffner |title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |year=1998 |volume=86 |issue=11 |pages=2278–2324 |url=http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf |access-date=7 жовтня 2016 |doi=10.1109/5.726791 |citeseerx=10.1.1.32.9552|s2cid=14542261|language=en }}</ref> що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.


У 1980-х роках [[зворотне поширення]] не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, [[Юрген Шмідхубер]] (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево [[Самокероване навчання|самокерованим навчанням]].<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 |language=en }}</ref> Вона використовує {{нп|передбачувальне кодування|||Predictive coding}} для навчання [[Подання знань|внутрішніх подань]] у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо ''скласти'' ({{lang-en|collapse}}) в єдину РНМ шляхом {{нп|Дистилювання знань|дистилювання||Knowledge distillation}} ''фрагментувальної'' ({{lang-en|chunker}}) мережі вищого рівня до ''автоматизаторної'' ({{lang-en|automatizer}}) мережі нижчого рівня.<ref name="schmidhuber1992" /><ref name="DLhistory" /> 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.<ref name="schmidhuber1993">{{Cite book |url=ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |title=Habilitation Thesis |last=Schmidhuber |first=Jürgen |year=1993 |language=de |archive-url=https://web.archive.org/web/20210626185737/ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |archive-date=26 червня 2021 |url-status=dead}}</ref>
У 1980-х роках [[зворотне поширення]] не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, [[Юрген Шмідхубер]] (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево [[Самокероване навчання|самокерованим навчанням]].<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 |language=en }}</ref> Вона використовує {{нп|передбачувальне кодування|||Predictive coding}} для навчання [[Подання знань|внутрішніх подань]] у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо ''скласти'' ({{lang-en|collapse}}) в єдину РНМ шляхом {{нп|Дистилювання знань|дистилювання||Knowledge distillation}} ''фрагментувальної'' ({{lang-en|chunker}}) мережі вищого рівня до ''автоматизаторної'' ({{lang-en|automatizer}}) мережі нижчого рівня.<ref name="schmidhuber1992" /><ref name="DLhistory" /> 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.<ref name="schmidhuber1993">{{Cite book |url=ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |title=Habilitation Thesis |last=Schmidhuber |first=Jürgen |year=1993 |language=de |archive-url=https://web.archive.org/web/20210626185737/ftp://ftp.idsia.ch/pub/juergen/habilitation.pdf |archive-date=26 червня 2021 |url-status=dead}}</ref>
Рядок 65: Рядок 67:
Сучасний [[Трансформер (модель машинного навчання)|трансформер]] ({{lang-en|Transformer}}) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага&nbsp;— це все, що вам треба».<ref name="vaswani2017">{{cite arXiv|last8=Polosukhin|first8=Illia|last7=Kaiser|first7=Lukasz|last6=Gomez|first6=Aidan N.|last5=Jones|first5=Llion|last4=Uszkoreit|first4=Jakob|last3=Parmar|first3=Niki|last2=Shazeer|first2=Noam|last1=Vaswani|first1=Ashish|date=2017-06-12|title=Attention Is All You Need|eprint=1706.03762|class=cs.CL|language=en}}</ref> Він поєднує це з оператором [[Нормована експоненційна функція|''softmax'']] та проєкційною матрицею.<ref name="DLhistory" /> Трансформери все частіше обирають за модель для [[Обробка природної мови|обробки природної мови]].<ref name="wolf2020">{{cite book|last1=Wolf|first1=Thomas|last2=Debut|first2=Lysandre|last3=Sanh|first3=Victor|last4=Chaumond|first4=Julien|last5=Delangue|first5=Clement|last6=Moi|first6=Anthony|last7=Cistac|first7=Pierric|last8=Rault|first8=Tim|last9=Louf|first9=Remi|last10=Funtowicz|first10=Morgan|last11=Davison|first11=Joe|last12=Shleifer|first12=Sam|last13=von Platen|first13=Patrick|last14=Ma|first14=Clara|last15=Jernite|first15=Yacine|last16=Plu|first16=Julien|last17=Xu|first17=Canwen|last18=Le Scao|first18=Teven|last19=Gugger|first19=Sylvain|last20=Drame|first20=Mariama|last21=Lhoest|first21=Quentin|last22=Rush|first22=Alexander|title=Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations|chapter=Transformers: State-of-the-Art Natural Language Processing|year=2020|pages=38–45|doi=10.18653/v1/2020.emnlp-demos.6|s2cid=208117506|language=en}}</ref> Багато сучасних великих мовних моделей, таких як ''[[ChatGPT]]'', [[GPT-4|''GPT''-4]] та [[BERT (модель мови)|''BERT'']], використовують саме його. Трансформери також все частіше використовують у [[Комп'ютерне бачення|комп'ютернім баченні]].<ref>{{cite web |last1=He |first1=Cheng |title=Transformer in CV |url=https://towardsdatascience.com/transformer-in-cv-bbdb58bf335e |website=Transformer in CV |date=31 грудня 2021 |publisher=Towards Data Science |language=en}}</ref>
Сучасний [[Трансформер (модель машинного навчання)|трансформер]] ({{lang-en|Transformer}}) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага&nbsp;— це все, що вам треба».<ref name="vaswani2017">{{cite arXiv|last8=Polosukhin|first8=Illia|last7=Kaiser|first7=Lukasz|last6=Gomez|first6=Aidan N.|last5=Jones|first5=Llion|last4=Uszkoreit|first4=Jakob|last3=Parmar|first3=Niki|last2=Shazeer|first2=Noam|last1=Vaswani|first1=Ashish|date=2017-06-12|title=Attention Is All You Need|eprint=1706.03762|class=cs.CL|language=en}}</ref> Він поєднує це з оператором [[Нормована експоненційна функція|''softmax'']] та проєкційною матрицею.<ref name="DLhistory" /> Трансформери все частіше обирають за модель для [[Обробка природної мови|обробки природної мови]].<ref name="wolf2020">{{cite book|last1=Wolf|first1=Thomas|last2=Debut|first2=Lysandre|last3=Sanh|first3=Victor|last4=Chaumond|first4=Julien|last5=Delangue|first5=Clement|last6=Moi|first6=Anthony|last7=Cistac|first7=Pierric|last8=Rault|first8=Tim|last9=Louf|first9=Remi|last10=Funtowicz|first10=Morgan|last11=Davison|first11=Joe|last12=Shleifer|first12=Sam|last13=von Platen|first13=Patrick|last14=Ma|first14=Clara|last15=Jernite|first15=Yacine|last16=Plu|first16=Julien|last17=Xu|first17=Canwen|last18=Le Scao|first18=Teven|last19=Gugger|first19=Sylvain|last20=Drame|first20=Mariama|last21=Lhoest|first21=Quentin|last22=Rush|first22=Alexander|title=Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations|chapter=Transformers: State-of-the-Art Natural Language Processing|year=2020|pages=38–45|doi=10.18653/v1/2020.emnlp-demos.6|s2cid=208117506|language=en}}</ref> Багато сучасних великих мовних моделей, таких як ''[[ChatGPT]]'', [[GPT-4|''GPT''-4]] та [[BERT (модель мови)|''BERT'']], використовують саме його. Трансформери також все частіше використовують у [[Комп'ютерне бачення|комп'ютернім баченні]].<ref>{{cite web |last1=He |first1=Cheng |title=Transformer in CV |url=https://towardsdatascience.com/transformer-in-cv-bbdb58bf335e |website=Transformer in CV |date=31 грудня 2021 |publisher=Towards Data Science |language=en}}</ref>


1991 року [[Юрген Шмідхубер]] також опублікував змагальні нейронні мережі ({{lang-en|adversarial neural networks}}), які змагаються між собою у формі [[Антагоністична гра|антагоністичної гри]], де виграш однієї мережі є програшем іншої.<ref name="curiosity1991">{{cite conference| title = A possibility for implementing curiosity and boredom in model-building neural controllers | last1 = Schmidhuber | first1 = Jürgen | author-link = Юрген Шмідхубер | date = 1991 | publisher = MIT Press/Bradford Books| book-title = Proc. SAB'1991| pages = 222–227| language = en}}</ref><ref name="fun2010">{{cite journal|last1=Schmidhuber|first1=Jürgen|author-link=Юрген Шмідхубер|year=2010|title=Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)|journal= IEEE Transactions on Autonomous Mental Development|volume=2|issue=3|pages=230–247|doi=10.1109/TAMD.2010.2056368 |s2cid=234198 |language=en }}</ref><ref name="gancurpm2020">{{Cite journal|last=Schmidhuber|first=Jürgen| author-link = Юрген Шмідхубер |date=2020|title=Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)|journal=Neural Networks |language=en|volume=127|pages=58–66|doi=10.1016/j.neunet.2020.04.008 |pmid=32334341 |arxiv=1906.04493 |s2cid=216056336 |language=en }}</ref> Перша мережа є [[Породжувальна модель|породжувальною моделлю]], яка моделює [[розподіл імовірності]] над образами на виході. Друга мережа навчається [[Градієнтний спуск|градієнтним спуском]] передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» ({{lang-en|"artificial curiosity"}}). 2014 року цей принцип використали у [[Породжувальна змагальна мережа|породжувальній змагальній мережі]] ({{lang-en|generative adversarial network, GAN}}) [[Ян Ґудфелоу]] зі співавт.<ref name="GANnips">{{cite conference|last1=Goodfellow|first1=Ian|last2=Pouget-Abadie|first2=Jean|last3=Mirza|first3=Mehdi|last4=Xu|first4=Bing|last5=Warde-Farley|first5=David|last6=Ozair|first6=Sherjil|last7=Courville|first7=Aaron|last8=Bengio|first8=Yoshua|year=2014|title=Generative Adversarial Networks|url=https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|conference=Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014)|pages=2672–2680|access-date=20 серпня 2019|archive-date=22 листопада 2019|archive-url=https://web.archive.org/web/20191122034612/http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|url-status=live|language=en}}</ref> Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних [[дипфейк]]ів.<ref>{{Cite web|url=https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|title=Prepare, Don't Panic: Synthetic Media and Deepfakes|publisher=witness.org|access-date=25 листопада 2020|archive-date=2 грудня 2020|archive-url=https://web.archive.org/web/20201202231744/https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|url-status=live|language=en}}</ref> Відмінної якості зображення досягла ''{{нп|StyleGAN}}'' ''[[Nvidia]]'' (2018)<ref name="SyncedReview2018">{{Cite web |url=https://syncedreview.com/2018/12/14/gan-2-0-nvidias-hyperrealistic-face-generator/ |title=GAN 2.0: NVIDIA's Hyperrealistic Face Generator |date=14 грудня 2018 |website=SyncedReview.com|access-date=3 жовтня 2019|language=en}}</ref> на основі прогресивної породжувальної змагальної мережі ({{lang-en|Progressive GAN}}) Теро Карраса зі співавт.<ref name="progressiveGAN2017">{{Cite journal |last1=Karras |first1=Tero |last2=Aila |first2=Timo |last3=Laine |first3=Samuli |last4=Lehtinen |first4=Jaakko |date=1 жовтня 2017 |title=Progressive Growing of GANs for Improved Quality, Stability, and Variation |arxiv=1710.10196 |url=https://ui.adsabs.harvard.edu/abs/2017arXiv171010196K |language=en}}</ref> Тут породжувач вирощується від малого до великого пірамідним чином.
1991 року [[Юрген Шмідхубер]] також опублікував змагальні нейронні мережі ({{lang-en|adversarial neural networks}}), які змагаються між собою у формі [[Антагоністична гра|антагоністичної гри]], де виграш однієї мережі є програшем іншої.<ref name="curiosity1991">{{cite conference| title = A possibility for implementing curiosity and boredom in model-building neural controllers | last1 = Schmidhuber | first1 = Jürgen | author-link = Юрген Шмідхубер | date = 1991 | publisher = MIT Press/Bradford Books| book-title = Proc. SAB'1991| pages = 222–227| language = en}}</ref><ref name="fun2010">{{cite journal|last1=Schmidhuber|first1=Jürgen|author-link=Юрген Шмідхубер|year=2010|title=Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)|journal= IEEE Transactions on Autonomous Mental Development|volume=2|issue=3|pages=230–247|doi=10.1109/TAMD.2010.2056368 |s2cid=234198 |language=en }}</ref><ref name="gancurpm2020">{{Cite journal|last=Schmidhuber|first=Jürgen| author-link = Юрген Шмідхубер |date=2020|title=Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)|journal=Neural Networks |language=en|volume=127|pages=58–66|doi=10.1016/j.neunet.2020.04.008 |pmid=32334341 |arxiv=1906.04493 |s2cid=216056336 |language=en }}</ref> Перша мережа є [[Породжувальна модель|породжувальною моделлю]], яка моделює [[розподіл імовірності]] над образами на виході. Друга мережа навчається [[Градієнтний спуск|градієнтним спуском]] передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» ({{lang-en|"artificial curiosity"}}). 2014 року цей принцип використали у [[Породжувальна змагальна мережа|породжувальній змагальній мережі]] ({{lang-en|generative adversarial network, GAN}}) [[Ян Ґудфелоу]] зі співавт.<ref name="GANnips">{{cite conference|last1=Goodfellow|first1=Ian|last2=Pouget-Abadie|first2=Jean|last3=Mirza|first3=Mehdi|last4=Xu|first4=Bing|last5=Warde-Farley|first5=David|last6=Ozair|first6=Sherjil|last7=Courville|first7=Aaron|last8=Bengio|first8=Yoshua|year=2014|title=Generative Adversarial Networks|url=https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|conference=Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014)|pages=2672–2680|access-date=20 серпня 2019|archive-date=22 листопада 2019|archive-url=https://web.archive.org/web/20191122034612/http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf|url-status=live|language=en}}</ref> Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних [[дипфейк]]ів.<ref>{{Cite web|url=https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|title=Prepare, Don't Panic: Synthetic Media and Deepfakes|publisher=witness.org|access-date=25 листопада 2020|archive-date=2 грудня 2020|archive-url=https://web.archive.org/web/20201202231744/https://lab.witness.org/projects/synthetic-media-and-deep-fakes/|url-status=live|language=en}}</ref> Відмінної якості зображення досягла ''{{нп|StyleGAN}}'' ''[[Nvidia]]'' (2018)<ref name="SyncedReview2018">{{Cite web |url=https://syncedreview.com/2018/12/14/gan-2-0-nvidias-hyperrealistic-face-generator/ |title=GAN 2.0: NVIDIA's Hyperrealistic Face Generator |date=14 грудня 2018 |website=SyncedReview.com|access-date=3 жовтня 2019|language=en}}</ref> на основі прогресивної породжувальної змагальної мережі ({{lang-en|Progressive GAN}}) Теро Карраса зі співавт.<ref name="progressiveGAN2017">{{cite arXiv| title=Progressive Growing of GANs for Improved Quality, Stability, and Variation| last1=Karras |first1=T. |last2=Aila |first2=T. |last3=Laine |first3=S. |last4=Lehtinen |first4=J. | date=26 лютого 2018| class=cs.NE | eprint=1710.10196 |language=en}}</ref> Тут породжувач вирощується від малого до великого пірамідним чином.


Дипломну працю {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} (1991)<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen] {{Webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=2015-03-06 }}," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref> його керівник [[Юрген Шмідхубер|Шмідхубер]] назвав «одним із найважливіших документів в історії машинного навчання».<ref name="DLhistory" /> Він не лише випробував [[нейронний стискач історії]],<ref name="schmidhuber1992" /> але й виявив та проаналізував [[Проблема зникання градієнту|проблему зникання градієнта]].<ref name="HOCH1991" /><ref name="HOCH2001">{{cite book|chapter-url={{google books |plainurl=y |id=NWOcMVA64aAC}}|title=A Field Guide to Dynamical Recurrent Networks|last=Hochreiter|first=S.|display-authors=etal|date=15 січня 2001|publisher=John Wiley & Sons|isbn=978-0-7803-5369-5|chapter=Gradient flow in recurrent nets: the difficulty of learning long-term dependencies|editor-last2=Kremer|editor-first2=Stefan C.|editor-first1=John F.|editor-last1=Kolen|language=en}}</ref> Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні [[Залишкова нейронна мережа|залишкові]] зв'язки. Це призвело до появи методу глибокого навчання, званого [[Довга короткочасна пам'ять|довгою короткочасною пам'яттю]] (ДКЧП, {{lang-en|long short-term memory, LSTM}}), опублікованого 1997 року.<ref name=":0">{{Cite journal|last1=Hochreiter|first1=Sepp|last2=Schmidhuber|first2=Jürgen|s2cid=1915014|date=1 листопада 1997|title=Long Short-Term Memory|journal=Neural Computation|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|issn=0899-7667|pmid=9377276|language=en}}</ref> [[Рекурентна нейронна мережа|Рекурентні нейронні мережі]] ДКЧП можуть навчатися задач «дуже глибокого навчання»<ref name="SCHIDHUB" /> з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» ({{lang-en|vanilla LSTM}}) із забувальним вентилем запропонували 1999 року {{нп|Фелікс Ґерс|||Felix Gers}}, [[Юрген Шмідхубер|Шмідхубер]] та Фред Каммінс.<ref name="lstm1999">{{Cite book |doi = 10.1049/cp:19991218|chapter = Learning to forget: Continual prediction with LSTM|title = 9th International Conference on Artificial Neural Networks: ICANN '99|volume = 1999|pages = 850–855|year = 1999|last1 = Gers|first1 = Felix| last2 = Schmidhuber|first2 = Jürgen| last3 = Cummins|first3 = Fred| isbn = 0-85296-721-7| language = en}}</ref> [[Довга короткочасна пам'ять|ДКЧП]] стала найцитованішою нейронною мережею XX століття.<ref name="DLhistory" /> 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип [[Довга короткочасна пам'ять|ДКЧП]] для створення [[Магістралева мережа|магістралевої мережі]], [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з сотнями шарів, набагато глибшої за попередні.<ref name="highway2015">{{cite arXiv|last1=Srivastava|first1=Rupesh Kumar|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Highway Networks|eprint=1505.00387|date=2 травня 2015|class=cs.LG|language=en}}</ref><ref name="highway2015neurips">{{cite journal|last1=Srivastava|first1=Rupesh K|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Training Very Deep Networks|journal=Advances in Neural Information Processing Systems |date=2015|volume=28|pages=2377–2385|url=http://papers.nips.cc/paper/5850-training-very-deep-networks|publisher=Curran Associates, Inc.|language=en}}</ref> 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet Competition}} 2015 із відкритовентильним або безвентильним варіантом [[Магістралева мережа|магістралевої мережі]], названим [[Залишкова нейронна мережа|за́лишковою нейронною мережею]] ({{lang-en|Residual neural network}}).<ref name="resnet2015">{{Cite conference|last1=He|first1=Kaiming|last2=Zhang|first2=Xiangyu|last3=Ren|first3=Shaoqing|last4=Sun|first4=Jian|date=2016|title=Deep Residual Learning for Image Recognition|url=https://ieeexplore.ieee.org/document/7780459|journal=2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)|location=Las Vegas, NV, USA|publisher=IEEE|pages=770–778|arxiv=1512.03385|doi=10.1109/CVPR.2016.90|isbn=978-1-4673-8851-1|language=en}}</ref> Вона стала найцитованішою нейронною мережею XXI століття.<ref name="DLhistory" />
Дипломну працю {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} (1991)<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]". {{Webarchive|url=https://web.archive.org/web/20150306075401/http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf |date=2015-03-06 }}. ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref> його керівник [[Юрген Шмідхубер|Шмідхубер]] назвав «одним із найважливіших документів в історії машинного навчання».<ref name="DLhistory" /> Він не лише випробував [[нейронний стискач історії]],<ref name="schmidhuber1992" /> але й виявив та проаналізував [[Проблема зникання градієнту|проблему зникання градієнта]].<ref name="HOCH1991" /><ref name="HOCH2001">{{cite book|chapter-url={{google books |plainurl=y |id=NWOcMVA64aAC}}|title=A Field Guide to Dynamical Recurrent Networks|last=Hochreiter|first=S.|display-authors=etal|date=15 січня 2001|publisher=John Wiley & Sons|isbn=978-0-7803-5369-5|chapter=Gradient flow in recurrent nets: the difficulty of learning long-term dependencies|editor-last2=Kremer|editor-first2=Stefan C.|editor-first1=John F.|editor-last1=Kolen|language=en}}</ref> Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні [[Залишкова нейронна мережа|залишкові]] зв'язки. Це призвело до появи методу глибокого навчання, званого [[Довга короткочасна пам'ять|довгою короткочасною пам'яттю]] (ДКЧП, {{lang-en|long short-term memory, LSTM}}), опублікованого 1997 року.<ref name=":0">{{Cite journal|last1=Hochreiter|first1=Sepp|last2=Schmidhuber|first2=Jürgen|s2cid=1915014|date=1 листопада 1997|title=Long Short-Term Memory|journal=Neural Computation|volume=9|issue=8|pages=1735–1780|doi=10.1162/neco.1997.9.8.1735|issn=0899-7667|pmid=9377276|language=en}}</ref> [[Рекурентна нейронна мережа|Рекурентні нейронні мережі]] ДКЧП можуть навчатися задач «дуже глибокого навчання»<ref name="SCHIDHUB" /> з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» ({{lang-en|vanilla LSTM}}) із забувальним вентилем запропонували 1999 року {{нп|Фелікс Ґерс|||Felix Gers}}, [[Юрген Шмідхубер|Шмідхубер]] та Фред Каммінс.<ref name="lstm1999">{{Cite book |doi = 10.1049/cp:19991218|chapter = Learning to forget: Continual prediction with LSTM|title = 9th International Conference on Artificial Neural Networks: ICANN '99|volume = 1999|pages = 850–855|year = 1999|last1 = Gers|first1 = Felix| last2 = Schmidhuber|first2 = Jürgen| last3 = Cummins|first3 = Fred| isbn = 0-85296-721-7| language = en}}</ref> [[Довга короткочасна пам'ять|ДКЧП]] стала найцитованішою нейронною мережею XX століття.<ref name="DLhistory" /> 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип [[Довга короткочасна пам'ять|ДКЧП]] для створення [[Магістралева мережа|магістралевої мережі]], [[Нейронна мережа прямого поширення|нейронної мережі прямого поширення]] з сотнями шарів, набагато глибшої за попередні.<ref name="highway2015">{{cite arXiv|last1=Srivastava|first1=Rupesh Kumar|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Highway Networks|eprint=1505.00387|date=2 травня 2015|class=cs.LG|language=en}}</ref><ref name="highway2015neurips">{{cite journal|last1=Srivastava|first1=Rupesh K|last2=Greff|first2=Klaus|last3=Schmidhuber|first3=Jürgen|title=Training Very Deep Networks|journal=Advances in Neural Information Processing Systems |date=2015|volume=28|pages=2377–2385|url=http://papers.nips.cc/paper/5850-training-very-deep-networks|publisher=Curran Associates, Inc.|language=en}}</ref> 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet Competition}} 2015 із відкритовентильним або безвентильним варіантом [[Магістралева мережа|магістралевої мережі]], названим [[Залишкова нейронна мережа|за́лишковою нейронною мережею]] ({{lang-en|Residual neural network}}).<ref name="resnet2015">{{Cite conference|last1=He|first1=Kaiming|last2=Zhang|first2=Xiangyu|last3=Ren|first3=Shaoqing|last4=Sun|first4=Jian|date=2016|title=Deep Residual Learning for Image Recognition|url=https://ieeexplore.ieee.org/document/7780459|journal=2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)|location=Las Vegas, NV, USA|publisher=IEEE|pages=770–778|arxiv=1512.03385|doi=10.1109/CVPR.2016.90|isbn=978-1-4673-8851-1|language=en}}</ref> Вона стала найцитованішою нейронною мережею XXI століття.<ref name="DLhistory" />


1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа ({{lang-en|weightless neural network}}), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак ({{lang-en|SOFT}}), з багатошаровим класифікаційним нейромережним модулем ({{lang-en|GSN}}) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.<ref>{{Cite journal |title=An integrated Boolean neural network for pattern classification |url=https://archive.org/details/sim_pattern-recognition-letters_1994-08_15_8/page/807 |journal=Pattern Recognition Letters |date=8 серпня 1994 |pages=807–813 |volume=15 |issue=8 |doi=10.1016/0167-8655(94)90009-4 |first1=Andre C. L. F. |last1=de Carvalho |first2 = Mike C. |last2=Fairhurst |first3=David |last3 = Bisset|bibcode=1994PaReL..15..807D|language=en }}</ref>
1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа ({{lang-en|weightless neural network}}), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак ({{lang-en|SOFT}}), з багатошаровим класифікаційним нейромережним модулем ({{lang-en|GSN}}) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.<ref>{{Cite journal |title=An integrated Boolean neural network for pattern classification |url=https://archive.org/details/sim_pattern-recognition-letters_1994-08_15_8/page/807 |journal=Pattern Recognition Letters |date=8 серпня 1994 |pages=807–813 |volume=15 |issue=8 |doi=10.1016/0167-8655(94)90009-4 |first1=Andre C. L. F. |last1=de Carvalho |first2 = Mike C. |last2=Fairhurst |first3=David |last3 = Bisset|bibcode=1994PaReL..15..807D|language=en }}</ref>
Рядок 92: Рядок 94:
Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10&nbsp;% до 20&nbsp;% усіх чеків, виписуваних у США.<ref name="lecun2016slides">[[Ян ЛеКун|Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online] {{Webarchive|url=https://web.archive.org/web/20160423021403/https://indico.cern.ch/event/510372/ |date=2016-04-23 }} {{ref-en}}</ref> Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.
Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10&nbsp;% до 20&nbsp;% усіх чеків, виписуваних у США.<ref name="lecun2016slides">[[Ян ЛеКун|Yann LeCun]] (2016). Slides on Deep Learning [https://indico.cern.ch/event/510372/ Online] {{Webarchive|url=https://web.archive.org/web/20160423021403/https://indico.cern.ch/event/510372/ |date=2016-04-23 }} {{ref-en}}</ref> Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.


2006 року публікації [[Джефрі Гінтон|Джеффа Гінтона]], {{нп|Руслан Салахутдінов|Руслана Салахутдінова||Russ Salakhutdinov}}, Осіндеро та {{нп|Ю Хуай Тее|Тее||Yee Whye Teh}}<ref>{{Cite journal|last=Hinton|first=Geoffrey E.|date=1 жовтня 2007|title=Learning multiple layers of representation|url=http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|journal=Trends in Cognitive Sciences|volume=11|issue=10|pages=428–434|doi=10.1016/j.tics.2007.09.004|issn=1364-6613|pmid=17921042|s2cid=15066318|access-date=12 червня 2017|archive-date=11 жовтня 2013|archive-url=https://web.archive.org/web/20131011071435/http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|url-status=live|language=en}}</ref><ref name="hinton06">{{Cite journal | last1 = Hinton | first1 = G. E. | author-link1 = Джефрі Гінтон | last2 = Osindero | first2 = S. | last3 = Teh | first3 = Y. W. | doi = 10.1162/neco.2006.18.7.1527 | title = A Fast Learning Algorithm for Deep Belief Nets | journal = {{нп|Neural Computation}} | volume = 18 | issue = 7 | pages = 1527–1554 | year = 2006 | pmid = 16764513 | s2cid = 2309950 | url = http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | access-date = 2011-07-20 | archive-date = 2015-12-23 | archive-url = https://web.archive.org/web/20151223164129/http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | url-status = live | language = en }}</ref><ref name="bengio2012">{{cite arXiv |last=Bengio |first=Yoshua |author-link=Йошуа Бенжіо |eprint=1206.5533 |title=Practical recommendations for gradient-based training of deep architectures |class=cs.LG|year=2012|language=en }}</ref> показали, як багатошарову [[Нейронна мережа прямого поширення|нейронну мережу прямого поширення]] можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану [[Обмежена машина Больцмана|обмежену машину Больцмана]], а потім [[Тонке налаштовування (глибоке навчання)|тонко налаштовувати]] її за допомогою керованого [[Зворотне поширення|зворотного поширення]].<ref name="HINTON2007">G. E. Hinton., "[http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf Learning multiple layers of representation] {{Webarchive|url=https://web.archive.org/web/20180522112408/http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf |date=2018-05-22 }}," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007. {{ref-en}}</ref> Ці праці стосувалися ''навчання'' для ''глибоких мереж переконань.''
2006 року публікації [[Джефрі Гінтон|Джеффа Гінтона]], {{нп|Руслан Салахутдінов|Руслана Салахутдінова||Russ Salakhutdinov}}, Осіндеро та {{нп|Ю Хуай Тее|Тее||Yee Whye Teh}}<ref>{{Cite journal|last=Hinton|first=Geoffrey E.|date=1 жовтня 2007|title=Learning multiple layers of representation|url=http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|journal=Trends in Cognitive Sciences|volume=11|issue=10|pages=428–434|doi=10.1016/j.tics.2007.09.004|issn=1364-6613|pmid=17921042|s2cid=15066318|access-date=12 червня 2017|archive-date=11 жовтня 2013|archive-url=https://web.archive.org/web/20131011071435/http://www.cell.com/trends/cognitive-sciences/abstract/S1364-6613(07)00217-3|url-status=live|language=en}}</ref><ref name="hinton06">{{Cite journal | last1 = Hinton | first1 = G. E. | author-link1 = Джефрі Гінтон | last2 = Osindero | first2 = S. | last3 = Teh | first3 = Y. W. | doi = 10.1162/neco.2006.18.7.1527 | title = A Fast Learning Algorithm for Deep Belief Nets | journal = {{нп|Neural Computation}} | volume = 18 | issue = 7 | pages = 1527–1554 | year = 2006 | pmid = 16764513 | s2cid = 2309950 | url = http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | access-date = 2011-07-20 | archive-date = 2015-12-23 | archive-url = https://web.archive.org/web/20151223164129/http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf | url-status = live | language = en }}</ref><ref name="bengio2012">{{cite arXiv |last=Bengio |first=Yoshua |author-link=Йошуа Бенжіо |eprint=1206.5533 |title=Practical recommendations for gradient-based training of deep architectures |class=cs.LG|year=2012|language=en }}</ref> показали, як багатошарову [[Нейронна мережа прямого поширення|нейронну мережу прямого поширення]] можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану [[Обмежена машина Больцмана|обмежену машину Больцмана]], а потім [[Тонке налаштовування (глибоке навчання)|тонко налаштовувати]] її за допомогою керованого [[Зворотне поширення|зворотного поширення]].<ref name="HINTON2007">G. E. Hinton., "[http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf Learning multiple layers of representation]". {{Webarchive|url=https://web.archive.org/web/20180522112408/http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf |date=2018-05-22 }}. ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007. {{ref-en}}</ref> Ці праці стосувалися ''навчання'' для ''глибоких мереж переконань.''


Мотивом семінару ''NIPS'' 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, {{lang-en|deep neural nets, DNN}}) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, {{lang-en|deep belief nets, DBN}}) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього [[Зворотне поширення|зворотного поширення]] при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | author10-link = Тара Сайнат | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups| journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597 | bibcode = 2012ISPM...29...82H| s2cid = 206485943| language = en }}</ref> Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,<ref name="ReferenceICASSP2013" /> пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.<ref name="BOOK2014" /><ref name="ReferenceA">{{cite book|last2=Deng|first2=L.|date=2014|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)|url={{google books |plainurl=y |id=rUBTBQAAQBAJ}}|isbn=978-1-4471-5779-3|last1=Yu|first1=D.|language=en}}</ref><ref>{{cite web|title=Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research|url=https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|website=Microsoft Research|date=3 грудня 2015|access-date=16 березня 2018|archive-date=16 березня 2018|archive-url=https://web.archive.org/web/20180316084821/https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|url-status=live|language=en}}</ref> Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.<ref name="ReferenceICASSP2013" /> Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5&nbsp;% у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.<ref name="HintonDengYu2012" /><ref name="ReferenceICASSP2013">{{cite journal|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.|date=2013|title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)|url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf|last1=Deng|first1=L.|journal=|access-date=2017-06-12|archive-date=2017-09-26|archive-url=https://web.archive.org/web/20170926190920/https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf|url-status=live|language=en}}</ref><ref name="interspeech2014Keynote">{{Cite web|url=https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|title=Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'|last=Li|first=Deng|date=September 2014|website=Interspeech|access-date=2017-06-12|archive-date=2017-09-26|archive-url=https://web.archive.org/web/20170926190732/https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|url-status=live|language=en}}</ref> 2010 року дослідники розширили глибоке навчання від ''{{нп|TIMIT}}'' до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою [[Дерево рішень|дерев рішень]].<ref name="Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|date=2010|title=Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition|url=https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095148/https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Seide|first1=F.|last2=Li|first2=G.|last3=Yu|first3=D.|date=2011|title=Conversational speech transcription using context-dependent deep neural networks|url=https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks|journal=Interspeech|pages=437–440|doi=10.21437/Interspeech.2011-169|s2cid=398770 |access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095522/https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Deng|first1=Li|last2=Li|first2=Jinyu|last3=Huang|first3=Jui-Ting|last4=Yao|first4=Kaisheng|last5=Yu|first5=Dong|last6=Seide|first6=Frank|last7=Seltzer|first7=Mike|last8=Zweig|first8=Geoff|last9=He|first9=Xiaodong|date=1 травня 2013|title=Recent Advances in Deep Learning for Speech Research at Microsoft|url=https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=12 жовтня 2017|archive-url=https://web.archive.org/web/20171012044053/https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|url-status=live|language=en}}</ref><ref name="ReferenceA" />
Мотивом семінару ''NIPS'' 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, {{lang-en|deep neural nets, DNN}}) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, {{lang-en|deep belief nets, DBN}}) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього [[Зворотне поширення|зворотного поширення]] при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | author10-link = Тара Сайнат | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups| journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597 | bibcode = 2012ISPM...29...82H| s2cid = 206485943| language = en }}</ref> Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,<ref name="ReferenceICASSP2013" /> пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.<ref name="BOOK2014" /><ref name="ReferenceA">{{cite book|last2=Deng|first2=L.|date=2014|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)|url={{google books |plainurl=y |id=rUBTBQAAQBAJ}}|isbn=978-1-4471-5779-3|last1=Yu|first1=D.|publisher=Springer|language=en }}</ref><ref>{{cite web|title=Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research|url=https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|website=Microsoft Research|date=3 грудня 2015|access-date=16 березня 2018|archive-date=16 березня 2018|archive-url=https://web.archive.org/web/20180316084821/https://www.microsoft.com/en-us/research/blog/deng-receives-prestigious-ieee-technical-achievement-award/|url-status=live|language=en}}</ref> Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.<ref name="ReferenceICASSP2013" /> Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5&nbsp;% у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.<ref name="HintonDengYu2012" /><ref name="ReferenceICASSP2013">{{cite web| last1=Deng| first1=L.| last2=Hinton| first2=G.| last3=Kingsbury| first3=B.| date=травень 2013| title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)| url=https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf| publisher=Microsoft| access-date=27 грудня 2023| archive-date=2017-09-26| archive-url=https://web.archive.org/web/20170926190920/https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ICASSP-2013-DengHintonKingsbury-revised.pdf| url-status=live|language=en}}</ref><ref name="interspeech2014Keynote">{{Cite web|url=https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|title=Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'|last=Li|first=Deng|date=September 2014|website=Interspeech|access-date=2017-06-12|archive-date=2017-09-26|archive-url=https://web.archive.org/web/20170926190732/https://www.superlectures.com/interspeech2014/downloadFile?id=6&type=slides&filename=achievements-and-challenges-of-deep-learning-from-speech-analysis-and-recognition-to-language-and-multimodal-processing|url-status=live|language=en}}</ref> 2010 року дослідники розширили глибоке навчання від ''{{нп|TIMIT}}'' до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою [[Дерево рішень|дерев рішень]].<ref name="Roles2010">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|date=2010|title=Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition|url=https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|journal=NIPS Workshop on Deep Learning and Unsupervised Feature Learning|access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095148/https://www.microsoft.com/en-us/research/publication/roles-of-pre-training-and-fine-tuning-in-context-dependent-dbn-hmms-for-real-world-speech-recognition/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Seide|first1=F.|last2=Li|first2=G.|last3=Yu|first3=D.|date=2011|title=Conversational speech transcription using context-dependent deep neural networks|url=https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks|journal=Interspeech|pages=437–440|doi=10.21437/Interspeech.2011-169|s2cid=398770 |access-date=2017-06-14|archive-date=2017-10-12|archive-url=https://web.archive.org/web/20171012095522/https://www.microsoft.com/en-us/research/publication/conversational-speech-transcription-using-context-dependent-deep-neural-networks/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Deng|first1=Li|last2=Li|first2=Jinyu|last3=Huang|first3=Jui-Ting|last4=Yao|first4=Kaisheng|last5=Yu|first5=Dong|last6=Seide|first6=Frank|last7=Seltzer|first7=Mike|last8=Zweig|first8=Geoff|last9=He|first9=Xiaodong|date=1 травня 2013|title=Recent Advances in Deep Learning for Speech Research at Microsoft|url=https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=12 жовтня 2017|archive-url=https://web.archive.org/web/20171012044053/https://www.microsoft.com/en-us/research/publication/recent-advances-in-deep-learning-for-speech-research-at-microsoft/|url-status=live|language=en}}</ref><ref name="ReferenceA" />


Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та [[Автоматичне розпізнавання мовлення|автоматичному розпізнаванні мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}). Результати на загальновживаних оцінювальних наборах, таких як ''{{нп|TIMIT}}'' (АРМ) та [[MNIST (база даних)|''MNIST'']] ([[класифікування зображень]]), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.<ref name="HintonDengYu2012" /><ref>{{Cite book |doi=10.1109/ICCCI50826.2021.9402569|isbn=978-1-7281-5875-4|chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029|s2cid=231846518|language=en}}</ref> [[Згорткові нейронні мережі]] (ЗНМ) для АРМ було витіснено НЧК<ref name="graves2006" /> для [[Довга короткочасна пам'ять|ДКЧП]],<ref name=":0" /><ref name="sak2015" /><ref name="sak2014">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|title=Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling|last1=Sak|first1=Hasim|last2=Senior|first2=Andrew|date=2014|last3=Beaufays|first3=Francoise|archive-url=https://web.archive.org/web/20180424203806/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|archive-date=24 квітня 2018|url-status=dead|language=en}}</ref><ref name="liwu2015">{{cite arXiv |eprint=1410.4281|last1=Li|first1=Xiangang|title=Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition|last2=Wu|first2=Xihong|class=cs.CL|year=2014|langyage=en}}</ref><ref name="zen2015">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis|last1=Zen|first1=Heiga|last2=Sak|first2=Hasim|date=2015|website=Google.com|publisher=ICASSP|pages=4470–4474|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123113/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|url-status=live|language=en}}</ref> але в комп'ютернім баченні вони успішніші.
Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та [[Автоматичне розпізнавання мовлення|автоматичному розпізнаванні мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}). Результати на загальновживаних оцінювальних наборах, таких як ''{{нп|TIMIT}}'' (АРМ) та [[MNIST (база даних)|''MNIST'']] ([[класифікування зображень]]), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.<ref name="HintonDengYu2012" /><ref>{{Cite book |doi=10.1109/ICCCI50826.2021.9402569|isbn=978-1-7281-5875-4|chapter=Non-linear frequency warping using constant-Q transformation for speech emotion recognition|title=2021 International Conference on Computer Communication and Informatics (ICCCI)|pages=1–4|year=2021|last1=Singh|first1=Premjeet|last2=Saha|first2=Goutam|last3=Sahidullah|first3=Md|arxiv=2102.04029|s2cid=231846518|language=en}}</ref> [[Згорткові нейронні мережі]] (ЗНМ) для АРМ було витіснено НЧК<ref name="graves2006" /> для [[Довга короткочасна пам'ять|ДКЧП]],<ref name=":0" /><ref name="sak2015" /><ref name="sak2014">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|title=Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling|last1=Sak|first1=Hasim|last2=Senior|first2=Andrew|date=2014|last3=Beaufays|first3=Francoise|archive-url=https://web.archive.org/web/20180424203806/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43905.pdf|archive-date=24 квітня 2018|url-status=dead|language=en}}</ref><ref name="liwu2015">{{cite arXiv |eprint=1410.4281|last1=Li|first1=Xiangang|title=Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition|last2=Wu|first2=Xihong|class=cs.CL|year=2014|langyage=en}}</ref><ref name="zen2015">{{Cite web|url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis|last1=Zen|first1=Heiga|last2=Sak|first2=Hasim|date=2015|website=Google.com|publisher=ICASSP|pages=4470–4474|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123113/https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf|url-status=live|language=en}}</ref> але в комп'ютернім баченні вони успішніші.


Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року ''[[Nvidia]]'' брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою [[Графічний процесор|графічних процесорів]] (ГП) ''Nvidia''».<ref>{{cite web|url=https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|title=Nvidia CEO bets big on deep learning and VR|date=5 квітня 2016|publisher=[[Venture Beat]]|access-date=21 квітня 2017|archive-date=25 листопада 2020|archive-url=https://web.archive.org/web/20201125202428/https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|url-status=live|language=en}}</ref> Того року [[Ендрю Ин]] визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.<ref>{{cite news|url=https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|title=From not working to neural networking|newspaper=[[Економіст (журнал)|The Economist]]|access-date=2017-08-26|archive-date=2016-12-31|archive-url=https://web.archive.org/web/20161231203934/https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|url-status=live|language=en}}</ref> Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.<ref name="jung2004">{{cite journal | last1 = Oh | first1 = K.-S. | last2 = Jung | first2 = K. | year = 2004 | title = GPU implementation of neural networks | journal = Pattern Recognition | volume = 37 | issue = 6| pages = 1311–1314 | doi=10.1016/j.patcog.2004.01.013| bibcode = 2004PatRe..37.1311O| language = en }}</ref><ref>"[https://www.academia.edu/40135801 A Survey of Techniques for Optimizing Deep Learning on GPUs] {{Webarchive|url=https://web.archive.org/web/20210509123120/https://www.academia.edu/40135801/A_Survey_of_Techniques_for_Optimizing_Deep_Learning_on_GPUs |date=2021-05-09 }}", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 {{ref-en}}</ref><ref name="chellapilla2006">{{Citation | first1 = Kumar | last1 = Chellapilla | first2 = Sidd | last2 = Puri | first3 = Patrice | last3 = Simard | title = High performance convolutional neural networks for document processing | url = https://hal.inria.fr/inria-00112631/document | date = 2006 | access-date = 2021-02-14 | archive-date = 2020-05-18 | archive-url = https://web.archive.org/web/20200518193413/https://hal.inria.fr/inria-00112631/document | url-status = live | language = en }}</ref> ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.<ref name=":3">{{Cite journal|last1=Cireşan|first1=Dan Claudiu|last2=Meier|first2=Ueli|last3=Gambardella|first3=Luca Maria|last4=Schmidhuber|first4=Jürgen|date=21 вересня 2010|title=Deep, Big, Simple Neural Nets for Handwritten Digit Recognition|journal=Neural Computation|volume=22|issue=12|pages=3207–3220|doi=10.1162/neco_a_00052|pmid=20858131|issn=0899-7667|arxiv=1003.0358|s2cid=1918673|language=en}}</ref><ref>{{Cite journal|last1=Raina|first1=Rajat|last2=Madhavan|first2=Anand|last3=Ng|first3=Andrew Y.|s2cid=392458|date=2009|title=Large-scale Deep Unsupervised Learning Using Graphics Processors|journal=Proceedings of the 26th Annual International Conference on Machine Learning|series=ICML '09|location=New York, NY, USA|publisher=ACM|pages=873–880|doi=10.1145/1553374.1553486|isbn=9781605585161|citeseerx=10.1.1.154.372|language=en}}</ref> Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.<ref name="sze2017">{{cite arXiv
Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року ''[[Nvidia]]'' брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою [[Графічний процесор|графічних процесорів]] (ГП) ''Nvidia''».<ref>{{cite web|url=https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|title=Nvidia CEO bets big on deep learning and VR|date=5 квітня 2016|publisher=[[Venture Beat]]|access-date=21 квітня 2017|archive-date=25 листопада 2020|archive-url=https://web.archive.org/web/20201125202428/https://venturebeat.com/2016/04/05/nvidia-ceo-bets-big-on-deep-learning-and-vr/|url-status=live|language=en}}</ref> Того року [[Ендрю Ин]] визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.<ref>{{cite news|url=https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|title=From not working to neural networking|newspaper=[[Економіст (журнал)|The Economist]]|access-date=2017-08-26|archive-date=2016-12-31|archive-url=https://web.archive.org/web/20161231203934/https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not|url-status=live|language=en}}</ref> Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.<ref name="jung2004">{{cite journal | last1 = Oh | first1 = K.-S. | last2 = Jung | first2 = K. | year = 2004 | title = GPU implementation of neural networks | journal = Pattern Recognition | volume = 37 | issue = 6| pages = 1311–1314 | doi=10.1016/j.patcog.2004.01.013| bibcode = 2004PatRe..37.1311O| language = en }}</ref><ref>"[https://www.academia.edu/40135801 A Survey of Techniques for Optimizing Deep Learning on GPUs] {{Webarchive|url=https://web.archive.org/web/20210509123120/https://www.academia.edu/40135801/A_Survey_of_Techniques_for_Optimizing_Deep_Learning_on_GPUs |date=2021-05-09 }}", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 {{ref-en}}</ref><ref name="chellapilla2006">{{Citation | first1 = Kumar | last1 = Chellapilla | first2 = Sidd | last2 = Puri | first3 = Patrice | last3 = Simard | title = High performance convolutional neural networks for document processing | url = https://hal.inria.fr/inria-00112631/document | date = 2006 | access-date = 2021-02-14 | archive-date = 2020-05-18 | archive-url = https://web.archive.org/web/20200518193413/https://hal.inria.fr/inria-00112631/document | url-status = live | language = en }}</ref> ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.<ref name=":3">{{Cite journal|last1=Cireşan|first1=Dan Claudiu|last2=Meier|first2=Ueli|last3=Gambardella|first3=Luca Maria|last4=Schmidhuber|first4=Jürgen|date=21 вересня 2010|title=Deep, Big, Simple Neural Nets for Handwritten Digit Recognition|journal=Neural Computation|volume=22|issue=12|pages=3207–3220|doi=10.1162/neco_a_00052|pmid=20858131|issn=0899-7667|arxiv=1003.0358|s2cid=1918673|language=en}}</ref><ref>{{Cite book|last1=Raina|first1=Rajat|last2=Madhavan|first2=Anand|last3=Ng|first3=Andrew Y.|title=Proceedings of the 26th Annual International Conference on Machine Learning |chapter=Large-scale deep unsupervised learning using graphics processors |s2cid=392458|date=2009|series=ICML '09|location=New York, NY, USA|publisher=ACM|pages=873–880|doi=10.1145/1553374.1553486|isbn=9781605585161|citeseerx=10.1.1.154.372|language=en}}</ref> Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.<ref name="sze2017">{{cite arXiv
|title= Efficient Processing of Deep Neural Networks: A Tutorial and Survey
|title= Efficient Processing of Deep Neural Networks: A Tutorial and Survey
|last1=Sze |first1=Vivienne|author1-link=Вів'єн Ши
|last1=Sze |first1=Vivienne|author1-link=Вів'єн Ши
Рядок 113: Рядок 115:
Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з [[Машинне навчання|машинного навчання]]. 2009 року [[довга короткочасна пам'ять]], натренована {{нп|Нейромережна часова класифікація|нейромережною часовою класифікацією||Connectionist temporal classification}} ({{нп|Алекс Ґрейвс (інформатик)|Алекс Ґрейвс||Alex Graves (computer scientist)}}, Сантьяго Фернандес, Фаустіно Ґомес та [[Юрген Шмідхубер]], 2006)<ref name="graves2006" /> стала першою РНМ, яка виграла конкурси з [[розпізнавання образів]], вигравши три змагання з [[Розпізнавання рукописного введення|розпізнавання неперервного рукописного тексту]].<ref>Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 {{ref-en}}</ref><ref name="SCHIDHUB" /> Пізніше ''[[Google]]'' використала натреновану НЧК ДКЧП для розпізнавання мовлення на [[смартфон]]і.<ref name="GoogleVoiceTranscription">Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html {{ref-en}}</ref><ref name="sak2015" />
Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з [[Машинне навчання|машинного навчання]]. 2009 року [[довга короткочасна пам'ять]], натренована {{нп|Нейромережна часова класифікація|нейромережною часовою класифікацією||Connectionist temporal classification}} ({{нп|Алекс Ґрейвс (інформатик)|Алекс Ґрейвс||Alex Graves (computer scientist)}}, Сантьяго Фернандес, Фаустіно Ґомес та [[Юрген Шмідхубер]], 2006)<ref name="graves2006" /> стала першою РНМ, яка виграла конкурси з [[розпізнавання образів]], вигравши три змагання з [[Розпізнавання рукописного введення|розпізнавання неперервного рукописного тексту]].<ref>Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 {{ref-en}}</ref><ref name="SCHIDHUB" /> Пізніше ''[[Google]]'' використала натреновану НЧК ДКЧП для розпізнавання мовлення на [[смартфон]]і.<ref name="GoogleVoiceTranscription">Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html {{ref-en}}</ref><ref name="sak2015" />


Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані [[Зворотне поширення|зворотним поширенням]], існували десятиліттями,<ref name="wz1988" /><ref name="LECUN1989" /> а втілення НМ на ГП&nbsp;— роками,<ref name="jung2004" /> включно із ЗНМ,<ref name="chellapilla2006" /><ref name="SCHIDHUB" /> для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року ''DanNet''<ref name=":6">{{Cite journal|last1=Ciresan|first1=D. C.|last2=Meier|first2=U.|last3=Masci|first3=J.|last4=Gambardella|first4=L.M.|last5=Schmidhuber|first5=J.|date=2011|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|journal=International Joint Conference on Artificial Intelligence|doi=10.5591/978-1-57735-516-8/ijcai11-210|access-date=2017-06-13|archive-date=2014-09-29|archive-url=https://web.archive.org/web/20140929094040/http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|url-status=live|language=en}}</ref><ref name=":9" /> Дена Чирешана, Улі Меєра, Джонатана Маскі, {{нп|Лука Марія Гамбардела|Луки Марії Гамбардели||Luca Maria Gambardella}} та [[Юрген Шмідхубер|Юргена Шмідхубера]] вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.<ref name="SCHIDHUB" /> Також 2011 року ''DanNet'' виграла конкурс із китайського рукописного тексту ''ICDAR'', а в травні 2012 року перемогла в конкурсі з сегментування зображень ''ISBI''.<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last1=Ciresan|first1=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Jürgen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.|access-date=2017-06-13|archive-date=2017-08-09|archive-url=https://web.archive.org/web/20170809081713/http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|url-status=live|language=en}}</ref> До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції ''CVPR''<ref name=":9" /> показала, як [[Максимізувальне агрегування|максимізувально агрегувальні]] ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року ''DanNet'' також виграла конкурс ''ICPR'' з аналізу великих медичних зображень для виявляння раку, а наступного року також і ''MICCAI Grand Challenge'' на ту ж тему.<ref name="ciresan2013miccai">{{Cite journal|last1=Ciresan|first1=D.|last2=Giusti|first2=A.|last3=Gambardella|first3=L.M.|last4=Schmidhuber|first4=J.|date=2013|title=Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks|journal=Proceedings MICCAI|volume=7908|issue=Pt 2|pages=411–418|doi=10.1007/978-3-642-40763-5_51|pmid=24579167|series=Lecture Notes in Computer Science|isbn=978-3-642-38708-1|language=en}}</ref> У жовтні 2012 року подібна ''[[AlexNet]]'' [[Олексій Крижевський|Олексія Крижевського]], [[Ілля Суцкевер|Іллі Суцкевера]] та [[Джефрі Гінтон]]а<ref name="krizhevsky2012" /> виграла великомасштабне {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet competition}} зі значним відривом від неглибоких методів машинного навчання. Мережа ''VGG''-16 {{нп|Карен Симонян|Карена Симоняна||Karen Simonyan}} та {{нп|Ендрю Зіссерман|Ендрю Зіссермана||Andrew Zisserman}}<ref name="VGG">{{cite arXiv|last1=Simonyan |first1=Karen |last2=Andrew |first2=Zisserman |title=Very Deep Convolution Networks for Large Scale Image Recognition |year=2014 |class=cs.CV |eprint=1409.1556 |language=en}}</ref> ще більше знизила рівень похибок і виграла конкурс ''ImageNet'' 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.
Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані [[Зворотне поширення|зворотним поширенням]], існували десятиліттями,<ref name="wz1988" /><ref name="LECUN1989" /> а втілення НМ на ГП&nbsp;— роками,<ref name="jung2004" /> включно із ЗНМ,<ref name="chellapilla2006" /><ref name="SCHIDHUB" /> для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року ''DanNet''<ref name=":6">{{Cite journal|last1=Ciresan|first1=D. C.|last2=Meier|first2=U.|last3=Masci|first3=J.|last4=Gambardella|first4=L.M.|last5=Schmidhuber|first5=J.|date=2011|title=Flexible, High Performance Convolutional Neural Networks for Image Classification|url=http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|journal=International Joint Conference on Artificial Intelligence|doi=10.5591/978-1-57735-516-8/ijcai11-210|access-date=2017-06-13|archive-date=2014-09-29|archive-url=https://web.archive.org/web/20140929094040/http://ijcai.org/papers11/Papers/IJCAI11-210.pdf|url-status=live|language=en}}</ref><ref name=":9" /> Дена Чирешана, Улі Меєра, Джонатана Маскі, {{нп|Лука Марія Гамбардела|Луки Марії Гамбардели||Luca Maria Gambardella}} та [[Юрген Шмідхубер|Юргена Шмідхубера]] вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.<ref name="SCHIDHUB" /> Також 2011 року ''DanNet'' виграла конкурс із китайського рукописного тексту ''ICDAR'', а в травні 2012 року перемогла в конкурсі з сегментування зображень ''ISBI''.<ref name=":8">{{Cite book|url=http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|title=Advances in Neural Information Processing Systems 25|last1=Ciresan|first1=Dan|last2=Giusti|first2=Alessandro|last3=Gambardella|first3=Luca M.|last4=Schmidhuber|first4=Jürgen|date=2012|publisher=Curran Associates, Inc.|editor-last=Pereira|editor-first=F.|pages=2843–2851|editor-last2=Burges|editor-first2=C. J. C.|editor-last3=Bottou|editor-first3=L.|editor-last4=Weinberger|editor-first4=K. Q.|access-date=2017-06-13|archive-date=2017-08-09|archive-url=https://web.archive.org/web/20170809081713/http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf|url-status=live|language=en}}</ref> До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції ''CVPR''<ref name=":9" /> показала, як [[Максимізувальне агрегування|максимізувально агрегувальні]] ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року ''DanNet'' також виграла конкурс ''ICPR'' з аналізу великих медичних зображень для виявляння раку, а наступного року також і ''MICCAI Grand Challenge'' на ту ж тему.<ref name="ciresan2013miccai">{{Cite book|last1=Ciresan|first1=D.|last2=Giusti|first2=A.|last3=Gambardella|first3=L.M.|last4=Schmidhuber|first4=J.|title=Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013 |chapter=Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks |date=2013|volume=7908|issue=Pt 2|pages=411–418|doi=10.1007/978-3-642-40763-5_51|pmid=24579167|series=Lecture Notes in Computer Science|isbn=978-3-642-38708-1|language=en}}</ref> У жовтні 2012 року подібна ''[[AlexNet]]'' [[Олексій Крижевський|Олексія Крижевського]], [[Ілля Суцкевер|Іллі Суцкевера]] та [[Джефрі Гінтон]]а<ref name="krizhevsky2012" /> виграла великомасштабне {{нп|Змагання ImageNet|змагання ''ImageNet''||ImageNet competition}} зі значним відривом від неглибоких методів машинного навчання. Мережа ''VGG''-16 {{нп|Карен Симонян|Карена Симоняна||Karen Simonyan}} та {{нп|Ендрю Зіссерман|Ендрю Зіссермана||Andrew Zisserman}}<ref name="VGG">{{cite arXiv|last1=Simonyan |first1=Karen |last2=Andrew |first2=Zisserman |title=Very Deep Convolution Networks for Large Scale Image Recognition |year=2014 |class=cs.CV |eprint=1409.1556 |language=en}}</ref> ще більше знизила рівень похибок і виграла конкурс ''ImageNet'' 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.


Потім класифікування зображень було розширено до складнішого завдання {{нп|Автоматичне анотування зображень|породжування описів||Automatic image annotation}} (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.<ref name="1411.4555">{{cite arXiv |eprint=1411.4555|last1=Vinyals|first1=Oriol|title=Show and Tell: A Neural Image Caption Generator|last2=Toshev|first2=Alexander|last3=Bengio|first3=Samy|last4=Erhan|first4=Dumitru|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.4952">{{cite arXiv |eprint=1411.4952|last1=Fang|first1=Hao|title=From Captions to Visual Concepts and Back|last2=Gupta|first2=Saurabh|last3=Iandola|first3=Forrest|last4=Srivastava|first4=Rupesh|last5=Deng|first5=Li|last6=Dollár|first6=Piotr|last7=Gao|first7=Jianfeng|last8=He|first8=Xiaodong|last9=Mitchell|first9=Margaret|last10=Platt|first10=John C|last11=Lawrence Zitnick|first11=C|last12=Zweig|first12=Geoffrey|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.2539">{{cite arXiv |eprint=1411.2539|last1=Kiros|first1=Ryan|title=Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models|last2=Salakhutdinov|first2=Ruslan|last3=Zemel|first3=Richard S|class=cs.LG|year=2014|language=en}}.</ref>
Потім класифікування зображень було розширено до складнішого завдання {{нп|Автоматичне анотування зображень|породжування описів||Automatic image annotation}} (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.<ref name="1411.4555">{{cite arXiv |eprint=1411.4555|last1=Vinyals|first1=Oriol|title=Show and Tell: A Neural Image Caption Generator|last2=Toshev|first2=Alexander|last3=Bengio|first3=Samy|last4=Erhan|first4=Dumitru|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.4952">{{cite arXiv |eprint=1411.4952|last1=Fang|first1=Hao| title=From Captions to Visual Concepts and Back|last2=Gupta|first2=Saurabh|last3=Iandola|first3=Forrest|last4=Srivastava|first4=Rupesh|last5=Deng|first5=Li|last6=Dollár|first6=Piotr|last7=Gao|first7=Jianfeng|last8=He|first8=Xiaodong|last9=Mitchell|first9=Margaret|last10=Platt|first10=John C|last11=Lawrence Zitnick|first11=C|last12=Zweig|first12=Geoffrey|class=cs.CV|year=2014|language=en}}.</ref><ref name="1411.2539">{{cite arXiv |eprint=1411.2539|last1=Kiros|first1=Ryan|title=Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models|last2=Salakhutdinov|first2=Ruslan|last3=Zemel|first3=Richard S|class=cs.LG|year=2014|language=en}}.</ref>


2012 року команда під проводом Джорджа Даля виграла конкурс ''«Merck Molecular Activity Challenge»'', використовуючи багатозадачні глибокі нейронні мережі для передбачування {{нп|Біомолекулярна мішень|біомолекулярної мішені||Biomolecular target}} одного препарату.<ref name="MERCK2012">{{Cite web|url=https://kaggle.com/c/MerckActivity|title=Merck Molecular Activity Challenge|website=kaggle.com|access-date=2020-07-16|archive-date=2020-07-16|archive-url=https://web.archive.org/web/20200716190808/https://www.kaggle.com/c/MerckActivity|url-status=live|language=en}}</ref><ref name=":5">{{Cite web|url=http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|title=Multi-task Neural Networks for QSAR Predictions {{!}} Data Science Association|website=www.datascienceassn.org|access-date=14 червня 2017|archive-date=30 квітня 2017|archive-url=https://web.archive.org/web/20170430142049/http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|url-status=live|language=en}}</ref> 2014 року група {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла ''«Tox21 Data Challenge»'' [[Національний інститут охорони здоров'я США|''NIH'']], [[Управління з продовольства і медикаментів США|''FDA'']] та ''{{нп|NCATS|||National Center for Advancing Translational Sciences}}''.<ref name="TOX21">"Toxicology in the 21st century Data Challenge" {{ref-en}}</ref><ref name="TOX21Data">{{cite web|url=https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|title=NCATS Announces Tox21 Data Challenge Winners|access-date=2015-03-05|archive-date=2015-09-08|archive-url=https://web.archive.org/web/20150908025122/https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|url-status=live|language=en}}</ref><ref name=":11">{{cite web|url=http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|title=NCATS Announces Tox21 Data Challenge Winners|archive-url=https://web.archive.org/web/20150228225709/http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|archive-date=28 лютого 2015|url-status=dead|access-date=5 березня 2015|language=en}}</ref>
2012 року команда під проводом Джорджа Даля виграла конкурс ''«Merck Molecular Activity Challenge»'', використовуючи багатозадачні глибокі нейронні мережі для передбачування {{нп|Біомолекулярна мішень|біомолекулярної мішені||Biomolecular target}} одного препарату.<ref name="MERCK2012">{{Cite web|url=https://kaggle.com/c/MerckActivity|title=Merck Molecular Activity Challenge|website=kaggle.com|access-date=2020-07-16|archive-date=2020-07-16|archive-url=https://web.archive.org/web/20200716190808/https://www.kaggle.com/c/MerckActivity|url-status=live|language=en}}</ref><ref name=":5">{{Cite web|url=http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|title=Multi-task Neural Networks for QSAR Predictions {{!}} Data Science Association|website=www.datascienceassn.org|access-date=14 червня 2017|archive-date=30 квітня 2017|archive-url=https://web.archive.org/web/20170430142049/http://www.datascienceassn.org/content/multi-task-neural-networks-qsar-predictions|url-status=live|language=en}}</ref> 2014 року група {{нп|Зепп Хохрайтер|Зеппа Хохрайтера||Sepp Hochreiter}} використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла ''«Tox21 Data Challenge»'' [[Національний інститут охорони здоров'я США|''NIH'']], [[Управління з продовольства і медикаментів США|''FDA'']] та ''{{нп|NCATS|||National Center for Advancing Translational Sciences}}''.<ref name="TOX21">"Toxicology in the 21st century Data Challenge" {{ref-en}}</ref><ref name="TOX21Data">{{cite web|url=https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|title=NCATS Announces Tox21 Data Challenge Winners|access-date=2015-03-05|archive-date=2015-09-08|archive-url=https://web.archive.org/web/20150908025122/https://tripod.nih.gov/tox21/challenge/leaderboard.jsp|url-status=live|language=en}}</ref><ref name=":11">{{cite web|url=http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|title=NCATS Announces Tox21 Data Challenge Winners|archive-url=https://web.archive.org/web/20150228225709/http://www.ncats.nih.gov/news-and-events/features/tox21-challenge-winners.html|archive-date=28 лютого 2015|url-status=dead|access-date=5 березня 2015|language=en}}</ref>
Рядок 125: Рядок 127:
== Нейронні мережі ==
== Нейронні мережі ==
{{Main|Штучна нейронна мережа}}
{{Main|Штучна нейронна мережа}}
{{multiple image
| direction = horizontal
| total_width = 400
| footer =
| image1 = Simplified neural network training example.svg
| alt1 =
| caption1 = Спрощений приклад тренування нейронної мережі у виявлянні об'єктів: Мережу тренують кількома зображеннями, відомими як зображення [[Морські зірки|морських зірок]] та [[Морські їжаки|морських їжаків]], що корелюють з «вузлами», які подають візуальні [[Ознака (комп'ютерне бачення)|ознаки]]. Морські зірки відповідають текстурі в кружечок та зірковому контурові, тоді як більшість морських їжаків відповідають смугастій текстурі й овальній формі. Проте, приклад морського їжака з текстурою в кружечок створює слабко зважену пов'язаність між ними.
| image2 = Simplified neural network example.svg
| alt2 =
| caption2 = Наступний запуск мережі на вхідному зображенні (ліворуч):<ref>{{cite book|author=Ferrie, C., & Kaiser, S.|year=2019|title=Neural Networks for Babies|language=en|publisher=Sourcebooks|isbn=978-1492671206}}</ref> Мережа правильно виявляє морську зірку. Проте, слабко зважена пов'язаність між текстурою в кружечок і морським їжаком також передає слабкий сигнал останньому від одного з двох проміжних вузлів. Крім того, [[черепашка]], яку не було включено до тренування, дає слабкий сигнал для овальної форми, що також призводить до слабкого сигналу для виходу морського їжака. Ці слабкі сигнали можуть призвести до [[Хибно позитивний|хибно позитивного]] результату для морського їжака.<br>В реальності текстури та контури не буде подано поодинокими вузлами, а радше пов'язаними ваговими шаблонами декількох вузлів.}}


'''Штучні нейронні мережі''' ('''ШНМ''', {{lang-en|artificial neural networks, ANN}}) або '''[[Конекціонізм|коннекціоністські]] системи''' ({{lang-en|connectionist systems}})&nbsp;— це обчислювальні системи, натхненні [[Біологічна нейронна мережа|біологічними нейронними мережами]], які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, {{нп|Мічені дані|мічені||Labeled data}} вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням [[програмування на основі правил]] .
'''Шту́чні нейро́нні мере́жі''' ('''ШНМ''', {{lang-en|artificial neural networks, ANN}}) або '''[[Конекціонізм|коннекціоні́стські]] систе́ми''' ({{lang-en|connectionist systems}})&nbsp;— це обчислювальні системи, натхненні [[Біологічна нейронна мережа|біологічними нейронними мережами]], які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, {{нп|Мічені дані|мічені||Labeled data}} вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням [[програмування на основі правил]] .


ШНМ ґрунтується на сукупності з'єднаних вузлів, званих [[Штучний нейрон|штучними нейронами]] (аналогічно біологічним нейронам у [[Головний мозок|біологічному мозку]]). Кожне з'єднання ([[синапс]]) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий [[Дійсне число|дійсними числами]], зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.
ШНМ ґрунтується на сукупності з'єднаних вузлів, званих [[Штучний нейрон|штучними нейронами]] (аналогічно біологічним нейронам у [[Головний мозок|біологічному мозку]]). Кожне з'єднання ([[синапс]]) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий [[Дійсне число|дійсними числами]], зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.
Рядок 140: Рядок 152:
=== Глибокі нейронні мережі ===
=== Глибокі нейронні мережі ===


Глибока нейронна мережа (ГНМ, {{lang-en|deep neural network, DNN}})&nbsp;— це [[штучна нейронна мережа]] (ШНМ) із кількома шарами між шарами входу та виходу.<ref name="BENGIODEEP" /><ref name="SCHIDHUB" /> Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.<ref name="Nokkada">{{citation |title=A Guide to Deep Learning and Neural Networks |url=https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |access-date=2020-11-16 |archive-date=2020-11-02 |archive-url=https://web.archive.org/web/20201102151103/https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |url-status=live |language=en }}</ref> Ці складові в цілому функціонують подібно до людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.{{Джерело|дата=липень 2023}}
Глибока нейронна мережа (ГНМ, {{lang-en|deep neural network, DNN}})&nbsp;— це [[штучна нейронна мережа]] (ШНМ) із кількома шарами між шарами входу та виходу.<ref name="BENGIODEEP" /><ref name="SCHIDHUB" /> Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.<ref name="Nokkada">{{citation |title=A Guide to Deep Learning and Neural Networks |url=https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |access-date=2020-11-16 |archive-date=2020-11-02 |archive-url=https://web.archive.org/web/20201102151103/https://serokell.io/blog/deep-learning-and-neural-network-guide#components-of-neural-networks |url-status=live |language=en }}</ref> Ці складові в цілому функціонують у спосіб, що імітує функціювання людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.{{Джерело|дата=липень 2023}}


Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,{{Джерело|дата=липень 2023}} і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.
Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,{{Джерело|дата=липень 2023}} і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.


ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією [[Примітивний тип даних|примітивів]].<ref>{{Cite journal|last1=Szegedy|first1=Christian|last2=Toshev|first2=Alexander|last3=Erhan|first3=Dumitru|date=2013|title=Deep neural networks for object detection|url=https://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|journal=Advances in Neural Information Processing Systems|pages=2553–2561|access-date=2017-06-13|archive-date=2017-06-29|archive-url=https://web.archive.org/web/20170629172111/http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|url-status=live|language=en}}</ref> Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.<ref name="BENGIODEEP" /> Наприклад, було доведено, що розріджені {{нп|Багатовимірний многочлен|багатовимірні многочлени||Multivariate polynomial}}<!-- Проблема вікіфікації: Сторінка [[:en:Multivariate polynomial]] (→ [[:en:Polynomial#Multivariate polynomial]]) перекладена як [[Многочлен]], хоча хотіли [[Багатовимірний многочлен]] (SashkoR0B0T)--> експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.<ref>{{cite conference|last1=Rolnick|first1=David|last2=Tegmark|first2=Max|date=2018|title=The power of deeper networks for expressing natural functions|url=https://openreview.net/pdf?id=SyProzZAW|conference=ICLR 2018|book-title=International Conference on Learning Representations|access-date=2021-01-05|archive-date=2021-01-07|archive-url=https://web.archive.org/web/20210107183647/https://openreview.net/pdf?id=SyProzZAW|url-status=live|language=en}}</ref>
ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією [[Примітивний тип даних|примітивів]].<ref>{{Cite journal|last1=Szegedy|first1=Christian|last2=Toshev|first2=Alexander|last3=Erhan|first3=Dumitru|date=2013|title=Deep neural networks for object detection|url=https://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|journal=Advances in Neural Information Processing Systems|pages=2553–2561|access-date=2017-06-13|archive-date=2017-06-29|archive-url=https://web.archive.org/web/20170629172111/http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection|url-status=live|language=en}}</ref> Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.<ref name="BENGIODEEP" /> Наприклад, було доведено, що розріджені {{нп|Багатовимірний многочлен|багатовимірні многочлени||Multivariate polynomial}} експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.<ref>{{cite conference|last1=Rolnick|first1=David|last2=Tegmark|first2=Max|date=2018|title=The power of deeper networks for expressing natural functions|url=https://openreview.net/pdf?id=SyProzZAW|conference=ICLR 2018|book-title=International Conference on Learning Representations|access-date=2021-01-05|archive-date=2021-01-07|archive-url=https://web.archive.org/web/20210107183647/https://openreview.net/pdf?id=SyProzZAW|url-status=live|language=en}}</ref>


До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.
До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.
Рядок 150: Рядок 162:
ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.<ref>{{Cite news|last=Hof|first=Robert D.|title=Is Artificial Intelligence Finally Coming into Its Own?|work=MIT Technology Review|url=https://www.technologyreview.com/s/513696/deep-learning/|access-date=10 липня 2018|archive-url=https://web.archive.org/web/20190331092832/https://www.technologyreview.com/s/513696/deep-learning/|archive-date=31 березня 2019|language=en}}</ref> Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.
ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.<ref>{{Cite news|last=Hof|first=Robert D.|title=Is Artificial Intelligence Finally Coming into Its Own?|work=MIT Technology Review|url=https://www.technologyreview.com/s/513696/deep-learning/|access-date=10 липня 2018|archive-url=https://web.archive.org/web/20190331092832/https://www.technologyreview.com/s/513696/deep-learning/|archive-date=31 березня 2019|language=en}}</ref> Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.


[[Рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural networks, RNN}}), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як [[моделювання мови]].<ref name="gers2001">{{cite journal|last1=Gers|first1=Felix A.|last2=Schmidhuber|first2=Jürgen|year=2001|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|url=http://elartu.tntu.edu.ua/handle/lib/30719|journal=IEEE Transactions on Neural Networks|volume=12|issue=6|pages=1333–1340|doi=10.1109/72.963769|pmid=18249962|access-date=2020-02-25|archive-date=2020-01-26|archive-url=https://web.archive.org/web/20200126045722/http://elartu.tntu.edu.ua/handle/lib/30719|url-status=live|language=en}}</ref><ref name="NIPS2014" /><ref name="vinyals2016">{{cite arXiv |eprint=1602.02410|last1=Jozefowicz|first1=Rafal|title=Exploring the Limits of Language Modeling|last2=Vinyals|first2=Oriol|last3=Schuster|first3=Mike|last4=Shazeer|first4=Noam|last5=Wu|first5=Yonghui|class=cs.CL|year=2016|language=en}}</ref><ref name="gillick2015">{{cite arXiv |eprint=1512.00103|last1=Gillick|first1=Dan|title=Multilingual Language Processing from Bytes|last2=Brunk|first2=Cliff|last3=Vinyals|first3=Oriol|last4=Subramanya|first4=Amarnag|class=cs.CL|year=2015|language=en}}</ref><ref name="MIKO2010">{{Cite journal|last=Mikolov|first=T.|display-authors=etal|date=2010|title=Recurrent neural network based language model|url=http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|journal=Interspeech|pages=1045–1048|doi=10.21437/Interspeech.2010-343|s2cid=17048224 |access-date=2017-06-13|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516181940/http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|url-status=live|language=en}}</ref> Для цього використання особливо ефективна довга короткочасна пам'ять.<ref name=":0" /><ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|access-date=13 червня 2017|archive-date=9 травня 2021|archive-url=https://web.archive.org/web/20210509123147/https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks|url-status=live|language=en}}</ref>
[[Рекурентні нейронні мережі]] (РНМ, {{lang-en|recurrent neural networks, RNN}}), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як [[моделювання мови]].<ref name="gers2001">{{cite journal|last1=Gers|first1=Felix A.|last2=Schmidhuber|first2=Jürgen|year=2001|title=LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages|url=http://elartu.tntu.edu.ua/handle/lib/30719|journal=IEEE Transactions on Neural Networks|volume=12|issue=6|pages=1333–1340|doi=10.1109/72.963769|pmid=18249962|s2cid=10192330 |access-date=2020-02-25|archive-date=2020-01-26|archive-url=https://web.archive.org/web/20200126045722/http://elartu.tntu.edu.ua/handle/lib/30719|url-status=live|language=en}}</ref><ref name="NIPS2014" /><ref name="vinyals2016">{{cite arXiv |eprint=1602.02410|last1=Jozefowicz|first1=Rafal|title=Exploring the Limits of Language Modeling|last2=Vinyals|first2=Oriol|last3=Schuster|first3=Mike|last4=Shazeer|first4=Noam|last5=Wu|first5=Yonghui|class=cs.CL|year=2016|language=en}}</ref><ref name="gillick2015">{{cite arXiv |eprint=1512.00103|last1=Gillick|first1=Dan|title=Multilingual Language Processing from Bytes|last2=Brunk|first2=Cliff|last3=Vinyals|first3=Oriol|last4=Subramanya|first4=Amarnag|class=cs.CL|year=2015|language=en}}</ref><ref name="MIKO2010">{{Cite journal|last=Mikolov|first=T.|display-authors=etal|date=2010|title=Recurrent neural network based language model|url=http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|journal=Interspeech|pages=1045–1048|doi=10.21437/Interspeech.2010-343|s2cid=17048224 |access-date=2017-06-13|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516181940/http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf|url-status=live|language=en}}</ref> Для цього використання особливо ефективна довга короткочасна пам'ять.<ref name=":0" /><ref name=":10">{{Cite web|url=https://www.researchgate.net/publication/220320057|title=Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)|website=ResearchGate|access-date=13 червня 2017|archive-date=9 травня 2021|archive-url=https://web.archive.org/web/20210509123147/https://www.researchgate.net/publication/220320057_Learning_Precise_Timing_with_LSTM_Recurrent_Networks|url-status=live|language=en}}</ref>


[[Згорткова нейронна мережа|Згорткові глибокі нейронні мережі]] (ЗНМ, {{lang-en|convolutional deep neural networks, CNN}}) використовують у комп'ютернім баченні.<ref name="LECUN86">{{cite journal |last1=LeCun |first1=Y. |display-authors=etal |year= 1998|title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |volume=86 |issue=11 |pages=2278–2324 |doi=10.1109/5.726791|s2cid=14542261 |url=http://elartu.tntu.edu.ua/handle/lib/38369 |language=en }}</ref> ЗНМ також застосовували до {{нп|Акустична модель|акустичного моделювання||Acoustic model}} для автоматичного розпізнавання мовлення (АРМ, {{lang-en|automatic speech recognition, ASR}}).<ref name=":2">{{Cite book |doi=10.1109/icassp.2013.6639347|isbn=978-1-4799-0356-6|chapter=Deep convolutional neural networks for LVCSR|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8614–8618|year=2013|last1=Sainath|first1=Tara N.|author1-link=Тара Сайнат |last2=Mohamed|first2=Abdel-Rahman|last3=Kingsbury|first3=Brian|last4=Ramabhadran|first4=Bhuvana|author4-link=Бгувана Рамбгадран|s2cid=13816461|language=en}}</ref>
[[Згорткова нейронна мережа|Згорткові глибокі нейронні мережі]] (ЗНМ, {{lang-en|convolutional deep neural networks, CNN}}) використовують у комп'ютернім баченні.<ref name="LECUN86">{{cite journal |last1=LeCun |first1=Y. |display-authors=etal |year= 1998|title=Gradient-based learning applied to document recognition |journal=Proceedings of the IEEE |volume=86 |issue=11 |pages=2278–2324 |doi=10.1109/5.726791|s2cid=14542261 |url=http://elartu.tntu.edu.ua/handle/lib/38369 |language=en }}</ref> ЗНМ також застосовували до {{нп|Акустична модель|акустичного моделювання||Acoustic model}} для автоматичного розпізнавання мовлення (АРМ, {{lang-en|automatic speech recognition, ASR}}).<ref name=":2">{{Cite book |doi=10.1109/icassp.2013.6639347|isbn=978-1-4799-0356-6|chapter=Deep convolutional neural networks for LVCSR|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8614–8618|year=2013|last1=Sainath|first1=Tara N.|author1-link=Тара Сайнат |last2=Mohamed|first2=Abdel-Rahman|last3=Kingsbury|first3=Brian|last4=Ramabhadran|first4=Bhuvana|author4-link=Бгувана Рамбгадран|s2cid=13816461|language=en}}</ref>
Рядок 160: Рядок 172:
ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи [[Регуляризація (математика)|регуляризації]], такі як обрізання вузлів ({{lang-en|unit pruning}}) Івахненка,<ref name="ivak1971" /> {{нп|ослаблення ваг|||Weight decay}} ({{lang-en|weight decay}}, <math> \ell_2 </math>-регуляризація) та [[Розріджена матриця|розрідженість]] ({{lang-en|sparsity}}, <math> \ell_1 </math>-регуляризація).<ref>{{Cite book |doi=10.1109/icassp.2013.6639349|isbn=978-1-4799-0356-6|arxiv=1212.0901|citeseerx=10.1.1.752.9151|chapter=Advances in optimizing recurrent networks|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8624–8628|year=2013|last1=Bengio|first1=Yoshua|last2=Boulanger-Lewandowski|first2=Nicolas|last3=Pascanu|first3=Razvan|s2cid=12485056|language=en}}</ref> Альтернативна регуляризація [[Виключення (нейронні мережі)|виключенням]] ({{lang-en|dropout}}) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.<ref name="DAHL2013">{{Cite journal|last=Dahl|first=G.|display-authors=etal|date=2013|title=Improving DNNs for LVCSR using rectified linear units and dropout|url=http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|journal=ICASSP|access-date=2017-06-13|archive-date=2017-08-12|archive-url=https://web.archive.org/web/20170812140509/http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|url-status=live|language=en}}</ref> Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.<ref>{{Cite web|url=https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|title=Data Augmentation - deeplearning.ai {{!}} Coursera|website=Coursera|access-date=30 листопада 2017|archive-date=1 грудня 2017|archive-url=https://web.archive.org/web/20171201032606/https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|url-status=live|language=en}}</ref>
ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи [[Регуляризація (математика)|регуляризації]], такі як обрізання вузлів ({{lang-en|unit pruning}}) Івахненка,<ref name="ivak1971" /> {{нп|ослаблення ваг|||Weight decay}} ({{lang-en|weight decay}}, <math> \ell_2 </math>-регуляризація) та [[Розріджена матриця|розрідженість]] ({{lang-en|sparsity}}, <math> \ell_1 </math>-регуляризація).<ref>{{Cite book |doi=10.1109/icassp.2013.6639349|isbn=978-1-4799-0356-6|arxiv=1212.0901|citeseerx=10.1.1.752.9151|chapter=Advances in optimizing recurrent networks|title=2013 IEEE International Conference on Acoustics, Speech and Signal Processing|pages=8624–8628|year=2013|last1=Bengio|first1=Yoshua|last2=Boulanger-Lewandowski|first2=Nicolas|last3=Pascanu|first3=Razvan|s2cid=12485056|language=en}}</ref> Альтернативна регуляризація [[Виключення (нейронні мережі)|виключенням]] ({{lang-en|dropout}}) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.<ref name="DAHL2013">{{Cite journal|last=Dahl|first=G.|display-authors=etal|date=2013|title=Improving DNNs for LVCSR using rectified linear units and dropout|url=http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|journal=ICASSP|access-date=2017-06-13|archive-date=2017-08-12|archive-url=https://web.archive.org/web/20170812140509/http://www.cs.toronto.edu/~gdahl/papers/reluDropoutBN_icassp2013.pdf|url-status=live|language=en}}</ref> Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.<ref>{{Cite web|url=https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|title=Data Augmentation - deeplearning.ai {{!}} Coursera|website=Coursera|access-date=30 листопада 2017|archive-date=1 грудня 2017|archive-url=https://web.archive.org/web/20171201032606/https://www.coursera.org/learn/convolutional-neural-networks/lecture/AYzbX/data-augmentation|url-status=live|language=en}}</ref>


ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), [[темп навчання]] та первинні ваги. [[Оптимізація гіперпараметрів#Пошук по ґратці|Прочісування простору параметрів]] для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування ({{lang-en|batching}}, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).<ref name="RBMTRAIN">{{Cite journal|last=Hinton|first=G. E.|date=2010|title=A Practical Guide to Training Restricted Boltzmann Machines|url=https://www.researchgate.net/publication/221166159|journal=Tech. Rep. UTML TR 2010-003|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123211/https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|url-status=live|language=en}}</ref> Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та ''Intel Xeon Phi'') призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.<ref>{{cite book|last1=You|first1=Yang|title=Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17|pages=1–12|last2=Buluç|first2=Aydın|last3=Demmel|first3=James|chapter=Scaling deep learning on GPU and knights landing clusters|chapter-url=https://dl.acm.org/citation.cfm?doid=3126908.3126912|publisher=SC '17, ACM|date=November 2017|access-date=5 березня 2018|doi=10.1145/3126908.3126912|isbn=9781450351140|s2cid=8869270|url=http://www.escholarship.org/uc/item/6ch40821|archive-date=29 липня 2020|archive-url=https://web.archive.org/web/20200729133850/https://escholarship.org/uc/item/6ch40821|url-status=live|language=en}}</ref><ref>{{cite journal|last1=Viebke|first1=André|last2=Memeti|first2=Suejb|last3=Pllana|first3=Sabri|last4=Abraham|first4=Ajith|s2cid=14135321|title=CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi|journal=The Journal of Supercomputing|volume=75|pages=197–227|doi=10.1007/s11227-017-1994-x|arxiv=1702.07908|bibcode=2017arXiv170207908V|year=2019|language=en}}</ref>
ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), [[темп навчання]] та первинні ваги. [[Оптимізація гіперпараметрів#Пошук по ґратці|Прочісування простору параметрів]] для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як [[Пакетне навчання|пакетування]] ({{lang-en|batching}}, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).<ref name="RBMTRAIN">{{Cite journal|last=Hinton|first=G. E.|date=2010|title=A Practical Guide to Training Restricted Boltzmann Machines|url=https://www.researchgate.net/publication/221166159|journal=Tech. Rep. UTML TR 2010-003|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123211/https://www.researchgate.net/publication/221166159_A_brief_introduction_to_Weightless_Neural_Systems|url-status=live|language=en}}</ref> Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та ''Intel Xeon Phi'') призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.<ref>{{cite book|last1=You|first1=Yang|title=Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17|pages=1–12|last2=Buluç|first2=Aydın|last3=Demmel|first3=James|chapter=Scaling deep learning on GPU and knights landing clusters|chapter-url=https://dl.acm.org/citation.cfm?doid=3126908.3126912|publisher=SC '17, ACM|date=November 2017|access-date=5 березня 2018|doi=10.1145/3126908.3126912|isbn=9781450351140|s2cid=8869270|url=http://www.escholarship.org/uc/item/6ch40821|archive-date=29 липня 2020|archive-url=https://web.archive.org/web/20200729133850/https://escholarship.org/uc/item/6ch40821|url-status=live|language=en}}</ref><ref>{{cite journal|last1=Viebke|first1=André|last2=Memeti|first2=Suejb|last3=Pllana|first3=Sabri|last4=Abraham|first4=Ajith|s2cid=14135321|title=CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi|journal=The Journal of Supercomputing|volume=75|pages=197–227|doi=10.1007/s11227-017-1994-x|arxiv=1702.07908|bibcode=2017arXiv170207908V|year=2019|language=en}}</ref>


Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ ({{нп|артикуляційний контролер мозочкової моделі|||Cerebellar model articulation controller}}, {{lang-en|cerebellar model articulation controller, CMAC}}). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.<ref name="Qin1">Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49-61. {{ref-en}}</ref><ref name="Qin2">Ting Qin, et al. "[http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf Continuous CMAC-QRLS and its systolic array] {{Webarchive|url=https://web.archive.org/web/20181118122850/http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf |date=2018-11-18 }}." Neural Processing Letters 22.1 (2005): 1-16. {{ref-en}}</ref>
Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ ({{нп|артикуляційний контролер мозочкової моделі|||Cerebellar model articulation controller}}, {{lang-en|cerebellar model articulation controller, CMAC}}). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.<ref name="Qin1">Ting Qin, et al. "A learning algorithm of CMAC based on RLS". Neural Processing Letters 19.1 (2004): 49-61. {{ref-en}}</ref><ref name="Qin2">Ting Qin, et al. "[http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf Continuous CMAC-QRLS and its systolic array]". {{Webarchive|url=https://web.archive.org/web/20181118122850/http://www-control.eng.cam.ac.uk/Homepage/papers/cued_control_997.pdf |date=2018-11-18 }}. Neural Processing Letters 22.1 (2005): 1-16. {{ref-en}}</ref>


== Апаратне забезпечення ==
== Апаратне забезпечення ==
Рядок 168: Рядок 180:
З 2010-х років прогрес як в алгоритмах машинного навчання, так і в [[Апаратне забезпечення|комп'ютерному апаратному забезпеченні]] призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.<ref>{{cite web|last1=Research|first1=AI|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition|url=http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|website=airesearch.com|access-date=23 жовтня 2015|date=23 жовтня 2015|archive-date=1 лютого 2016|archive-url=https://web.archive.org/web/20160201033801/http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|url-status=live|language=en}}</ref> До 2019 року графічні процесори ([[ГП]]), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.<ref>{{cite news |title=GPUs Continue to Dominate the AI Accelerator Market for Now |url=https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |access-date=11 червня 2020 |work=InformationWeek |date=December 2019 |language=en |archive-date=10 червня 2020 |archive-url=https://web.archive.org/web/20200610094310/https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |url-status=live }}</ref> ''[[OpenAI]]'' оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від ''AlexNet'' (2012) і до ''AlphaZero'' (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.<ref>{{cite news |last1=Ray |first1=Tiernan |title=AI is changing the entire nature of computation |url=https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |access-date=11 червня 2020 |work=ZDNet |date=2019 |language=en |archive-date=25 травня 2020 |archive-url=https://web.archive.org/web/20200525144635/https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |url-status=live }}</ref><ref>{{cite web |title=AI and Compute |url=https://openai.com/blog/ai-and-compute/ |website=OpenAI |access-date=11 червня 2020 |language=en |date=16 травня 2018 |archive-date=17 червня 2020 |archive-url=https://web.archive.org/web/20200617200602/https://openai.com/blog/ai-and-compute/ |url-status=live }}</ref>
З 2010-х років прогрес як в алгоритмах машинного навчання, так і в [[Апаратне забезпечення|комп'ютерному апаратному забезпеченні]] призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.<ref>{{cite web|last1=Research|first1=AI|title=Deep Neural Networks for Acoustic Modeling in Speech Recognition|url=http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|website=airesearch.com|access-date=23 жовтня 2015|date=23 жовтня 2015|archive-date=1 лютого 2016|archive-url=https://web.archive.org/web/20160201033801/http://airesearch.com/ai-research-papers/deep-neural-networks-for-acoustic-modeling-in-speech-recognition/|url-status=live|language=en}}</ref> До 2019 року графічні процесори ([[ГП]]), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.<ref>{{cite news |title=GPUs Continue to Dominate the AI Accelerator Market for Now |url=https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |access-date=11 червня 2020 |work=InformationWeek |date=December 2019 |language=en |archive-date=10 червня 2020 |archive-url=https://web.archive.org/web/20200610094310/https://www.informationweek.com/big-data/ai-machine-learning/gpus-continue-to-dominate-the-ai-accelerator-market-for-now/a/d-id/1336475 |url-status=live }}</ref> ''[[OpenAI]]'' оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від ''AlexNet'' (2012) і до ''AlphaZero'' (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.<ref>{{cite news |last1=Ray |first1=Tiernan |title=AI is changing the entire nature of computation |url=https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |access-date=11 червня 2020 |work=ZDNet |date=2019 |language=en |archive-date=25 травня 2020 |archive-url=https://web.archive.org/web/20200525144635/https://www.zdnet.com/article/ai-is-changing-the-entire-nature-of-compute/ |url-status=live }}</ref><ref>{{cite web |title=AI and Compute |url=https://openai.com/blog/ai-and-compute/ |website=OpenAI |access-date=11 червня 2020 |language=en |date=16 травня 2018 |archive-date=17 червня 2020 |archive-url=https://web.archive.org/web/20200617200602/https://openai.com/blog/ai-and-compute/ |url-status=live }}</ref>


Для прискорення алгоритмів глибокого навчання було розроблено спеціальні [[Електронна схема|електронні схеми]], звані {{нп|Процесор глибокого навчання|процесорами глибокого навчання||Deep learning processor}}. До процесорів глибокого навчання належать нейронні процесори (НП, {{lang-en|neural processing units, NPU}}) у мобільних телефонах ''[[Huawei]]''<ref>{{Cite web|url=https://consumer.huawei.com/en/press/news/2017/ifa2017-kirin970/|title=HUAWEI Reveals the Future of Mobile AI at IFA 2017 &#124; HUAWEI Latest News &#124; HUAWEI Global|website=consumer.huawei.com|language=en}}</ref> та серверах [[Хмарні обчислення|хмарних обчислень]], такі як [[Тензорний процесор|тензорні процесори]] (ТП, {{lang-en|tensor processing units, TPU}}) у [[Google Cloud Platform|''Google Cloud Platform'']].<ref>{{Cite journal|last1=P|first1=JouppiNorman|last2=YoungCliff|last3=PatilNishant|last4=PattersonDavid|last5=AgrawalGaurav|last6=BajwaRaminder|last7=BatesSarah|last8=BhatiaSuresh|last9=BodenNan|last10=BorchersAl|last11=BoyleRick|date=2017-06-24|title=In-Datacenter Performance Analysis of a Tensor Processing Unit|journal=ACM SIGARCH Computer Architecture News|volume=45|issue=2|pages=1–12|language=EN|doi=10.1145/3140659.3080246|doi-access=free}}</ref> ''{{нп|Cerebras|Cerebras Systems||}}'' також створила спеціальну систему для обробки великих моделей глибокого навчання, ''CS''-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні ''Wafer Scale Engine'' (''WSE''-2).<ref>{{Cite web |last=Woodie |first=Alex |date=2021-11-01 |title=Cerebras Hits the Accelerator for Deep Learning Workloads |url=https://www.datanami.com/2021/11/01/cerebras-hits-the-accelerator-for-deep-learning-workloads/ |access-date=2022-08-03 |website=Datanami |language=en}}</ref><ref>{{Cite web |date=2021-04-20 |title=Cerebras launches new AI supercomputing processor with 2.6 trillion transistors |url=https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/ |access-date=2022-08-03 |website=VentureBeat |language=en-US}}</ref>
Для прискорення алгоритмів глибокого навчання було розроблено спеціальні [[Електронна схема|електронні схеми]], звані {{нп|Процесор глибокого навчання|процесорами глибокого навчання||Deep learning processor}}. До процесорів глибокого навчання належать нейронні процесори (НП, {{lang-en|neural processing units, NPU}}) у мобільних телефонах ''[[Huawei]]''<ref>{{Cite web|url=https://consumer.huawei.com/en/press/news/2017/ifa2017-kirin970/|title=HUAWEI Reveals the Future of Mobile AI at IFA 2017 &#124; HUAWEI Latest News &#124; HUAWEI Global|website=consumer.huawei.com|language=en}}</ref> та серверах [[Хмарні обчислення|хмарних обчислень]], такі як [[Тензорний процесор|тензорні процесори]] (ТП, {{lang-en|tensor processing units, TPU}}) у [[Google Cloud Platform|''Google Cloud Platform'']].<ref>{{Cite journal|last1=P|first1=JouppiNorman|last2=YoungCliff|last3=PatilNishant|last4=PattersonDavid|last5=AgrawalGaurav|last6=BajwaRaminder|last7=BatesSarah|last8=BhatiaSuresh|last9=BodenNan|last10=BorchersAl|last11=BoyleRick|date=2017-06-24|title=In-Datacenter Performance Analysis of a Tensor Processing Unit|journal=ACM SIGARCH Computer Architecture News|volume=45|issue=2|pages=1–12|language=EN|doi=10.1145/3140659.3080246|doi-access=free|arxiv=1704.04760}}</ref> ''{{нп|Cerebras|Cerebras Systems||}}'' також створила спеціальну систему для обробки великих моделей глибокого навчання, ''CS''-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні ''Wafer Scale Engine'' (''WSE''-2).<ref>{{Cite web |last=Woodie |first=Alex |date=2021-11-01 |title=Cerebras Hits the Accelerator for Deep Learning Workloads |url=https://www.datanami.com/2021/11/01/cerebras-hits-the-accelerator-for-deep-learning-workloads/ |access-date=2022-08-03 |website=Datanami |language=en}}</ref><ref>{{Cite web |date=2021-04-20 |title=Cerebras launches new AI supercomputing processor with 2.6 trillion transistors |url=https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/ |access-date=2022-08-03 |website=VentureBeat |language=en-US}}</ref>


Атомарно тонкі [[напівпровідник]]и вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі [[Польовий транзистор|польових транзисторів]] з [[Транзистор із плавним затвором|плавни́м затвором]] ({{lang-en|floating-gate field-effect transistors, FGFET}}).<ref name="atomthin">{{cite journal|title=Logic-in-memory based on an atomically thin semiconductor|year=2020|doi=10.1038/s41586-020-2861-0|last1=Marega|first1=Guilherme Migliato|last2=Zhao|first2=Yanfei|last3=Avsar|first3=Ahmet|last4=Wang|first4=Zhenyu|last5=Tripati|first5=Mukesh|last6=Radenovic|first6=Aleksandra|last7=Kis|first7=Anras|journal=Nature|volume=587|issue=2|pages=72–77|pmid=33149289|pmc=7116757|bibcode=2020Natur.587...72M|language=en }}</ref>
Атомарно тонкі [[напівпровідник]]и вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі [[Польовий транзистор|польових транзисторів]] з [[Транзистор із плавним затвором|плавни́м затвором]] ({{lang-en|floating-gate field-effect transistors, FGFET}}).<ref name="atomthin">{{cite journal|title=Logic-in-memory based on an atomically thin semiconductor|year=2020|doi=10.1038/s41586-020-2861-0|last1=Marega|first1=Guilherme Migliato|last2=Zhao|first2=Yanfei|last3=Avsar|first3=Ahmet|last4=Wang|first4=Zhenyu|last5=Tripati|first5=Mukesh|last6=Radenovic|first6=Aleksandra|last7=Kis|first7=Anras|journal=Nature|volume=587|issue=2|pages=72–77|pmid=33149289|pmc=7116757|bibcode=2020Natur.587...72M|language=en }}</ref>
Рядок 181: Рядок 193:
Великомасштабне автоматичне розпізнавання мовлення&nbsp;— це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,<ref name="SCHIDHUB" /> до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями<ref name=":10" /> на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.<ref name="graves2003" />
Великомасштабне автоматичне розпізнавання мовлення&nbsp;— це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,<ref name="SCHIDHUB" /> до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями<ref name=":10" /> на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.<ref name="graves2003" />


Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі ''{{нп|TIMIT}}''. Цей набір даних містить 630 носіїв восьми основних [[діалект]]ів [[Американська англійська|американської англійської]], де кожен читає 10 речень.<ref name="LDCTIMIT">''TIMIT Acoustic-Phonetic Continuous Speech Corpus'' Linguistic Data Consortium, Philadelphia. {{ref-en}}</ref> Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання ''TIMIT'' стосується розпізнавання {{нп|Фона|фональних||Phone (phonetics)}} послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фоно[[Біграма|біграмні]] мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, {{lang-en|phone error rates, PER}}), було узагальнено з 1991 року.
Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі ''{{нп|TIMIT}}''. Цей набір даних містить 630 носіїв восьми основних [[діалект]]ів [[Американська англійська|американської англійської]], де кожен читає 10 речень.<ref name=APC_1>{{cite book| title=TIMIT Acoustic-Phonetic Continuous Speech Corpus| author1=Garofolo, J.S.| author2=Lamel, L.F.| author3=Fisher, W.M.| author4=Fiscus, J.G.| author5=Pallett, D.S.| author6=Dahlgren, N.L.| author7=Zue, V.| url=https://catalog.ldc.upenn.edu/LDC93S1| publisher=Linguistic Data Consortium| date=1993| access-date=27 грудня 2023| doi=10.35111/17gk-bn40| isbn=1-58563-019-5| language=en}}</ref> Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання ''TIMIT'' стосується розпізнавання {{нп|Фона|фональних||Phone (phonetics)}} послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фоно[[Біграма|біграмні]] мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, {{lang-en|phone error rates, PER}}), було узагальнено з 1991 року.


{| class="wikitable"
{| class="wikitable"
Рядок 220: Рядок 232:
| 17,8
| 17,8
|-
|-
| {{H:title|англ. Hierarchical Convolutional Deep Maxout Network|Ієрархічна згорткова глибока максимумовиходова мережа}}<ref name="HCDMM">{{cite journal|last1=Tóth|first1=Laszló|date=2015|title=Phone Recognition with Hierarchical Convolutional Deep Maxout Networks|journal=EURASIP Journal on Audio, Speech, and Music Processing|volume=2015|doi=10.1186/s13636-015-0068-3|s2cid=217950236|url=http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|access-date=2019-04-01|archive-date=2020-09-24|archive-url=https://web.archive.org/web/20200924085514/http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|url-status=live|language=en}}</ref>
| {{H:title|англ. Hierarchical Convolutional Deep Maxout Network|Ієрархічна згорткова глибока максимумовиходова мережа}}<ref name="HCDMM">{{cite journal|last1=Tóth|first1=Laszló|date=2015|title=Phone Recognition with Hierarchical Convolutional Deep Maxout Networks|journal=EURASIP Journal on Audio, Speech, and Music Processing|volume=2015|doi=10.1186/s13636-015-0068-3|s2cid=217950236|url=http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|access-date=2019-04-01|archive-date=2020-09-24|archive-url=https://web.archive.org/web/20200924085514/http://publicatio.bibl.u-szeged.hu/5976/1/EURASIP2015.pdf|url-status=live |doi-access=free |language=en}}</ref>
| 16,5
| 16,5
|}
|}
Рядок 247: Рядок 259:


=== Обробка образотворчого мистецтва ===
=== Обробка образотворчого мистецтва ===
[[Файл:Jimmy_Wales_in_France,_with_the_style_of_Munch's_"The_Scream"_applied_using_neural_style_transfer.jpg|міні|164x164пкс|Візуальна художня обробка Джиммі Вейлза у Франції у стилі «Крику» Мунка, застосованого за допомогою нейронного перенесення стилю]]
[[Файл:Jimmy_Wales_in_France,_with_the_style_of_Munch's_"The_Scream"_applied_using_neural_style_transfer.jpg|міні|164x164пкс|Візуальна художня обробка Джиммі Вейлза у Франції у стилі «[[Крик (картина Мунка)|Крику]]» Мунка, застосованого за допомогою нейронного перенесення стилю]]


З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у
З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у
Рядок 260: Рядок 272:
Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.<ref name="gers2001" /> [[Довга короткочасна пам'ять|ДКЧП]] допомогла покращити машинний переклад і моделювання мови.<ref name="NIPS2014" /><ref name="vinyals2016" /><ref name="gillick2015" />
Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.<ref name="gers2001" /> [[Довга короткочасна пам'ять|ДКЧП]] допомогла покращити машинний переклад і моделювання мови.<ref name="NIPS2014" /><ref name="vinyals2016" /><ref name="gillick2015" />


Іншими ключовими методиками в цій галузі є негативне вибирання ({{lang-en|negative sampling}})<ref name="GoldbergLevy2014">{{cite arXiv|last1=Goldberg|first1=Yoav|last2=Levy|first2=Omar|title=word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method|eprint=1402.3722|class=cs.CL|year=2014|language=en}}</ref> та [[вкладання слів]]. Вкладання слів, наприклад ''[[word2vec]]'', можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у [[Векторний простір|векторному просторі]]. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як {{нп|Імовірнісна контекстновільна граматика|імовірнісну контекстновільну граматику||Probabilistic context free grammar}} (ІКВГ, {{lang-en|probabilistic context free grammar, PCFG}}), втілену РНМ.<ref name="SocherManning2014">{{cite web|last1=Socher|first1=Richard|last2=Manning|first2=Christopher|title=Deep Learning for NLP|url=http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|access-date=26 жовтня 2014|archive-date=6 липня 2014|archive-url=https://web.archive.org/web/20140706040227/http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|url-status=live|language=en}}</ref> Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.<ref name="SocherManning2014" /> Глибокі нейронні архітектури забезпечують найкращі результати для {{нп|Статистичний синтаксичний аналіз|аналізу складників||Statistical parsing}},<ref>{{Cite journal|url = http://aclweb.org/anthology/P/P13/P13-1045.pdf|title = Parsing With Compositional Vector Grammars|last1 = Socher|first1 = Richard|date = 2013|journal = Proceedings of the ACL 2013 Conference|last2 = Bauer|first2 = John|last3 = Manning|first3 = Christopher|last4 = Ng|first4 = Andrew|access-date = 2014-09-03|archive-date = 2014-11-27|archive-url = https://web.archive.org/web/20141127005912/http://www.aclweb.org/anthology/P/P13/P13-1045.pdf|url-status = live|language = en}}</ref> [[Аналіз тональності тексту|тональності]],<ref>{{Cite journal|url = http://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf|title = Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank|last = Socher|first = Richard|date = 2013|journal = |access-date = 2014-09-03|archive-date = 2016-12-28|archive-url = https://web.archive.org/web/20161228100300/http://nlp.stanford.edu/%7Esocherr/EMNLP2013_RNTN.pdf|url-status = live|language = en}}</ref> пошуку інформації,<ref>{{Cite journal|last1=Shen|first1=Yelong|last2=He|first2=Xiaodong|last3=Gao|first3=Jianfeng|last4=Deng|first4=Li|last5=Mesnil|first5=Gregoire|date=1 листопада 2014|title=A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval|url=https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050418/https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Huang|first1=Po-Sen|last2=He|first2=Xiaodong|last3=Gao|first3=Jianfeng|last4=Deng|first4=Li|last5=Acero|first5=Alex|last6=Heck|first6=Larry|date=1 жовтня 2013|title=Learning Deep Structured Semantic Models for Web Search using Clickthrough Data|url=https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050414/https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|url-status=live|language=en}}</ref> розуміння розмовної мови,<ref name="IEEE-TASL2015">{{cite journal | last1 = Mesnil | first1 = G. | last2 = Dauphin | first2 = Y. | last3 = Yao | first3 = K. | last4 = Bengio | first4 = Y. | last5 = Deng | first5 = L. | last6 = Hakkani-Tur | first6 = D. | last7 = He | first7 = X. | last8 = Heck | first8 = L. | last9 = Tur | first9 = G. | last10 = Yu | first10 = D. | last11 = Zweig | first11 = G. | s2cid = 1317136 | year = 2015 | title = Using recurrent neural networks for slot filling in spoken language understanding | journal = IEEE Transactions on Audio, Speech, and Language Processing | volume = 23 | issue = 3| pages = 530–539 | doi=10.1109/taslp.2014.2383614 | language=en}}</ref> машинного перекладу,<ref name="NIPS2014">{{Cite journal|last1=Sutskever|first1=L.|last2=Vinyals|first2=O.|last3=Le|first3=Q.|date=2014|title=Sequence to Sequence Learning with Neural Networks|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|journal=Proc. NIPS|bibcode=2014arXiv1409.3215S|arxiv=1409.3215|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123145/https://papers.nips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf|url-status=live|language=en}}</ref><ref name="auto">{{Cite journal|last1=Gao|first1=Jianfeng|last2=He|first2=Xiaodong|last3=Yih|first3=Scott Wen-tau|last4=Deng|first4=Li|date=1 червня 2014|title=Learning Continuous Phrase Representations for Translation Modeling|url=https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050403/https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|url-status=live|language=en}}</ref> контекстного зв'язування об'єктів,<ref name="auto" /> розпізнавання стилю написання,<ref name="BROC2017">{{Cite journal |doi = 10.1002/dac.3259|title = Authorship verification using deep belief network systems|journal = International Journal of Communication Systems|volume = 30|issue = 12|pages = e3259|year = 2017|last1 = Brocardo|first1 = Marcelo Luiz|last2 = Traore|first2 = Issa|last3 = Woungang|first3 = Isaac|last4 = Obaidat|first4 = Mohammad S.| s2cid=40745740| language=en }}</ref> [[розпізнавання іменованих сутностей]] (класифікування лексем),<ref>{{Cite journal |last1=Kariampuzha |first1=William |last2=Alyea |first2=Gioconda |last3=Qu |first3=Sue |last4=Sanjak |first4= Jaleal |last5=Mathé |first5=Ewy |last6=Sid |first6=Eric |last7= Chatelaine |first7=Haley |last8=Yadaw |first8=Arjun |last9=Xu |first9=Yanji |last10=Zhu |first10=Qian |date=2023 |title=Precision information extraction for rare disease epidemiology at scale |journal=Journal of Translational Medicine |language=en |volume=21 |issue=1 |page=157 |doi=10.1186/s12967-023-04011-y |pmid=36855134 |pmc=9972634}}</ref> класифікування тексту та інших.<ref>{{Cite news|url=https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|title=Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research|work=Microsoft Research|access-date=14 червня 2017|archive-date=13 березня 2017|archive-url=https://web.archive.org/web/20170313184253/https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|url-status=live|language=en}}</ref>
Іншими ключовими методиками в цій галузі є негативне вибирання ({{lang-en|negative sampling}})<ref name="GoldbergLevy2014">{{cite arXiv|last1=Goldberg|first1=Yoav|last2=Levy|first2=Omar|title=word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method|eprint=1402.3722|class=cs.CL|year=2014|language=en}}</ref> та [[вкладання слів]]. Вкладання слів, наприклад ''[[word2vec]]'', можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у [[Векторний простір|векторному просторі]]. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як {{нп|Імовірнісна контекстновільна граматика|імовірнісну контекстновільну граматику||Probabilistic context free grammar}} (ІКВГ, {{lang-en|probabilistic context free grammar, PCFG}}), втілену РНМ.<ref name="SocherManning2014">{{cite web|last1=Socher|first1=Richard|last2=Manning|first2=Christopher|title=Deep Learning for NLP|url=http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|access-date=26 жовтня 2014|archive-date=6 липня 2014|archive-url=https://web.archive.org/web/20140706040227/http://nlp.stanford.edu/courses/NAACL2013/NAACL2013-Socher-Manning-DeepLearning.pdf|url-status=live|language=en}}</ref> Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.<ref name="SocherManning2014" /> Глибокі нейронні архітектури забезпечують найкращі результати для {{нп|Статистичний синтаксичний аналіз|аналізу складників||Statistical parsing}},<ref>{{Cite journal|url = http://aclweb.org/anthology/P/P13/P13-1045.pdf|title = Parsing With Compositional Vector Grammars|last1 = Socher|first1 = Richard|date = 2013|journal = Proceedings of the ACL 2013 Conference|last2 = Bauer|first2 = John|last3 = Manning|first3 = Christopher|last4 = Ng|first4 = Andrew|access-date = 2014-09-03|archive-date = 2014-11-27|archive-url = https://web.archive.org/web/20141127005912/http://www.aclweb.org/anthology/P/P13/P13-1045.pdf|url-status = live|language = en}}</ref> [[Аналіз тональності тексту|тональності]],<ref name=RDM_1>{{cite journal| title=Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank| author1=Socher, R.| author2=Perelygin, A.| author3=Wu, J.| author4=Chuang, J.| author5=Manning, C.D.| author6=Ng, A.| author7=Potts, C.| url=https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf| publisher=Association for Computational Linguistics| journal=Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing| date=жовтень 2013| access-date=21 грудня 2023| url-status = live| archive-url=https://web.archive.org/web/20161228100300/http://nlp.stanford.edu/%7Esocherr/EMNLP2013_RNTN.pdf| archive-date=28 грудня 2016|language = en}}</ref> пошуку інформації,<ref>{{Cite journal| last1=Shen| first1=Yelong| last2=He| first2=Xiaodong| last3=Gao| first3=Jianfeng|last4=Deng|first4=Li|last5=Mesnil|first5=Gregoire|date=1 листопада 2014|title=A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval|url=https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050418/https://www.microsoft.com/en-us/research/publication/a-latent-semantic-model-with-convolutional-pooling-structure-for-information-retrieval/|url-status=live|language=en}}</ref><ref>{{Cite journal|last1=Huang|first1=Po-Sen|last2=He|first2=Xiaodong|last3=Gao|first3=Jianfeng|last4=Deng|first4=Li|last5=Acero|first5=Alex|last6=Heck|first6=Larry|date=1 жовтня 2013|title=Learning Deep Structured Semantic Models for Web Search using Clickthrough Data|url=https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050414/https://www.microsoft.com/en-us/research/publication/learning-deep-structured-semantic-models-for-web-search-using-clickthrough-data/|url-status=live|language=en}}</ref> розуміння розмовної мови,<ref name="IEEE-TASL2015">{{cite journal | last1 = Mesnil | first1 = G. | last2 = Dauphin | first2 = Y. | last3 = Yao | first3 = K. | last4 = Bengio | first4 = Y. | last5 = Deng | first5 = L. | last6 = Hakkani-Tur | first6 = D. | last7 = He | first7 = X. | last8 = Heck | first8 = L. | last9 = Tur | first9 = G. | last10 = Yu | first10 = D. | last11 = Zweig | first11 = G. | s2cid = 1317136 | year = 2015 | title = Using recurrent neural networks for slot filling in spoken language understanding | journal = IEEE Transactions on Audio, Speech, and Language Processing | volume = 23 | issue = 3| pages = 530–539 | doi=10.1109/taslp.2014.2383614 | language=en}}</ref> машинного перекладу,<ref name="NIPS2014">{{Cite journal|last1=Sutskever|first1=L.|last2=Vinyals|first2=O.|last3=Le|first3=Q.|date=2014|title=Sequence to Sequence Learning with Neural Networks|url=https://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf|journal=Proc. NIPS|bibcode=2014arXiv1409.3215S|arxiv=1409.3215|access-date=2017-06-13|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123145/https://papers.nips.cc/paper/2014/file/a14ac55a4f27472c5d894ec1c3c743d2-Paper.pdf|url-status=live|language=en}}</ref><ref name="auto">{{Cite journal|last1=Gao|first1=Jianfeng|last2=He|first2=Xiaodong|last3=Yih|first3=Scott Wen-tau|last4=Deng|first4=Li|date=1 червня 2014|title=Learning Continuous Phrase Representations for Translation Modeling|url=https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=27 жовтня 2017|archive-url=https://web.archive.org/web/20171027050403/https://www.microsoft.com/en-us/research/publication/learning-continuous-phrase-representations-for-translation-modeling/|url-status=live|language=en}}</ref> контекстного зв'язування об'єктів,<ref name="auto" /> розпізнавання стилю написання,<ref name="BROC2017">{{Cite journal |doi = 10.1002/dac.3259|title = Authorship verification using deep belief network systems|journal = International Journal of Communication Systems|volume = 30|issue = 12|pages = e3259|year = 2017|last1 = Brocardo|first1 = Marcelo Luiz|last2 = Traore|first2 = Issa|last3 = Woungang|first3 = Isaac|last4 = Obaidat|first4 = Mohammad S.| s2cid=40745740| language=en }}</ref> [[розпізнавання іменованих сутностей]] (класифікування лексем),<ref>{{Cite journal |last1=Kariampuzha |first1=William |last2=Alyea |first2=Gioconda |last3=Qu |first3=Sue |last4=Sanjak |first4= Jaleal |last5=Mathé |first5=Ewy |last6=Sid |first6=Eric |last7= Chatelaine |first7=Haley |last8=Yadaw |first8=Arjun |last9=Xu |first9=Yanji |last10=Zhu |first10=Qian |date=2023 |title=Precision information extraction for rare disease epidemiology at scale |journal=Journal of Translational Medicine |language=en |volume=21 |issue=1 |page=157 |doi=10.1186/s12967-023-04011-y |pmid=36855134 |pmc=9972634 |doi-access=free }}</ref> класифікування тексту та інших.<ref>{{Cite news|url=https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|title=Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research|work=Microsoft Research|access-date=14 червня 2017|archive-date=13 березня 2017|archive-url=https://web.archive.org/web/20170313184253/https://www.microsoft.com/en-us/research/project/deep-learning-for-natural-language-processing-theory-and-practice-cikm2014-tutorial/|url-status=live|language=en}}</ref>


Останні розробки узагальнюють [[вкладання слів]] до [[вкладання речень]].
Останні розробки узагальнюють [[вкладання слів]] до [[вкладання речень]].
Рядок 283: Рядок 295:
| s2cid = 20246434
| s2cid = 20246434
| doi = 10.1038/nrd4090
| doi = 10.1038/nrd4090
| doi-access = free
| language = en
| language = en
}}</ref><ref name="VERBIEST2015">{{Cite journal
}}</ref><ref name="VERBIEST2015">{{Cite journal
Рядок 314: Рядок 327:
| pages=505–513
| pages=505–513
| doi-access = free
| doi-access = free
| hdl = 1942/18723
| hdl-access = free
| language = en
| language = en
}}</ref> Дослідники вивчали використання глибокого навчання для передбачування {{нп|Біомолекулярна мішень|біомолекулярних мішеней||Biomolecular target}},<ref name="MERCK2012" /><ref name=":5" /> {{нп|Антимішень|антимішеней||Antitarget}} та [[Токсичність|токсичних впливів]] хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.<ref name="TOX21" /><ref name="TOX21Data" /><ref name=":11" />
}}</ref> Дослідники вивчали використання глибокого навчання для передбачування {{нп|Біомолекулярна мішень|біомолекулярних мішеней||Biomolecular target}},<ref name="MERCK2012" /><ref name=":5" /> {{нп|Антимішень|антимішеней||Antitarget}} та [[Токсичність|токсичних впливів]] хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.<ref name="TOX21" /><ref name="TOX21Data" /><ref name=":11" />
Рядок 329: Рядок 344:
{{Main|Рекомендаційна система}}
{{Main|Рекомендаційна система}}


Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.<ref>{{Cite book|url=http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|title=Advances in Neural Information Processing Systems 26|last1=van den Oord|first1=Aaron|last2=Dieleman|first2=Sander|last3=Schrauwen|first3=Benjamin|date=2013|publisher=Curran Associates, Inc.|editor-last=Burges|editor-first=C. J. C.|pages=2643–2651|editor-last2=Bottou|editor-first2=L.|editor-last3=Welling|editor-first3=M.|editor-last4=Ghahramani|editor-first4=Z.|editor-last5=Weinberger|editor-first5=K. Q.|access-date=2017-06-14|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516185259/http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|url-status=live|language=en}}</ref><ref>{{cite journal | last1 = Feng | first1 = X.Y. | last2 = Zhang | first2 = H. | last3 = Ren | first3 = Y.J. | last4 = Shang | first4 = P.H. | last5 = Zhu | first5 = Y. | last6 = Liang | first6 = Y.C. | last7 = Guan | first7 = R.C. | last8 = Xu | first8 = D. | year = 2019 | title = The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study | journal = {{нп|Journal of Medical Internet Research}} | volume = 21 | issue = 5| page = e12957 | doi = 10.2196/12957 | pmid = 31127715 | pmc = 6555124 | language = en }}</ref> Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання ({{lang-en|multi-view deep learning}}).<ref>{{Cite journal|last1=Elkahky|first1=Ali Mamdouh|last2=Song|first2=Yang|last3=He|first3=Xiaodong|date=1 травня 2015|title=A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems|url=https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=25 січня 2018|archive-url=https://web.archive.org/web/20180125134534/https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|url-status=live|language=en}}</ref> Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.
Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.<ref>{{Cite book|url=http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|title=Advances in Neural Information Processing Systems 26|last1=van den Oord|first1=Aaron|last2=Dieleman|first2=Sander|last3=Schrauwen|first3=Benjamin|date=2013|publisher=Curran Associates, Inc.|editor-last=Burges|editor-first=C. J. C.|pages=2643–2651|editor-last2=Bottou|editor-first2=L.|editor-last3=Welling|editor-first3=M.|editor-last4=Ghahramani|editor-first4=Z.|editor-last5=Weinberger|editor-first5=K. Q.|access-date=2017-06-14|archive-date=2017-05-16|archive-url=https://web.archive.org/web/20170516185259/http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf|url-status=live|language=en}}</ref><ref>{{cite journal | last1 = Feng | first1 = X.Y. | last2 = Zhang | first2 = H. | last3 = Ren | first3 = Y.J. | last4 = Shang | first4 = P.H. | last5 = Zhu | first5 = Y. | last6 = Liang | first6 = Y.C. | last7 = Guan | first7 = R.C. | last8 = Xu | first8 = D. | year = 2019 | title = The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study | journal = {{нп|Journal of Medical Internet Research}} | volume = 21 | issue = 5| page = e12957 | doi = 10.2196/12957 | pmid = 31127715 | pmc = 6555124 | doi-access = free | language = en }}</ref> Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання ({{lang-en|multi-view deep learning}}).<ref>{{Cite journal|last1=Elkahky|first1=Ali Mamdouh|last2=Song|first2=Yang|last3=He|first3=Xiaodong|date=1 травня 2015|title=A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems|url=https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|journal=Microsoft Research|access-date=14 червня 2017|archive-date=25 січня 2018|archive-url=https://web.archive.org/web/20180125134534/https://www.microsoft.com/en-us/research/publication/a-multi-view-deep-learning-approach-for-cross-domain-user-modeling-in-recommendation-systems/|url-status=live|language=en}}</ref> Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.


=== Біоінформатика ===
=== Біоінформатика ===
{{Main|Біоінформатика}}
{{Main|Біоінформатика}}


[[Автокодувальник|Автокодувальну]] ШНМ використовували в [[Біоінформатика|біоінформатиці]] для передбачування анотацій [[Онтологія гена|генної онтології]] та зв'язків між генами й функціями.<ref>{{cite book|title=Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions|first1=Davide|last1=Chicco|first2=Peter|last2=Sadowski|first3=Pierre|last3=Baldi|s2cid=207217210|date=1 січня 2014|publisher=ACM|pages=533–540|doi=10.1145/2649387.2649442|journal=Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14|isbn=9781450328944|hdl=11311/964622|url=http://dl.acm.org/citation.cfm?id=2649442|access-date=23 листопада 2015|archive-date=9 травня 2021|archive-url=https://web.archive.org/web/20210509123140/https://dl.acm.org/doi/10.1145/2649387.2649442|url-status=live|language=en}}</ref>
[[Автокодувальник|Автокодувальну]] ШНМ використовували в [[Біоінформатика|біоінформатиці]] для передбачування анотацій [[Онтологія гена|генної онтології]] та зв'язків між генами й функціями.<ref>{{cite book|first1=Davide|last1=Chicco|first2=Peter|last2=Sadowski|first3=Pierre|last3=Baldi|title=Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics |chapter=Deep autoencoder neural networks for gene ontology annotation predictions |s2cid=207217210|date=1 January 2014|publisher=ACM|pages=533–540|doi=10.1145/2649387.2649442|isbn=9781450328944|hdl=11311/964622|url=http://dl.acm.org/citation.cfm?id=2649442|access-date=23 листопада 2015|archive-date=9 травня 2021|archive-url=https://web.archive.org/web/20210509123140/https://dl.acm.org/doi/10.1145/2649387.2649442|url-status=live|language=en}}</ref>


У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв<ref>{{Cite journal|last=Sathyanarayana|first=Aarti|s2cid=3821594|date=1 січня 2016|title=Sleep Quality Prediction From Wearable Data Using Deep Learning|journal=JMIR mHealth and uHealth|volume=4|issue=4|doi=10.2196/mhealth.6562|pmid=27815231|pmc=5116102|pages=e125|language=en}}</ref> та для передбачування ускладнень здоров'я з даних [[Електронний медичний запис|електронних медичних записів]].<ref>{{Cite journal|last1=Choi|first1=Edward|last2=Schuetz|first2=Andy|last3=Stewart|first3=Walter F.|last4=Sun|first4=Jimeng|date=13 серпня 2016|title=Using recurrent neural network models for early detection of heart failure onset|journal=Journal of the American Medical Informatics Association|volume=24|issue=2|pages=361–370|doi=10.1093/jamia/ocw112|issn=1067-5027|pmid=27521897|pmc=5391725|language=en}}</ref>
У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв<ref>{{Cite journal|last=Sathyanarayana|first=Aarti|s2cid=3821594|date=1 січня 2016|title=Sleep Quality Prediction From Wearable Data Using Deep Learning|journal=JMIR mHealth and uHealth|volume=4|issue=4|doi=10.2196/mhealth.6562|pmid=27815231|pmc=5116102|pages=e125 |doi-access=free |language=en }}</ref> та для передбачування ускладнень здоров'я з даних [[Електронний медичний запис|електронних медичних записів]].<ref>{{Cite journal|last1=Choi|first1=Edward|last2=Schuetz|first2=Andy|last3=Stewart|first3=Walter F.|last4=Sun|first4=Jimeng|date=13 серпня 2016|title=Using recurrent neural network models for early detection of heart failure onset|journal=Journal of the American Medical Informatics Association|volume=24|issue=2|pages=361–370|doi=10.1093/jamia/ocw112|issn=1067-5027|pmid=27521897|pmc=5391725|language=en}}</ref>

=== Оцінювання глибокими нейронними мережами ===

Глибокі нейронні мережі (ГНМ) можливо використовувати для оцінювання ентропії [[Стохастичний процес|стохастичних процесів]], їх називають нейронними оцінювачами спільної ентропії (НОСЕ, {{lang-en|Neural Joint Entropy Estimator, NJEE}}).<ref name="SPB22">{{Cite journal |last1=Shalev |first1=Y. |last2=Painsky |first2=A. |last3=Ben-Gal |first3=I. |title=Neural Joint Entropy Estimation |journal=IEEE Transactions on Neural Networks and Learning Systems |language=en |date=2022 |volume=PP |pages=1–13 |url=https://www.iradbengal.sites.tau.ac.il/_files/ugd/901879_d51bc0a620734585b5d3154488b3ae84.pdf |doi=10.1109/TNNLS.2022.3204919 |pmid=36155469 |arxiv=2012.11197 |s2cid=229339809 }}</ref> Таке оцінювання дає уявлення про вплив [[Випадкова змінна|випадкових змінних]] входу на незалежну випадкову змінну. На практиці, ГНМ тренують як [[Класифікатор (машинне навчання)|класифікатор]], який відображує [[Вектор (математика та фізика)|вектор]] або [[Матриця (математика)|матрицю]] входу X у [[розподіл імовірності]] виходу над можливими класами випадкової змінної Y за заданого входу X. Наприклад, у завданнях [[класифікування зображень]] НОСЕ відображує вектор значень кольорів [[Піксель|пікселів]] у ймовірності над можливими класами зображень. На практиці розподіл імовірності Y отримують за допомогою шару ''[[Softmax]]'' із кількістю вузлів, яка дорівнює розміру [[Абетка|абетки]] Y. НОСЕ використовує неперервно диференційовні [[Передавальна функція штучного нейрона|передавальні функції]], так що умови [[Теорема про універсальне наближення|теореми про універсальне наближення]] виконуються. Показано, що цей метод забезпечує сильно [[Слушна оцінка|слушну оцінку]] й перевершує інші методи в разі великих розмірів абетки.<ref name="SPB22" />


=== Аналіз медичних зображень ===
=== Аналіз медичних зображень ===


Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявлення уражень, сегментування органів та покращування зображень.<ref>{{Cite journal|last1=Litjens|first1=Geert|last2=Kooi|first2=Thijs|last3=Bejnordi|first3=Babak Ehteshami|last4=Setio|first4=Arnaud Arindra Adiyoso|last5=Ciompi|first5=Francesco|last6=Ghafoorian|first6=Mohsen|last7=van der Laak|first7=Jeroen A.W.M.|last8=van Ginneken|first8=Bram|last9=Sánchez|first9=Clara I.|s2cid=2088679|date=December 2017|title=A survey on deep learning in medical image analysis|journal=Medical Image Analysis|volume=42|pages=60–88|doi=10.1016/j.media.2017.07.005|pmid=28778026|arxiv=1702.05747|bibcode=2017arXiv170205747L|language=en}}</ref><ref>{{Cite book|doi=10.1109/ICCVW.2017.18|isbn=9781538610343|chapter=Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy|title=2017 IEEE International Conference on Computer Vision Workshops (ICCVW)|pages=82–89|year=2017|last1=Forslid|first1=Gustav|last2=Wieslander|first2=Hakan|last3=Bengtsson|first3=Ewert|last4=Wahlby|first4=Carolina|last5=Hirsch|first5=Jan-Michael|last6=Stark|first6=Christina Runow|last7=Sadanandan|first7=Sajith Kecheril|s2cid=4728736|chapter-url=http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-326160|access-date=2019-11-12|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123157/https://d1bxh8uas1mnw7.cloudfront.net/assets/embed.js|url-status=live|language=en}}</ref> Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.<ref>{{Cite journal |last1=Dong |first1=Xin |last2=Zhou |first2=Yizhao |last3=Wang |first3=Lantian |last4=Peng |first4=Jingfeng |last5=Lou |first5=Yanbo |last6=Fan |first6=Yiqun |date=2020 |title=Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework |url=https://ieeexplore.ieee.org/document/9130662 |journal=IEEE Access |volume=8 |pages=129889–129898 |doi=10.1109/ACCESS.2020.3006362 |s2cid=220733699 |issn=2169-3536 |language=en}}</ref><ref>{{Cite journal |last1=Lyakhov |first1=Pavel Alekseevich |last2=Lyakhova |first2=Ulyana Alekseevna |last3=Nagornov |first3=Nikolay Nikolaevich |date=2022-04-03 |title=System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network |journal=Cancers |language=en |volume=14 |issue=7 |pages=1819 |doi=10.3390/cancers14071819 |pmid=35406591 |pmc=8997449 |issn=2072-6694|doi-access=free }}</ref>
Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявляння уражень, сегментування органів та покращування зображень.<ref>{{Cite journal|last1=Litjens|first1=Geert|last2=Kooi|first2=Thijs|last3=Bejnordi|first3=Babak Ehteshami|last4=Setio|first4=Arnaud Arindra Adiyoso|last5=Ciompi|first5=Francesco|last6=Ghafoorian|first6=Mohsen|last7=van der Laak|first7=Jeroen A.W.M.|last8=van Ginneken|first8=Bram|last9=Sánchez|first9=Clara I.|s2cid=2088679|date=December 2017|title=A survey on deep learning in medical image analysis|journal=Medical Image Analysis|volume=42|pages=60–88|doi=10.1016/j.media.2017.07.005|pmid=28778026|arxiv=1702.05747|bibcode=2017arXiv170205747L|language=en}}</ref><ref>{{Cite book|doi=10.1109/ICCVW.2017.18|isbn=9781538610343|chapter=Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy|title=2017 IEEE International Conference on Computer Vision Workshops (ICCVW)|pages=82–89|year=2017|last1=Forslid|first1=Gustav|last2=Wieslander|first2=Hakan|last3=Bengtsson|first3=Ewert|last4=Wahlby|first4=Carolina|last5=Hirsch|first5=Jan-Michael|last6=Stark|first6=Christina Runow|last7=Sadanandan|first7=Sajith Kecheril|s2cid=4728736|chapter-url=http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-326160|access-date=2019-11-12|archive-date=2021-05-09|archive-url=https://web.archive.org/web/20210509123157/https://d1bxh8uas1mnw7.cloudfront.net/assets/embed.js|url-status=live|language=en}}</ref> Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.<ref>{{Cite journal |last1=Dong |first1=Xin |last2=Zhou |first2=Yizhao |last3=Wang |first3=Lantian |last4=Peng |first4=Jingfeng |last5=Lou |first5=Yanbo |last6=Fan |first6=Yiqun |date=2020 |title=Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework |journal=IEEE Access |volume=8 |pages=129889–129898 |doi=10.1109/ACCESS.2020.3006362 |bibcode=2020IEEEA...8l9889D |s2cid=220733699 |issn=2169-3536 |doi-access=free |language=en}}</ref><ref>{{Cite journal |last1=Lyakhov |first1=Pavel Alekseevich |last2=Lyakhova |first2=Ulyana Alekseevna |last3=Nagornov |first3=Nikolay Nikolaevich |date=2022-04-03 |title=System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network |journal=Cancers |language=en |volume=14 |issue=7 |pages=1819 |doi=10.3390/cancers14071819 |pmid=35406591 |pmc=8997449 |issn=2072-6694|doi-access=free }}</ref>


=== Мобільна реклама ===
=== Мобільна реклама ===
Рядок 376: Рядок 395:
|language=en
|language=en
}}</ref>
}}</ref>

=== Матеріалознавство ===

У листопаді 2023 року дослідники з ''[[Google DeepMind]]'' та [[Національна лабораторія ім. Лоуренса в Берклі|Національної лабораторії ім. Лоуренса в Берклі]] оголосили, що вони розробили систему ШІ, відому як ''GNoME''. Ця система зробила внесла внесок до [[Матеріалознавство|матеріалознавства]], відкривши понад 2 мільйони нових матеріалів за відносно короткий час. ''GNoME'' використовує методики глибокого навчання для ефективного дослідження потенційних структур матеріалів, досягаючи значного зростання у встановлюванні стабільних неорганічних [[Кристалічна структура|кристалічних структур]]. Передбачення цієї системи були підтверджені за допомогою автономних роботизованих експериментів, продемонструвавши вражаючий рівень успішності в 71&nbsp;%. Дані про нововідкриті матеріали доступні публічно через базу даних ''{{нп|Materials Project}}'', надаючи дослідникам можливість встановлювати матеріали з бажаними властивостями для різних застосувань. Цей розвиток має наслідки для майбутнього наукових відкриттів та інтегрування ШІ в дослідження матеріалознавства, потенційно прискорюючи нововведення в матеріалах та знижуючи вартість розробки продуктів. Використання ШІ та глибокого навчання натякає на можливість мінімізації або виключення ручних лабораторних експериментів та дозволяє науковцям більше зосередитися на проєктуванні й аналізі унікальних сполук.<ref>{{Cite web |last=Nuñez |first=Michael |date=2023-11-29 |title=Google DeepMind's materials AI has already discovered 2.2 million new crystals |url=https://venturebeat.com/ai/google-deepminds-materials-ai-has-already-discovered-2-2-million-new-crystals/ |access-date=2023-12-19 |website=VentureBeat |language=en-US}}</ref><ref>{{Cite journal |last1=Merchant |first1=Amil |last2=Batzner |first2=Simon |last3=Schoenholz |first3=Samuel S. |last4=Aykol |first4=Muratahan |last5=Cheon |first5=Gowoon |last6=Cubuk |first6=Ekin Dogus |date=грудень 2023 |title=Scaling deep learning for materials discovery |journal=Nature |language=en |volume=624 |issue=7990 |pages=80–85 |doi=10.1038/s41586-023-06735-9 |issn=1476-4687|doi-access=free |pmc=10700131 }}</ref><ref>{{Cite journal |last=Peplow |first=Mark |date=2023-11-29 |title=Google AI and robots join forces to build new materials |url=https://www.nature.com/articles/d41586-023-03745-5 |journal=Nature |language=en |doi=10.1038/d41586-023-03745-5}}</ref>


=== Військові ===
=== Військові ===
Рядок 383: Рядок 406:
=== Диференціальні рівняння з частинними похідними ===
=== Диференціальні рівняння з частинними похідними ===


Фізичні нейронні мережі ({{lang-en|physics informed neural networks}}) використовували для розв'язування [[Диференціальне рівняння з частинними похідними|диференціальних рівнянь із частинними похідними]] як у прямих, так і в обернених задачах на основі даних.<ref>{{Cite journal|last1=Raissi|first1=M.|last2=Perdikaris|first2=P.|last3=Karniadakis|first3=G. E.|date=2019-02-01|title=Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations|url=https://www.sciencedirect.com/science/article/pii/S0021999118307125|journal=Journal of Computational Physics|language=en|volume=378|pages=686–707|doi=10.1016/j.jcp.2018.10.045|bibcode=2019JCoPh.378..686R|osti=1595805|s2cid=57379996|issn=0021-9991}}</ref> Одним із прикладів є відбудова потоку рідини, керована [[Рівняння Нав'є — Стокса|рівняннями Нав'є&nbsp;— Стокса]]. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи [[Обчислювальна гідродинаміка|обчислювальної гідродинаміки]].<ref>{{Cite journal|last1=Mao|first1=Zhiping|last2=Jagtap|first2=Ameya D.|last3=Karniadakis|first3=George Em|date=2020-03-01|title=Physics-informed neural networks for high-speed flows|url=https://www.sciencedirect.com/science/article/pii/S0045782519306814|journal=Computer Methods in Applied Mechanics and Engineering|language=en|volume=360|pages=112789|doi=10.1016/j.cma.2019.112789|bibcode=2020CMAME.360k2789M|s2cid=212755458|issn=0045-7825}}</ref><ref>{{Cite journal|last1=Raissi|first1=Maziar|last2=Yazdani|first2=Alireza|last3=Karniadakis|first3=George Em|date=2020-02-28|title=Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations|journal=Science|volume=367|issue=6481|pages=1026–1030|doi=10.1126/science.aaw4741|pmc=7219083|pmid=32001523|bibcode=2020Sci...367.1026R|language=en}}</ref>
Фізичні нейронні мережі ({{lang-en|physics informed neural networks}}) використовували для розв'язування [[Диференціальне рівняння з частинними похідними|диференціальних рівнянь із частинними похідними]] як у прямих, так і в обернених задачах на основі даних.<ref>{{Cite journal|last1=Raissi|first1=M.|last2=Perdikaris|first2=P.|last3=Karniadakis|first3=G. E.|date=2019-02-01|title=Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations|journal=Journal of Computational Physics|language=en|volume=378|pages=686–707|doi=10.1016/j.jcp.2018.10.045|bibcode=2019JCoPh.378..686R|osti=1595805|s2cid=57379996|issn=0021-9991|doi-access=free}}</ref> Одним із прикладів є відбудова потоку рідини, керована [[Рівняння Нав'є — Стокса|рівняннями Нав'є&nbsp;— Стокса]]. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи [[Обчислювальна гідродинаміка|обчислювальної гідродинаміки]].<ref>{{Cite journal|last1=Mao|first1=Zhiping|last2=Jagtap|first2=Ameya D.|last3=Karniadakis|first3=George Em|date=2020-03-01|title=Physics-informed neural networks for high-speed flows|journal=Computer Methods in Applied Mechanics and Engineering|language=en|volume=360|pages=112789|doi=10.1016/j.cma.2019.112789|bibcode=2020CMAME.360k2789M|s2cid=212755458|issn=0045-7825|doi-access=free}}</ref><ref>{{Cite journal|last1=Raissi|first1=Maziar|last2=Yazdani|first2=Alireza|last3=Karniadakis|first3=George Em|date=2020-02-28|title=Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations|journal=Science|volume=367|issue=6481|pages=1026–1030|doi=10.1126/science.aaw4741|pmc=7219083|pmid=32001523|bibcode=2020Sci...367.1026R|language=en}}</ref>


=== Відбудова зображень ===
=== Відбудова зображень ===
Рядок 396: Рядок 419:
== Відношення до когнітивного розвитку людини та розвитку мозку ==
== Відношення до когнітивного розвитку людини та розвитку мозку ==


Глибоке навчання тісно пов'язане з класом теорій {{нп|Розвиток мозку|розвитку мозку||Brain development}} (особливо [[Нова кора|нової кори]]), запропонованих [[Когнітивна нейробіологія|когнітивними нейробіологами]] на початку 1990-х років.<ref name="UTGOFF">{{cite journal | last1 = Utgoff | first1 = P. E. | last2 = Stracuzzi | first2 = D. J. | s2cid = 1119517 | year = 2002 | title = Many-layered learning | journal = Neural Computation | volume = 14 | issue = 10| pages = 2497–2529 | doi=10.1162/08997660260293319| pmid = 12396572| language = en }}</ref><ref name="ELMAN">{{cite book|url={{google books |plainurl=y |id=vELaRu_MrwoC}}|title=Rethinking Innateness: A Connectionist Perspective on Development|last=Elman|first=Jeffrey L.|publisher=MIT Press|year=1998|isbn=978-0-262-55030-7|language=en}}</ref><ref name="SHRAGER">{{cite journal | last1 = Shrager | first1 = J. | last2 = Johnson | first2 = MH | year = 1996 | title = Dynamic plasticity influences the emergence of function in a simple cortical array | url = https://archive.org/details/sim_neural-networks_1996-10_9_7/page/1119 | journal = Neural Networks | volume = 9 | issue = 7| pages = 1119–1129 | doi=10.1016/0893-6080(96)00033-0| pmid = 12662587| language = en }}</ref><ref name="QUARTZ">{{cite journal | last1 = Quartz | first1 = SR | last2 = Sejnowski | first2 = TJ | year = 1997 | title = The neural basis of cognitive development: A constructivist manifesto | journal = Behavioral and Brain Sciences | volume = 20 | issue = 4| pages = 537–556 | doi=10.1017/s0140525x97001581| pmid = 10097006 | citeseerx = 10.1.1.41.7854 | s2cid = 5818342 | language = en }}</ref> Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля [[Чинник росту нервів|чинника росту нервів]]) підтримують [[Самоорганізація|самоорганізацію,]] дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і [[нова кора]], нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос [[Вимірювальний перетворювач|вимірювальних перетворювачів]], добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих [[Фактори росту|чинників росту]]… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».<ref name="BLAKESLEE">S. Blakeslee., "In brain's early growth, timetable may be critical," ''The New York Times, Science Section'', pp. B5–B6, 1995. {{ref-en}}</ref>
Глибоке навчання тісно пов'язане з класом теорій {{нп|Розвиток мозку|розвитку мозку||Brain development}} (особливо [[Нова кора|нової кори]]), запропонованих [[Когнітивна нейробіологія|когнітивними нейробіологами]] на початку 1990-х років.<ref name="UTGOFF">{{cite journal | last1 = Utgoff | first1 = P. E. | last2 = Stracuzzi | first2 = D. J. | s2cid = 1119517 | year = 2002 | title = Many-layered learning | journal = Neural Computation | volume = 14 | issue = 10| pages = 2497–2529 | doi=10.1162/08997660260293319| pmid = 12396572| language = en }}</ref><ref name="ELMAN">{{cite book|url={{google books |plainurl=y |id=vELaRu_MrwoC}}|title=Rethinking Innateness: A Connectionist Perspective on Development|last=Elman|first=Jeffrey L.|publisher=MIT Press|year=1998|isbn=978-0-262-55030-7|language=en}}</ref><ref name="SHRAGER">{{cite journal | last1 = Shrager | first1 = J. | last2 = Johnson | first2 = MH | year = 1996 | title = Dynamic plasticity influences the emergence of function in a simple cortical array | url = https://archive.org/details/sim_neural-networks_1996-10_9_7/page/1119 | journal = Neural Networks | volume = 9 | issue = 7| pages = 1119–1129 | doi=10.1016/0893-6080(96)00033-0| pmid = 12662587| language = en }}</ref><ref name="QUARTZ">{{cite journal | last1 = Quartz | first1 = SR | last2 = Sejnowski | first2 = TJ | year = 1997 | title = The neural basis of cognitive development: A constructivist manifesto | journal = Behavioral and Brain Sciences | volume = 20 | issue = 4| pages = 537–556 | doi=10.1017/s0140525x97001581| pmid = 10097006 | citeseerx = 10.1.1.41.7854 | s2cid = 5818342 | language = en }}</ref> Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля [[Чинник росту нервів|чинника росту нервів]]) підтримують [[Самоорганізація|самоорганізацію,]] дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і [[нова кора]], нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос [[Вимірювальний перетворювач|вимірювальних перетворювачів]], добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих [[Фактори росту|чинників росту]]… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».<ref name="BLAKESLEE">S. Blakeslee, "In brain's early growth, timetable may be critical", ''The New York Times, Science Section'', pp. B5–B6, 1995. {{ref-en}}</ref>


Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму [[Зворотне поширення|зворотного поширення]] з метою підвищення реалістичності його обробки.<ref>{{Cite journal|last1=Mazzoni|first1=P.|last2=Andersen|first2=R. A.|last3=Jordan|first3=M. I.|date=15 травня 1991|title=A more biologically plausible learning rule for neural networks.|journal=Proceedings of the National Academy of Sciences|volume=88|issue=10|pages=4433–4437|doi=10.1073/pnas.88.10.4433|issn=0027-8424|pmid=1903542|pmc=51674|bibcode=1991PNAS...88.4433M|doi-access=free|language=en}}</ref><ref>{{Cite journal|last=O'Reilly|first=Randall C.|s2cid=2376781|date=1 липня 1996|title=Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm|url=https://archive.org/details/sim_neural-computation_1996-07-01_8_5/page/895|journal=Neural Computation|volume=8|issue=5|pages=895–938|doi=10.1162/neco.1996.8.5.895|issn=0899-7667|language=en}}</ref> Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних [[Породжувальна модель|породжувальних моделях]] та [[Глибока мережа переконань|глибоких мережах переконань]].<ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Zorzi|first2=Marco|s2cid=9868901|date=2016|title=Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions|journal=Frontiers in Computational Neuroscience|volume=10|pages=73|doi=10.3389/fncom.2016.00073|pmid=27468262|pmc=4943066|issn=1662-5188|doi-access=free|language=en}}</ref><ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Stoianov|first2=Ivilin|last3=Zorzi|first3=Marco|s2cid=24504018|date=September 2017|title=Letter perception emerges from unsupervised deep learning and recycling of natural image features|journal=Nature Human Behaviour|volume=1|issue=9|pages=657–664|doi=10.1038/s41562-017-0186-2|pmid=31024135|issn=2397-3374|language=en}}</ref> У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.<ref>{{Cite journal|last1=Buesing|first1=Lars|last2=Bill|first2=Johannes|last3=Nessler|first3=Bernhard|last4=Maass|first4=Wolfgang|s2cid=7504633|date=3 листопада 2011|title=Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons|journal=PLOS Computational Biology|volume=7|issue=11|pages=e1002211|doi=10.1371/journal.pcbi.1002211|pmid=22096452|pmc=3207943|issn=1553-7358|bibcode=2011PLSCB...7E2211B|language=en}}</ref>
Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму [[Зворотне поширення|зворотного поширення]] з метою підвищення реалістичності його обробки.<ref>{{Cite journal|last1=Mazzoni|first1=P.|last2=Andersen|first2=R. A.|last3=Jordan|first3=M. I.|date=15 травня 1991|title=A more biologically plausible learning rule for neural networks.|journal=Proceedings of the National Academy of Sciences|volume=88|issue=10|pages=4433–4437|doi=10.1073/pnas.88.10.4433|issn=0027-8424|pmid=1903542|pmc=51674|bibcode=1991PNAS...88.4433M|doi-access=free|language=en}}</ref><ref>{{Cite journal|last=O'Reilly|first=Randall C.|s2cid=2376781|date=1 липня 1996|title=Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm|url=https://archive.org/details/sim_neural-computation_1996-07-01_8_5/page/895|journal=Neural Computation|volume=8|issue=5|pages=895–938|doi=10.1162/neco.1996.8.5.895|issn=0899-7667|language=en}}</ref> Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних [[Породжувальна модель|породжувальних моделях]] та [[Глибока мережа переконань|глибоких мережах переконань]].<ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Zorzi|first2=Marco|s2cid=9868901|date=2016|title=Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions|journal=Frontiers in Computational Neuroscience|volume=10|pages=73|doi=10.3389/fncom.2016.00073|pmid=27468262|pmc=4943066|issn=1662-5188|doi-access=free|language=en}}</ref><ref>{{Cite journal|last1=Testolin|first1=Alberto|last2=Stoianov|first2=Ivilin|last3=Zorzi|first3=Marco|s2cid=24504018|date=September 2017|title=Letter perception emerges from unsupervised deep learning and recycling of natural image features|journal=Nature Human Behaviour|volume=1|issue=9|pages=657–664|doi=10.1038/s41562-017-0186-2|pmid=31024135|issn=2397-3374|language=en}}</ref> У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.<ref>{{Cite journal|last1=Buesing|first1=Lars|last2=Bill|first2=Johannes|last3=Nessler|first3=Bernhard|last4=Maass|first4=Wolfgang|s2cid=7504633|date=3 листопада 2011|title=Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons|journal=PLOS Computational Biology|volume=7|issue=11|pages=e1002211|doi=10.1371/journal.pcbi.1002211|pmid=22096452|pmc=3207943|issn=1553-7358|bibcode=2011PLSCB...7E2211B|doi-access=free|language=en}}</ref>


Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів<ref>{{Cite journal|last1=Cash|first1=S.|last2=Yuste|first2=R.|date=February 1999|title=Linear summation of excitatory inputs by CA1 pyramidal neurons|journal=Neuron|volume=22|issue=2|pages=383–394|issn=0896-6273|pmid=10069343|doi=10.1016/s0896-6273(00)81098-3|s2cid=14663106|language=en}}</ref> і нейронних популяцій.<ref>{{Cite journal|date=1 серпня 2004|title=Sparse coding of sensory inputs|journal=Current Opinion in Neurobiology|volume=14|issue=4|pages=481–487|doi=10.1016/j.conb.2004.07.007|pmid=15321069|issn=0959-4388 | last1 = Olshausen | first1 = B | last2 = Field | first2 = D|s2cid=16560320|language=en}}</ref> Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі [[Примати|приматів]]<ref>{{Cite journal|last1=Yamins|first1=Daniel L K|last2=DiCarlo|first2=James J|s2cid=16970545|date=March 2016|title=Using goal-driven deep learning models to understand sensory cortex|journal=Nature Neuroscience|volume=19|issue=3|pages=356–365|doi=10.1038/nn.4244|pmid=26906502|issn=1546-1726|language=en}}</ref> як на рівні окремого вузла<ref>{{Cite journal|last1=Zorzi|first1=Marco|last2=Testolin|first2=Alberto|s2cid=39281431|date=19 лютого 2018|title=An emergentist perspective on the origin of number sense|journal=Phil. Trans. R. Soc. B|volume=373|issue=1740|pages=20170043|doi=10.1098/rstb.2017.0043|issn=0962-8436|pmid=29292348|pmc=5784047|language=en}}</ref>, так і на рівні популяції.<ref>{{Cite journal|last1=Güçlü|first1=Umut|last2=van Gerven|first2=Marcel A. J.|date=8 липня 2015|title=Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream|journal=Journal of Neuroscience|volume=35|issue=27|pages=10005–10014|doi=10.1523/jneurosci.5023-14.2015|pmid=26157000|pmc=6605414|arxiv=1411.6422|language=en}}</ref>
Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів<ref>{{Cite journal|last1=Cash|first1=S.|last2=Yuste|first2=R.|date=February 1999|title=Linear summation of excitatory inputs by CA1 pyramidal neurons|journal=Neuron|volume=22|issue=2|pages=383–394|issn=0896-6273|pmid=10069343|doi=10.1016/s0896-6273(00)81098-3|s2cid=14663106|doi-access=free|language=en}}</ref> і нейронних популяцій.<ref>{{Cite journal|date=1 серпня 2004|title=Sparse coding of sensory inputs|journal=Current Opinion in Neurobiology|volume=14|issue=4|pages=481–487|doi=10.1016/j.conb.2004.07.007|pmid=15321069|issn=0959-4388 | last1 = Olshausen | first1 = B | last2 = Field | first2 = D|s2cid=16560320|language=en}}</ref> Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі [[Примати|приматів]]<ref>{{Cite journal|last1=Yamins|first1=Daniel L K|last2=DiCarlo|first2=James J|s2cid=16970545|date=March 2016|title=Using goal-driven deep learning models to understand sensory cortex|journal=Nature Neuroscience|volume=19|issue=3|pages=356–365|doi=10.1038/nn.4244|pmid=26906502|issn=1546-1726|language=en}}</ref> як на рівні окремого вузла<ref>{{Cite journal|last1=Zorzi|first1=Marco|last2=Testolin|first2=Alberto|s2cid=39281431|date=19 лютого 2018|title=An emergentist perspective on the origin of number sense|journal=Phil. Trans. R. Soc. B|volume=373|issue=1740|pages=20170043|doi=10.1098/rstb.2017.0043|issn=0962-8436|pmid=29292348|pmc=5784047|language=en}}</ref>, так і на рівні популяції.<ref>{{Cite journal|last1=Güçlü|first1=Umut|last2=van Gerven|first2=Marcel A. J.|date=8 липня 2015|title=Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream|journal=Journal of Neuroscience|volume=35|issue=27|pages=10005–10014|doi=10.1523/jneurosci.5023-14.2015|pmid=26157000|pmc=6605414|arxiv=1411.6422|language=en}}</ref>


== Комерційна діяльність ==
== Комерційна діяльність ==
Рядок 406: Рядок 429:
Лабораторія ШІ ''[[Facebook]]'' виконує такі завдання як {{нп|Автоматичне анотування зображень|автоматичне мічення завантажених зображень||Automatic image annotation}} іменами людей на них.<ref name="METZ2013">{{cite magazine |first=C. |last=Metz |title=Facebook's 'Deep Learning' Guru Reveals the Future of AI |url=https://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |magazine=Wired |date=12 грудня 2013 |access-date=26 серпня 2017 |archive-date=28 березня 2014 |archive-url=https://web.archive.org/web/20140328071226/http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |url-status=live |language=en }}</ref>
Лабораторія ШІ ''[[Facebook]]'' виконує такі завдання як {{нп|Автоматичне анотування зображень|автоматичне мічення завантажених зображень||Automatic image annotation}} іменами людей на них.<ref name="METZ2013">{{cite magazine |first=C. |last=Metz |title=Facebook's 'Deep Learning' Guru Reveals the Future of AI |url=https://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |magazine=Wired |date=12 грудня 2013 |access-date=26 серпня 2017 |archive-date=28 березня 2014 |archive-url=https://web.archive.org/web/20140328071226/http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/ |url-status=live |language=en }}</ref>


''Google [[DeepMind Technologies]]'' розробила систему, здатну навчитися грати у відеоігри ''[[Atari]]'', використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему ''[[AlphaGo]]'', яка навчилася грі [[Ґо (гра)|Ґо]] настільки добре, що перемогла професійного гравця.<ref>{{Cite journal|title = Google AI algorithm masters ancient game of Go|url = http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234|journal = Nature|year = 2016|doi = 10.1038/529445a|access-date = 30 січня 2016|archive-date = 2 травня 2019|archive-url = https://web.archive.org/web/20190502200837/http://www.nature.com/news/google-ai-algorithm-masters-ancient-game-of-go-1.19234|url-status = live|last1 = Gibney|first1 = Elizabeth|volume = 529|issue = 7587|pages = 445–446|pmid = 26819021|bibcode = 2016Natur.529..445G|s2cid = 4460235|language = en}}</ref><ref>{{Cite journal|title = Mastering the game of Go with deep neural networks and tree search|journal = [[Nature]]| issn= 0028-0836|pages = 484–489|volume = 529|issue = 7587|doi = 10.1038/nature16961|pmid = 26819042|first1 = David|last1 = Silver|author-link1=Девід Сілвер (інформатик)|first2 = Aja|last2 = Huang|author-link2=Аджа Хуан|first3 = Chris J.|last3 = Maddison|first4 = Arthur|last4 = Guez|first5 = Laurent|last5 = Sifre|first6 = George van den|last6 = Driessche|first7 = Julian|last7 = Schrittwieser|first8 = Ioannis|last8 = Antonoglou|first9 = Veda|last9 = Panneershelvam|first10= Marc|last10= Lanctot|first11= Sander|last11= Dieleman|first12=Dominik|last12= Grewe|first13= John|last13= Nham|first14= Nal|last14= Kalchbrenner|first15= Ilya|last15= Sutskever|author-link15=Ілля Суцкевер|first16= Timothy|last16= Lillicrap|first17= Madeleine|last17= Leach|first18= Koray|last18= Kavukcuoglu|first19= Thore|last19= Graepel|first20= Demis |last20=Hassabis|s2cid = 515925|author-link20=Деміс Гассабіс|date= 28 січня 2016|bibcode = 2016Natur.529..484S|language = en}}{{closed access}}</ref><ref>{{Cite web|title = A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go {{!}} MIT Technology Review|url = http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|website = MIT Technology Review|access-date = 30 січня 2016|archive-date = 1 лютого 2016|archive-url = https://web.archive.org/web/20160201140636/http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|url-status = dead|language = en}}</ref> [[Перекладач Google|Перекладач ''Google'']] використовує нейронну мережу, щоби перекладати між понад 100 мовами.
''Google [[DeepMind Technologies]]'' розробила систему, здатну навчитися грати у відеоігри ''[[Atari]]'', використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему ''[[AlphaGo]]'', яка навчилася грі [[Ґо (гра)|Ґо]] настільки добре, що перемогла професійного гравця.<ref>{{Cite journal|title = Google AI algorithm masters ancient game of Go|journal = Nature|year = 2016|doi = 10.1038/529445a|last1 = Gibney|first1 = Elizabeth|volume = 529|issue = 7587|pages = 445–446|pmid = 26819021|bibcode = 2016Natur.529..445G|s2cid = 4460235|doi-access = free|language = en}}</ref><ref>{{Cite journal|title = Mastering the game of Go with deep neural networks and tree search|journal = [[Nature]]| issn= 0028-0836|pages = 484–489|volume = 529|issue = 7587|doi = 10.1038/nature16961|pmid = 26819042|first1 = David|last1 = Silver|author-link1=Девід Сілвер (інформатик)|first2 = Aja|last2 = Huang|author-link2=Аджа Хуан|first3 = Chris J.|last3 = Maddison|first4 = Arthur|last4 = Guez|first5 = Laurent|last5 = Sifre|first6 = George van den|last6 = Driessche|first7 = Julian|last7 = Schrittwieser|first8 = Ioannis|last8 = Antonoglou|first9 = Veda|last9 = Panneershelvam|first10= Marc|last10= Lanctot|first11= Sander|last11= Dieleman|first12=Dominik|last12= Grewe|first13= John|last13= Nham|first14= Nal|last14= Kalchbrenner|first15= Ilya|last15= Sutskever|author-link15=Ілля Суцкевер|first16= Timothy|last16= Lillicrap|first17= Madeleine|last17= Leach|first18= Koray|last18= Kavukcuoglu|first19= Thore|last19= Graepel|first20= Demis |last20=Hassabis|s2cid = 515925|author-link20=Деміс Гассабіс|date= 28 січня 2016|bibcode = 2016Natur.529..484S|language = en}}{{closed access}}</ref><ref>{{Cite web|title = A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go {{!}} MIT Technology Review|url = http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|website = MIT Technology Review|access-date = 30 січня 2016|archive-date = 1 лютого 2016|archive-url = https://web.archive.org/web/20160201140636/http://www.technologyreview.com/news/546066/googles-ai-masters-the-game-of-go-a-decade-earlier-than-expected/|url-status = dead|language = en}}</ref> [[Перекладач Google|Перекладач ''Google'']] використовує нейронну мережу, щоби перекладати між понад 100 мовами.


2017 року було запущено ''Covariant.ai'', зосереджений на інтегруванні глибокого навчання на заводах.<ref>{{Cite news|url=https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|title=A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up|first=Cade|last=Metz|newspaper=The New York Times|date=6 листопада 2017|access-date=5 липня 2019|archive-date=7 липня 2019|archive-url=https://web.archive.org/web/20190707161547/https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|url-status=live|language=en}}</ref>
2017 року було запущено ''Covariant.ai'', зосереджений на інтегруванні глибокого навчання на заводах.<ref>{{Cite news|url=https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|title=A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up|first=Cade|last=Metz|newspaper=The New York Times|date=6 листопада 2017|access-date=5 липня 2019|archive-date=7 липня 2019|archive-url=https://web.archive.org/web/20190707161547/https://www.nytimes.com/2017/11/06/technology/artificial-intelligence-start-up.html|url-status=live|language=en}}</ref>


Станом на 2008 рік<ref>{{Cite book|author1=Bradley Knox, W.|author2=Stone, Peter|title=2008 7th IEEE International Conference on Development and Learning |chapter=TAMER: Training an Agent Manually via Evaluative Reinforcement |year=2008|pages = 292–297|doi=10.1109/devlrn.2008.4640845|isbn = 978-1-4244-2661-4|s2cid = 5613334|language = en}}</ref> дослідники [[Техаський університет в Остіні|Техаського університету в Остіні]] (''UT'') розробили систему машинного навчання під назвою ''Training an Agent Manually via Evaluative Reinforcement'' ({{lang-uk|ручне тренування агента через оцінювальне підкріплення}}), або ''TAMER'', яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.<ref name=":12" /> Спершу розроблений як ''TAMER'', новий алгоритм під назвою ''Deep TAMER'' було пізніше представлено 2018 року під час співпраці між [[Дослідницька лабораторія Армії США|Дослідницькою лабораторією армії США]] (''ARL'') та дослідниками ''UT''. ''Deep TAMER'' використовував глибоке навчання, щоби надати роботу здатності навчатися нових завдань шляхом спостерігання.<ref name=":12" /> Використовуючи ''Deep TAMER'', робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».<ref>{{Cite web|url=https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|title=Talk to the Algorithms: AI Becomes a Faster Learner|website=governmentciomedia.com|date=16 травня 2018 |access-date=29 серпня 2018|archive-date=28 серпня 2018|archive-url=https://web.archive.org/web/20180828001727/https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|url-status=live|language=en}}</ref>
Станом на 2008 рік<ref>{{Cite book|author1=Bradley Knox, W.|author2=Stone, Peter|title=2008 7th IEEE International Conference on Development and Learning |chapter=TAMER: Training an Agent Manually via Evaluative Reinforcement |year=2008|pages = 292–297|doi=10.1109/devlrn.2008.4640845|isbn = 978-1-4244-2661-4|s2cid = 5613334|language = en}}</ref> дослідники [[Техаський університет в Остіні|Техаського університету в Остіні]] (''UT'') розробили систему машинного навчання під назвою ''Training an Agent Manually via Evaluative Reinforcement'' ({{lang-uk|ручне тренування агента через оцінювальне підкріплення}}), або ''TAMER'', яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.<ref name=":12" /> Спершу розроблений як ''TAMER'', новий алгоритм під назвою ''Deep TAMER'' було пізніше представлено 2018 року під час співпраці між [[Дослідницька лабораторія Армії США|Дослідницькою лабораторією армії США]] (''ARL'') та дослідниками ''UT''. ''Deep TAMER'' використовував глибоке навчання, щоби забезпечити роботові здатність навчатися нових завдань шляхом спостерігання.<ref name=":12" /> Використовуючи ''Deep TAMER'', робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».<ref>{{Cite web|url=https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|title=Talk to the Algorithms: AI Becomes a Faster Learner|website=governmentciomedia.com|date=16 травня 2018 |access-date=29 серпня 2018|archive-date=28 серпня 2018|archive-url=https://web.archive.org/web/20180828001727/https://governmentciomedia.com/talk-algorithms-ai-becomes-faster-learner|url-status=live|language=en}}</ref>


== Критика та коментарі ==
== Критика та коментарі ==
Рядок 421: Рядок 444:
Основна критика стосується браку теорії навколо деяких методів.<ref>{{Cite web|url=https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|title=In defense of skepticism about deep learning|last=Marcus|first=Gary|date=14 січня 2018|website=Gary Marcus|access-date=11 жовтня 2018|archive-date=12 жовтня 2018|archive-url=https://web.archive.org/web/20181012035405/https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|url-status=live|language=en}}</ref> Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як [[контрастове розходження]], не така ясна{{Джерело|дата=липень 2023}} (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на [[Чорна скринька|чорну скриньку]], роблячи більшість підтверджень емпірично, а не теоретично.<ref name="Knight 2017">{{cite web | last=Knight | first=Will | title=DARPA is funding projects that will try to open up AI's black boxes | website=MIT Technology Review | date=14 March 2017 | url=https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | access-date=2 November 2017 | archive-date=4 November 2019 | archive-url=https://web.archive.org/web/20191104033107/https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | url-status=live | language=en }}</ref>
Основна критика стосується браку теорії навколо деяких методів.<ref>{{Cite web|url=https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|title=In defense of skepticism about deep learning|last=Marcus|first=Gary|date=14 січня 2018|website=Gary Marcus|access-date=11 жовтня 2018|archive-date=12 жовтня 2018|archive-url=https://web.archive.org/web/20181012035405/https://medium.com/@GaryMarcus/in-defense-of-skepticism-about-deep-learning-6e8bfd5ae0f1|url-status=live|language=en}}</ref> Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як [[контрастове розходження]], не така ясна{{Джерело|дата=липень 2023}} (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на [[Чорна скринька|чорну скриньку]], роблячи більшість підтверджень емпірично, а не теоретично.<ref name="Knight 2017">{{cite web | last=Knight | first=Will | title=DARPA is funding projects that will try to open up AI's black boxes | website=MIT Technology Review | date=14 March 2017 | url=https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | access-date=2 November 2017 | archive-date=4 November 2019 | archive-url=https://web.archive.org/web/20191104033107/https://www.technologyreview.com/s/603795/the-us-military-wants-its-autonomous-machines-to-explain-themselves/ | url-status=live | language=en }}</ref>


Інші зазначають, що глибоке навчання слід розглядати як крок до втілення [[Сильний штучний інтелект|сильного ШІ]], а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної для повного втілення цієї мети. Психолог-дослідник {{нп|Ґері Маркус|||Gary Marcus}} зазначив:
Інші зазначають, що глибоке навчання слід розглядати як крок до втілення [[Сильний штучний інтелект|сильного ШІ]], а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної, щоби втілити цю мету повністю. Психолог-дослідник {{нп|Ґері Маркус|||Gary Marcus}} зазначив:


<blockquote>
<blockquote>«Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання [[Причинність|причинно-наслідкових зв'язків]] (…) вони не мають очевидних способів здійснення [[Висновок|логічних висновків]], і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як [[IBM Watson|''Watson'']] (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик [[Баєсове висновування|баєсового висновування]], і аж до [[Дедукція|дедуктивного міркування]]<nowiki/>».<ref>{{cite magazine|url=https://www.newyorker.com/|title=Is "Deep Learning" a Revolution in Artificial Intelligence?|last=Marcus|first=Gary|date=25 листопада 2012|magazine=The New Yorker|access-date=2017-06-14|archive-date=2009-11-27|archive-url=https://web.archive.org/web/20091127184826/http://www.newyorker.com/|url-status=live|language=en}}</ref></blockquote>
Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання [[Причинність|причинно-наслідкових зв'язків]] (…) вони не мають очевидних способів здійснення [[Висновок|логічних висновків]], і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як [[IBM Watson|''Watson'']] (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик [[Баєсове висновування|баєсового висновування]], і аж до [[Дедукція|дедуктивного міркування]]<nowiki/>.<ref>{{cite magazine|url=https://www.newyorker.com/|title=Is "Deep Learning" a Revolution in Artificial Intelligence?|last=Marcus|first=Gary|date=25 листопада 2012|magazine=The New Yorker|access-date=2017-06-14|archive-date=2009-11-27|archive-url=https://web.archive.org/web/20091127184826/http://www.newyorker.com/|url-status=live|language=en}}</ref>
</blockquote>


Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,<ref>{{cite web |url=http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |author1=Alexander Mordvintsev |author2=Christopher Olah |author3=Mike Tyka |date=17 червня 2015 |title=Inceptionism: Going Deeper into Neural Networks |publisher=Google Research Blog |access-date=20 червня 2015 |archive-date=3 липня 2015 |archive-url=https://web.archive.org/web/20150703064823/http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |url-status=live |language=en }}</ref> демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті [[Ґардіан (газета)|Ґардіан]].<ref>{{cite news|url=https://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|title=Yes, androids do dream of electric sheep|date=18 червня 2015|newspaper=The Guardian|author=Alex Hern|access-date=20 червня 2015|archive-date=19 червня 2015|archive-url=https://web.archive.org/web/20150619200845/http://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|url-status=live|language=en}}</ref>
Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,<ref>{{cite web |url=http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |author1=Alexander Mordvintsev |author2=Christopher Olah |author3=Mike Tyka |date=17 червня 2015 |title=Inceptionism: Going Deeper into Neural Networks |publisher=Google Research Blog |access-date=20 червня 2015 |archive-date=3 липня 2015 |archive-url=https://web.archive.org/web/20150703064823/http://googleresearch.blogspot.co.uk/2015/06/inceptionism-going-deeper-into-neural.html |url-status=live |language=en }}</ref> демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті [[Ґардіан (газета)|Ґардіан]].<ref>{{cite news|url=https://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|title=Yes, androids do dream of electric sheep|date=18 червня 2015|newspaper=The Guardian|author=Alex Hern|access-date=20 червня 2015|archive-date=19 червня 2015|archive-url=https://web.archive.org/web/20150619200845/http://www.theguardian.com/technology/2015/jun/18/google-image-recognition-neural-network-androids-dream-electric-sheep|url-status=live|language=en}}</ref>

Хоч глибоке навчання й складається з дюжин і навіть сотень шарів, ця архітектура не видається схожою на структуру мозку. Симуляції на неглибоких мережах, ближчі до динаміки мозку, вказують на подібну продуктивність, як глибоке навчання з меншою складністю.<ref>{{Cite journal |last1=Meir |first1=Yuval |last2=Tevet |first2=Ofek |last3=Tzach |first3=Yarden |last4=Hodassman |first4=Shiri |last5=Gross |first5=Ronit D. |last6=Kanter |first6=Ido |date=2023-04-20 |title=Efficient shallow learning as an alternative to deep learning |journal=Scientific Reports |language=en |volume=13 |issue=1 |pages=5423 |doi=10.1038/s41598-023-32559-8 |pmid=37080998 |pmc=10119101 |arxiv=2211.11106 |bibcode=2023NatSR..13.5423M |issn=2045-2322}}</ref><ref>{{Cite journal |last1=Meir |first1=Yuval |last2=Ben-Noam |first2=Itamar |last3=Tzach |first3=Yarden |last4=Hodassman |first4=Shiri |last5=Kanter |first5=Ido |date=2023-01-30 |title=Learning on tree architectures outperforms a convolutional feedforward network |journal=Scientific Reports |language=en |volume=13 |issue=1 |pages=962 |doi=10.1038/s41598-023-27986-6 |issn=2045-2322 |pmc=9886946 |pmid=36717568|bibcode=2023NatSR..13..962M }}</ref>


=== Помилки ===
=== Помилки ===


Деякі архітектури глибокого навчання демонструють проблематичну поведінку,<ref name="goertzel">{{cite web |first=Ben |last=Goertzel |title=Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? |year=2015 |url=http://goertzel.org/DeepLearning_v1.pdf |access-date=2015-05-10 |archive-date=2015-05-13 |archive-url=https://web.archive.org/web/20150513053107/http://goertzel.org/DeepLearning_v1.pdf |url-status=live |language=en }}</ref> наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)<ref>{{cite arXiv |eprint=1412.1897|last1=Nguyen|first1=Anh|title=Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images|last2=Yosinski|first2=Jason|last3=Clune|first3=Jeff|class=cs.CV|year=2014|language=en}}</ref> та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).<ref>{{cite arXiv |eprint=1312.6199|last1=Szegedy|first1=Christian|title=Intriguing properties of neural networks|last2=Zaremba|first2=Wojciech|last3=Sutskever|first3=Ilya|last4=Bruna|first4=Joan|last5=Erhan|first5=Dumitru|last6=Goodfellow|first6=Ian|last7=Fergus|first7=Rob|class=cs.CV|year=2013|language=en}}</ref> [[Бен Ґьорцель|Ґьорцель]] припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури [[Загальний штучний інтелект|загального штучного інтелекту]] (ЗШІ).<ref name="goertzel" /> Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень<ref>{{cite journal | last1 = Zhu | first1 = S.C. | last2 = Mumford | first2 = D. | year = 2006| title = A stochastic grammar of images | journal = Found. Trends Comput. Graph. Vis. | volume = 2 | issue = 4| pages = 259–362 | doi = 10.1561/0600000018| citeseerx = 10.1.1.681.2190| language = en }}</ref> спостережуваних об'єктів та подій.<ref name="goertzel" /> {{нп|Виведення граматик|Виведення граматики||Grammar induction}} (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи {{нп|Міркування здорового глузду|міркуваннями здорового глузду||Commonsense reasoning}}, які оперують поняттями в термінах граматичних {{нп|Породжувальне правило|породжувальних правил||Production (computer science)}}, і є основною метою як засвоєння мови людиною,<ref>Miller, G. A., and N. Chomsky. «Pattern conception.» Paper for Conference on pattern detection, University of Michigan. 1957. {{ref-en}}</ref> так і [[Штучний інтелект|штучного інтелекту]] (ШІ).<ref>{{cite web |first=Jason |last=Eisner |title=Deep Learning of Recursive Structure: Grammar Induction |url=http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |access-date=2015-05-10 |archive-date=2017-12-30 |archive-url=https://web.archive.org/web/20171230010335/http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |url-status=dead |language=en }}</ref>
Деякі архітектури глибокого навчання демонструють проблематичну поведінку,<ref name="goertzel">{{cite web |first=Ben |last=Goertzel |title=Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? |year=2015 |url=http://goertzel.org/DeepLearning_v1.pdf |access-date=2015-05-10 |archive-date=2015-05-13 |archive-url=https://web.archive.org/web/20150513053107/http://goertzel.org/DeepLearning_v1.pdf |url-status=live |language=en }}</ref> наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)<ref>{{cite arXiv |eprint=1412.1897|last1=Nguyen|first1=Anh|title=Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images|last2=Yosinski|first2=Jason|last3=Clune|first3=Jeff|class=cs.CV|year=2014|language=en}}</ref> та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).<ref>{{cite arXiv |eprint=1312.6199|last1=Szegedy|first1=Christian|title=Intriguing properties of neural networks|last2=Zaremba|first2=Wojciech|last3=Sutskever|first3=Ilya|last4=Bruna|first4=Joan|last5=Erhan|first5=Dumitru|last6=Goodfellow|first6=Ian|last7=Fergus|first7=Rob|class=cs.CV|year=2013|language=en}}</ref> [[Бен Ґьорцель|Ґьорцель]] припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури [[Загальний штучний інтелект|загального штучного інтелекту]] (ЗШІ).<ref name="goertzel" /> Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень<ref>{{cite journal | last1 = Zhu | first1 = S.C. | last2 = Mumford | first2 = D. | year = 2006| title = A stochastic grammar of images | journal = Found. Trends Comput. Graph. Vis. | volume = 2 | issue = 4| pages = 259–362 | doi = 10.1561/0600000018| citeseerx = 10.1.1.681.2190| language = en }}</ref> спостережуваних об'єктів та подій.<ref name="goertzel" /> {{нп|Виведення граматик|Виведення граматики||Grammar induction}} (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи {{нп|Міркування здорового глузду|міркуваннями здорового глузду||Commonsense reasoning}}, які оперують поняттями в термінах граматичних {{нп|Породжувальне правило|породжувальних правил||Production (computer science)}}, і є основною метою як засвоєння мови людиною,<ref>Miller, G. A., and N. Chomsky. "Pattern conception". Paper for Conference on pattern detection, University of Michigan. 1957. {{ref-en}}</ref> так і [[Штучний інтелект|штучного інтелекту]] (ШІ).<ref>{{cite web |first=Jason |last=Eisner |title=Deep Learning of Recursive Structure: Grammar Induction |url=http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |access-date=2015-05-10 |archive-date=2017-12-30 |archive-url=https://web.archive.org/web/20171230010335/http://techtalks.tv/talks/deep-learning-of-recursive-structure-grammar-induction/58089/ |url-status=dead |language=en }}</ref>


=== Кіберзагроза ===
=== Кіберзагроза ===


Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість [[Штучна нейронна мережа|штучних нейронних мереж]] до хакерів та обману.<ref>{{Cite web|url=https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|title=Hackers Have Already Started to Weaponize Artificial Intelligence|website=Gizmodo|date=11 вересня 2017 |access-date=11 жовтня 2019|archive-date=11 жовтня 2019|archive-url=https://web.archive.org/web/20191011162231/https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|url-status=live|language=en}}</ref> Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» ({{lang-en|“adversarial attack”}}).<ref>{{Cite web|url=https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|title=How hackers can force AI to make dumb mistakes|date=18 червня 2018|website=The Daily Dot|language=en|access-date=11 жовтня 2019|archive-date=11 жовтня 2019|archive-url=https://web.archive.org/web/20191011162230/https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|url-status=live}}</ref>
Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість [[Штучна нейронна мережа|штучних нейронних мереж]] до хакерів та обману.<ref>{{Cite web|url=https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|title=Hackers Have Already Started to Weaponize Artificial Intelligence|website=Gizmodo|date=11 вересня 2017 |access-date=11 жовтня 2019|archive-date=11 жовтня 2019|archive-url=https://web.archive.org/web/20191011162231/https://gizmodo.com/hackers-have-already-started-to-weaponize-artificial-in-1797688425|url-status=live|language=en}}</ref> Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» ({{lang-en|"adversarial attack"}}).<ref>{{Cite web|url=https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|title=How hackers can force AI to make dumb mistakes|date=18 червня 2018|website=The Daily Dot|language=en|access-date=11 жовтня 2019|archive-date=11 жовтня 2019|archive-url=https://web.archive.org/web/20191011162230/https://www.dailydot.com/debug/adversarial-attacks-ai-mistakes/|url-status=live}}</ref>


2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.<ref name=":4">{{Cite news|url=https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change|title=AI Is Easy to Fool—Why That Needs to Change|date=10 жовтня 2017|work=Singularity Hub|access-date=11 жовтня 2017|archive-date=11 жовтня 2017|archive-url=https://web.archive.org/web/20171011233017/https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change/|url-status=live|language=en}}</ref> Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад ''[[TinEye]]'', який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято'''.'''<ref>{{Cite journal|last=Gibney|first=Elizabeth|title=The scientist who spots fake videos|url=https://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|journal=Nature|doi=10.1038/nature.2017.22784|year=2017|access-date=2017-10-11|archive-date=2017-10-10|archive-url=https://web.archive.org/web/20171010011017/http://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|url-status=live|language=en}}</ref>
2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.<ref name=":4">{{Cite news|url=https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change|title=AI Is Easy to Fool—Why That Needs to Change|date=10 жовтня 2017|work=Singularity Hub|access-date=11 жовтня 2017|archive-date=11 жовтня 2017|archive-url=https://web.archive.org/web/20171011233017/https://singularityhub.com/2017/10/10/ai-is-easy-to-fool-why-that-needs-to-change/|url-status=live|language=en}}</ref> Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад ''[[TinEye]]'', який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято'''.'''<ref>{{Cite journal|last=Gibney|first=Elizabeth|title=The scientist who spots fake videos|url=https://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|journal=Nature|doi=10.1038/nature.2017.22784|year=2017|access-date=2017-10-11|archive-date=2017-10-10|archive-url=https://web.archive.org/web/20171010011017/http://www.nature.com/news/the-scientist-who-spots-fake-videos-1.22784|url-status=live|language=en}}</ref>
Рядок 441: Рядок 464:
Інша група показала, що певні [[Психоделічний арт|психоделічні]] видовища можуть змусити [[Система розпізнавання облич|систему розпізнавання облич]] вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до [[Проїзд без зупинки заборонено|знаків заборони проїзду без зупинки]], змусивши ШНМ класифікувати їх неправильно.<ref name=":4" />
Інша група показала, що певні [[Психоделічний арт|психоделічні]] видовища можуть змусити [[Система розпізнавання облич|систему розпізнавання облич]] вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до [[Проїзд без зупинки заборонено|знаків заборони проїзду без зупинки]], змусивши ШНМ класифікувати їх неправильно.<ref name=":4" />


Проте ШМН можливо додатково тренувати виявляти спроби [[Брехливість|обману]], що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від [[Зловмисне програмне забезпечення|зловмисних програм]]. ШМН було навчено перемагати програмне забезпечення захисту від [[Зловмисне програмне забезпечення|зловмисного]] програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося [[Генетичний алгоритм|генетичним алгоритмом]], доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.<ref name=":4" />
Проте ШНМ можливо додатково тренувати виявляти спроби [[Брехливість|обману]], що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від [[Зловмисне програмне забезпечення|зловмисних програм]]. ШНМ було навчено перемагати програмне забезпечення захисту від [[Зловмисне програмне забезпечення|зловмисного]] програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося [[Генетичний алгоритм|генетичним алгоритмом]], доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.<ref name=":4" />


2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд [[Google Now|''Google Now'']] відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».<ref name=":4" />
2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд [[Google Now|''Google Now'']] відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».<ref name=":4" />
Рядок 450: Рядок 473:
{{Недостатньо джерел|розділ|дата=липень 2023}}
{{Недостатньо джерел|розділ|дата=липень 2023}}


Більшість систем глибокого навчання покладаються на тренувальні та контрольні ({{lang-en|verification}}) дані, породжувані та/або розмічувані людьми.<ref>{{Cite journal |last=Tubaro |first=Paola |date=2020 |title=Whose intelligence is artificial intelligence? |url=https://hal.science/hal-03029735 |journal=Global Dialogue |language=en |pages=38}}</ref> У [[Медіазнавство|філософії засобів масової інформації]] стверджують, що для цієї мети регулярно використовують не лише низькооплачувану {{нп|Клікробітники|клікпрацю||Clickworkers}} (наприклад, на [[Amazon Mechanical Turk|''Amazon Mechanical Turk'']]), а й неявні форми людської {{нп|Мікропраця|мікропраці||Microwork}}, які часто не визнають як таку.<ref name=":13">{{Cite journal|last=Mühlhoff|first=Rainer|date=6 листопада 2019|title=Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning|journal=New Media & Society|language=en|volume=22|issue=10|pages=1868–1884|doi=10.1177/1461444819885334|s2cid=209363848|issn=1461-4448|url=https://depositonce.tu-berlin.de/handle/11303/12510}}</ref> Філософ Райнер Мюльхоф розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) [[ігрофікація]] (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, ''[[CAPTCHA]]'' для розпізнавання зображень, або відстежування кліків на [[Сторінка результатів пошуку|сторінках результатів пошуку]] ''Google''), (3) використання соціальних мотивів (наприклад, позначування облич у ''[[Facebook]]'' для отримування позначених зображень обличчя), (4) [[розроблення інформації]] (наприклад, за допомогою пристроїв {{нп|самооцифровування|||Quantified self}}, таких як [[Фітнес-трекер|відстежувачі активності]]), та (5) {{нп|Клікробітники|клікпрацю||Clickworkers}}.<ref name=":13" />
Більшість систем глибокого навчання покладаються на тренувальні та контрольні ({{lang-en|verification}}) дані, породжувані та/або розмічувані людьми.<ref>{{Cite journal |last=Tubaro |first=Paola |date=2020 |title=Whose intelligence is artificial intelligence? |url=https://hal.science/hal-03029735 |journal=Global Dialogue |language=en |pages=38–39}}</ref> У [[Медіазнавство|філософії засобів масової інформації]] стверджують, що для цієї мети регулярно використовують не лише низькооплачувану {{нп|Клікробітники|клікпрацю||Clickworkers}} (наприклад, на [[Amazon Mechanical Turk|''Amazon Mechanical Turk'']]), а й неявні форми людської {{нп|Мікропраця|мікропраці||Microwork}}, які часто не визнають як таку.<ref name=":13">{{Cite journal|last=Mühlhoff|first=Rainer|date=6 листопада 2019|title=Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning|journal=New Media & Society|language=en|volume=22|issue=10|pages=1868–1884|doi=10.1177/1461444819885334|s2cid=209363848|issn=1461-4448|url=https://depositonce.tu-berlin.de/handle/11303/12510|doi-access=free}}</ref> Філософ {{нп|Райнер Мюльхоф||de|Rainer Mühlhoff}} розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) [[ігрофікація]] (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, ''[[CAPTCHA]]'' для розпізнавання зображень, або відстежування кліків на [[Сторінка результатів пошуку|сторінках результатів пошуку]] ''Google''), (3) використання соціальних мотивів (наприклад, позначування облич у ''[[Facebook]]'' для отримування позначених зображень обличчя), (4) [[розроблення інформації]] (наприклад, за допомогою пристроїв {{нп|самооцифровування|||Quantified self}}, таких як [[Фітнес-трекер|відстежувачі активності]]), та (5) {{нп|Клікробітники|клікпрацю||Clickworkers}}.<ref name=":13" />


Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як {{нп|DeepFace|система розпізнавання облич ''Facebook''|en}}, потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою ''Facebook'' запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вона отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити ''Facebook'', що на зображенні не вони.<ref>{{Cite magazine|url=https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|title=Facebook Can Now Find Your Face, Even When It's Not Tagged|magazine=Wired|access-date=22 листопада 2019|language=en|issn=1059-1028|archive-date=10 серпня 2019|archive-url=https://web.archive.org/web/20190810223940/https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|url-status=live}}</ref> Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»<ref name=":13" /> для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» ({{lang-en|"human-aided artificial intelligence"}}).<ref name=":13" />
Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як {{нп|DeepFace|система розпізнавання облич ''Facebook''|en}}, потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою ''Facebook'' запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вони отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити ''Facebook'', що на зображенні не вони.<ref>{{Cite magazine|url=https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|title=Facebook Can Now Find Your Face, Even When It's Not Tagged|magazine=Wired|access-date=22 листопада 2019|language=en|issn=1059-1028|archive-date=10 серпня 2019|archive-url=https://web.archive.org/web/20190810223940/https://www.wired.com/story/facebook-will-find-your-face-even-when-its-not-tagged/|url-status=live}}</ref> Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»<ref name=":13" /> для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» ({{lang-en|"human-aided artificial intelligence"}}).<ref name=":13" />


== Див. також ==
== Див. також ==
Рядок 471: Рядок 494:


== Примітки ==
== Примітки ==
{{Примітки|30em}}
{{Примітки|30em|refs=
<ref name="ХомаБенч2019">{{Cite journal|last1=Хома|first1=Ю.&nbsp;В.|last2=Бенч|first2=А.&nbsp;Я.|year=2019|title=Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання|url=https://science.lpnu.ua/sites/default/files/journal-paper/2020/feb/21058/var1ksm-19-99-104.pdf|journal=Комп'ютерні системи і мережі|language=uk|volume=1|issue=1|pages=97—102}}</ref>
<ref name="ДорошЦаплюк2021">{{Cite conference|last1=Дорош|first1=Н.&nbsp;Л.|last2=Цаплюк|first2=О.&nbsp;В.|date=3-5 листопада 2021|title=Розпізнавання зображень алгоритмом глибокого навчання|url=https://udhtu.edu.ua/wp-content/uploads/2021/11/kmoss-2021_05_11_2021.pdf#page=89|conference=VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем»|language=uk|location=Дніпро|publisher=[[Український державний хіміко-технологічний університет|УДХТУ]]|pages=91—92|year=}}</ref>
<ref name="БродкевичРемесло2018">{{Cite journal|last1=Бродкевич|first1=В.&nbsp;М.|last2=Ремесло|first2=В.&nbsp;Я.|year=2018|title=Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках|url=https://www.inter-nauka.com/uploads/public/15305134116492.pdf#page=57|journal=Міжнародний науковий журнал «Інтернаука»|language=uk|location=Київ|volume=1|issue=11 (51)|pages=56—60|issn=2520-2057}}</ref>
}}


== Література ==
== Література ==
Рядок 515: Рядок 542:
[[Категорія:Глибоке навчання| ]]
[[Категорія:Глибоке навчання| ]]
[[Категорія:Штучні нейронні мережі]]
[[Категорія:Штучні нейронні мережі]]
[[Категорія:Нові технології]]

Версія за 13:55, 21 січня 2024

Подання зображень на кількох шарах абстракції в глибокому навчанні
Подання зображень на кількох шарах абстракції в глибокому навчанні[1]

Глибо́ке навча́ння[2][3][4] (англ. deep learning, також іноді глиби́нне навча́ння) — це підмножина методів машинного навчання на основі штучних нейронних мережах із навчанням подань. Прикметник «глибоке» (англ. "deep") стосується використання декількох шарів у мережі. Використовувані методи можуть бути керованими, напівкерованими, та некерованими.[5]

Архітектури глибокого навчання, такі як глибокі нейронні мережі, глибокі мережі переконань, рекурентні нейронні мережі, згорткові нейронні мережі та трансформери, застосовували в таких галузях як комп'ютерне бачення, розпізнавання мовлення, обробка природної мови, машинний переклад, біоінформатика, конструювання ліків, аналіз медичних зображень[en], кліматологія, перевірка матеріалів і програми настільних ігор, де вони дали результати, порівнянні, а в деяких випадках і кращі за продуктивність експертів — людей.[6][7][8]

Штучні нейронні мережі (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в біологічних системах. ШНМ мають різноманітні відмінності від біологічного мозку. Зокрема, штучні нейронні мережі мають тенденцію бути статичними та символьними, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий.[9][10] ШНМ загалом розглядають як низькоякісні моделі функціювання мозку.[11]

Визначення

Глибоке навчання — це клас алгоритмів машинного навчання, який[12]:199–200  використовує декілька шарів для поступового виділяння з сирого входу ознак усе вищих рівнів. Наприклад, при обробці зображень нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.

Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» (англ. "deeper") та «найглибше» (англ. "deepest") навчання.[13] Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.

Огляд

Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових штучних нейронних мережах, таких як згорткові нейронні мережі та трансформери, хоча до них також можуть належати пропозиційні формули[en] та латентні змінні, організовані пошарово в глибоких породжувальних моделях, такі як вузли в глибоких мережах переконань чи глибоких машинах Больцмана.[14]

У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути матрицею пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати розташування контурів; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може самостійно вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного настроювання; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.[15][16]

Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину шляху розподілу внеску (ШРВ, англ. credit assignment path, CAP). ШРВ — це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для нейронної мережі прямого поширення глибина ШРВ дорівнює глибині мережі й є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для рекурентних нейронних мереж, у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена.[17] Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання (англ. shallow learning) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію.[18] Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.

Архітектури глибокого навчання можливо конструювати пошарово жадібним методом.[19] Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.[15]

Для завдань керованого навчання методи глибокого навчання уможливлюють усування конструювання ознак, переводячи дані до компактних проміжних подань, подібних до головних компонент, і виводять багатошарові структури, які усувають надмірність у поданні.

Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є глибокі мережі переконань.[15][20]

Моделі машинного навчання тепер вправні у виявлянні складних шаблонів у даних фінансових ринків. Завдяки перевагам штучного інтелекту інвестори все частіше використовують методики глибокого навчання для прогнозування та аналізу тенденцій на фондових та валютних ринках.[21]

Інтерпретації

Глибокі нейронні мережі зазвичай інтерпретують у термінах теореми про універсальне наближення[22][23][24][25][26] або ймовірнісного висновування.[27][12][15][17][28]

Класична теорема про універсальне наближення стосується здатності нейронної мережі прямого поширення з одним прихованим шаром скінченного розміру наближувати неперервні функції.[22][23][24][25] 1989 року Джордж Цибенко опублікував перше її доведення для сигмоїдних передавальних функцій,[22] а 1991 року Курт Горнік[de] узагальнив його для багатошарових архітектур прямого поширення.[23] Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як випрямлений лінійний вузол (англ. rectified linear unit) Куніхіко Фукусіми[en].[29][30]

Теорема про універсальне наближення для глибоких нейронних мереж розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт.[26] довели, що якщо ширина глибокої нейронної мережі з передавальною функцією ReLU строго більша за розмірність входу, то ця мережа може наближувати будь-яку функцію, інтегровну за Лебегом; якщо її ширина менша або дорівнює розмірності входу, то глибока нейронна мережа не є універсальним наближувачем.

Імовірнісна інтерпретація[28] походить з галузі машинного навчання. Вона відводить провідне місце висновуванню,[12][14][15][17][20][28] а також таким поняттям оптимізації як тренування та випробування, пов'язаним із допасовуванням та узагальнюванням відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як кумулятивну функцію розподілу.[28] Імовірнісна інтерпретація призвела до запровадження виключення (англ. dropout) як регуляризатора в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з Гопфілдом, Уїдроу[en] та Нарендрою[en], й популяризовано в оглядах, таких як від Бішопа[en].[31]

Історія

Існує два типи нейронних мереж: нейронні мережі прямого поширення (НМПП, англ. feedforward neural network, FNN) та рекурентні нейронні мережі (РНМ, англ. recurrent neural network, RNN). РНМ мають цикли у структурі зв'язності, а НМПП — ні. У 1920-х роках Вільгельм Ленц[en] та Ернст Ізінг[en] створили та проаналізували модель Ізінга,[32] яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року Шунічі Амарі[en] зробив цю архітектуру адаптивною.[33][34] Його навчання РНМ популяризував Джон Гопфілд 1982 року.[35] РНМ стали центральними для розпізнавання мовлення та обробки мови[en].

Чарльз Тапперт пише, що Френк Розенблат розробив та дослідив усі основні складові сучасних систем глибокого навчання,[36] посилаючись на книгу Розенблата 1962 року,[37] якою було запроваджено багатошаровий перцептрон (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу. Він також запропонував варіанти, включно з версією з чотирьохшаровими перцептронами, де останні два шари мають ваги, що навчаються (й отже, справжній багатошаровий перцептрон).[37]:section 16 Крім того, термін глибоке навчання запропонувала 1986 року Ріна Дехтер[en],[38] хоча історія його появи, схоже, набагато складніша.[39]

Перший загальний, робочий алгоритм навчання для глибоких багатошарових перцептронів прямого поширення керованим навчанням опублікували 1967 року Олексій Івахненко та Валентин Лапа.[40] У статті 1971 року описано глибоку мережу з восьми шарів, треновану методом групового урахування аргументів.[41]

Перший багатошаровий перцептрон глибокого навчання, тренований стохастичним градієнтним спуском,[42] опублікував 1967 року Шунічі Амарі[en].[43][34] У комп'ютерних експериментах, проведених учнем Амарі, Сайто, п'ятишаровий БШП із двома змінними шарами навчився внутрішніх подань для класифікування нелінійно роздільних класів образів.[34] 1987 року Метью Бренд повідомив, що широкі 12-шарові нелінійні перцептрони можливо повністю наскрізно тренувати відтворювати логічні функції нетривіальної глибини ланцюга за допомогою градієнтного спуску на невеликих пакетах випадкових вибірок входів/виходів, але зробив висновок, що час тренування на тогочасному обладнанні (домегафлопних комп'ютерах) зробив цю методику непрактичною, та запропонував використовувати незмінні випадкові ранні шари як хеш входу для єдиного змінюваного рівня.[44] Натомість подальші розробки апаратного забезпечення та підлаштовування гіперпараметрів зробили наскрізний стохастичний градієнтний спуск нині переважною методикою тренування.

1970 року Сеппо Ліннаінмаа[en] опублікував зворотний режим автоматичного диференціювання дискретно зв'язаних мереж вкладених диференційовних функцій.[45][46][47] Він став відомим як зворотне поширення.[17] Це ефективне застосування ланцюгового правила, виведеного Готфрідом Вільгельмом Лейбніцем 1673 року,[48] до мереж диференційовних вузлів.[34] Термінологію «зворотно поширювані похибки» (англ. "back-propagating errors") фактично запровадив 1962 року Розенблат,[37][34] але він не знав, як це втілити, хоча Генрі Келлі[en] вже 1960 року мав безперервного попередника зворотного поширення[49] в контекст теорії керування.[34] 1982 року Пол Вербос[en] застосував зворотне поширення до БШП у спосіб, який став стандартним.[50][51][34] 1985 року Девід Румельхарт[en] зі співавт. опублікували експериментальний аналіз цієї методики.[52]

Ахітектури глибокого навчання для згорткових нейронних мереж (ЗНМ, англ. convolutional neural networks, CNN) зі згортковими шарами та шарами зниження роздільності почалися з неокогнітрона, запропонованого Куніхіко Фукусімою[en] 1980 року.[53] 1969 року він також запропонував передавальну функцію ReLU (англ. rectified linear unit, випрямлений лінійний вузол).[29][34] Цей випрямляч (англ. rectifier) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому.[54] ЗНМ стали важливим інструментом комп'ютерного бачення.

Термін глибоке навчання (англ. Deep Learning) у спільноті машинного навчання запровадила 1986 року Ріна Дехтер[en],[38] а для штучних нейронних мереж — Ігор Айзенберг з колегами у 2000 року в контексті булевих[en] порогових нейронів.[55][56]

1988 року Вей Чжан зі співавт. застосували алгоритм зворотного поширення до згорткової нейронної мережі (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою.[57][58] 1989 року Ян ЛеКун зі співавт. застосували зворотне поширення до ЗНМ з метою розпізнавання рукописних поштових індексів у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів.[59] Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року,[60] та для виявляння раку молочної залози на мамограмах 1994 року.[61] LeNet-5 (1998), 7-рівневу ЗНМ від Яна ЛеКуна зі співавт.,[62] що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.

У 1980-х роках зворотне поширення не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево самокерованим навчанням.[63] Вона використовує передбачувальне кодування[en] для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо скласти (англ. collapse) в єдину РНМ шляхом дистилювання[en] фрагментувальної (англ. chunker) мережі вищого рівня до автоматизаторної (англ. automatizer) мережі нижчого рівня.[63][34] 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.[64]

1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (англ. alternative to RNNs),[65] яку зараз називають лінійним трансформером (англ. linear Transformer) або трансформером з лінеаризованою самоувагою[66][67][34] (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (англ. internal spotlights of attention):[68] повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, англ. key, та значенням, англ. value, самоуваги).[66] Це відображення уваги (англ. attention mapping) швидких ваг застосовують до шаблону запиту.

Сучасний трансформер (англ. Transformer) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба».[69] Він поєднує це з оператором softmax та проєкційною матрицею.[34] Трансформери все частіше обирають за модель для обробки природної мови.[70] Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.[71]

1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (англ. adversarial neural networks), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої.[72][73][74] Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (англ. "artificial curiosity"). 2014 року цей принцип використали у породжувальній змагальній мережі (англ. generative adversarial network, GAN) Ян Ґудфелоу зі співавт.[75] Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних дипфейків.[76] Відмінної якості зображення досягла StyleGAN[en] Nvidia (2018)[77] на основі прогресивної породжувальної змагальної мережі (англ. Progressive GAN) Теро Карраса зі співавт.[78] Тут породжувач вирощується від малого до великого пірамідним чином.

Дипломну працю Зеппа Хохрайтера[en] (1991)[79] його керівник Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання».[34] Він не лише випробував нейронний стискач історії,[63] але й виявив та проаналізував проблему зникання градієнта.[79][80] Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні залишкові зв'язки. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, англ. long short-term memory, LSTM), опублікованого 1997 року.[81] Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання»[17] з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» (англ. vanilla LSTM) із забувальним вентилем запропонували 1999 року Фелікс Ґерс[en], Шмідхубер та Фред Каммінс.[82] ДКЧП стала найцитованішою нейронною мережею XX століття.[34] 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі, нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні.[83][84] 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли змагання ImageNet[en] 2015 із відкритовентильним або безвентильним варіантом магістралевої мережі, названим за́лишковою нейронною мережею (англ. Residual neural network).[85] Вона стала найцитованішою нейронною мережею XXI століття.[34]

1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа (англ. weightless neural network), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак (англ. SOFT), з багатошаровим класифікаційним нейромережним модулем (англ. GSN) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.[86]

1995 року Брендан Фрей[en] продемонстрував можливість натренувати (протягом двох днів) мережу із шести повноз'єднаних шарів та кількох сотень прихованих вузлів, використовуючи алгоритм неспання — сну[en], розроблений спільно з Пітером Даяном[en] та Гінтоном.[87]

З 1997 року Свен Бенке розширив ієрархічний згортковий підхід прямого поширення у нейронній піраміді абстракцій (англ. Neural Abstraction Pyramid)[88] за допомогою бічних та зворотних з'єднань, щоби гнучко включати контекст у рішення та ітеративно розв'язувати локальні неоднозначності.

У 1990-х і 2000-х роках популярністю користувалися простіші моделі, які використовують сконструйовані вручну ознаки для конкретних завдань, такі як фільтри Ґабора (англ. Gabor filters) та опорновекторні машини (ОВМ, англ. support vector machines, SVM), через обчислювальну витратність штучних нейронних мереж (ШНМ) та брак розуміння того, як мозок сплітає свої біологічні мережі.

Як неглибоке, так і глибоке навчання (наприклад, рекурентні мережі) ШНМ для розпізнавання мовлення досліджували протягом багатьох років.[89][90][91] Ці методи ніколи не перевершували технологію неоднорідних внутрішньо-ручних гауссових сумішевих моделей[en]/прихованих марковських моделей (ГСМ-ПММ, англ. GMM-HMM) на основі породжувальних моделей мовлення, тренованих розрізнювально.[92] Було проаналізовано основні труднощі, включно зі зниканням градієнта[79] й слабкою структурою часової кореляції в нейронних передбачувальних моделях.[93][94] Додатковими труднощами були брак тренувальних даних та обмежена обчислювальна потужність. Більшість дослідників розпізнавання мовлення відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був SRI International наприкінці 1990-х років. Фінансований агенціями уряду США АНБ та DARPA, SRI вивчав глибокі нейронні мережі в розпізнаванні мовлення та мовця. Команда розпізнавання мовців на чолі з Ларрі Геком[en] повідомила про значний успіх із глибокими нейронними мережами в обробці мовлення на оцінюванні розпізнавання мовців Національного інституту стандартів і технологій 1998 року.[95] Потім глибоку нейронну мережу SRI було розгорнуто в Nuance Verifier, що стало першим великим промисловим застосуванням глибокого навчання.[96] Принцип піднесення «сирих» ознак над ручною оптимізацією було вперше успішно досліджено в архітектурі глибокого автокодувальника на «сирій» спектрограмі або ознаках лінійного блока фільтрів[en] наприкінці 1990-х,[96] що показало його перевагу над мел-кепстровими ознаками, які містять етапи незмінного перетворення зі спектрограм. Сирі ознаки мовлення, хвилеформи, згодом дали чудові великомасштабні результати.[97]

Розпізнавання мовлення перейняла ДКЧП. 2003 року ДКЧП на певних завданнях почала конкурувати з традиційними розпізнавачами мовлення.[98] 2006 року Алекс Ґрейвс[en], Сантьяго Фернандес, Фаустіно Ґомес та Шмідхубер поєднали її з нейромережною часовою класифікацією[en] (НЧК, англ. connectionist temporal classification, CTC)[99] у стеках РНМ ДКЧП.[100] 2015 року в розпізнаванні мовлення Google, як було повідомлено, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яку вони зробили доступною через голосовий пошук Google.[101]

Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10 % до 20 % усіх чеків, виписуваних у США.[102] Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.

2006 року публікації Джеффа Гінтона, Руслана Салахутдінова[en], Осіндеро та Тее[en][103][104][105] показали, як багатошарову нейронну мережу прямого поширення можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану обмежену машину Больцмана, а потім тонко налаштовувати її за допомогою керованого зворотного поширення.[106] Ці праці стосувалися навчання для глибоких мереж переконань.

Мотивом семінару NIPS 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, англ. deep neural nets, DNN) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, англ. deep belief nets, DBN) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього зворотного поширення при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей.[107] Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася,[108] пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення.[12][109][110] Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення.[108] Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5 % у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями.[107][108][111] 2010 року дослідники розширили глибоке навчання від TIMIT[en] до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою дерев рішень.[112][113][114][109]

Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та автоматичному розпізнаванні мовлення (АРМ, англ. automatic speech recognition, ASR). Результати на загальновживаних оцінювальних наборах, таких як TIMIT[en] (АРМ) та MNIST (класифікування зображень), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися.[107][115] Згорткові нейронні мережі (ЗНМ) для АРМ було витіснено НЧК[99] для ДКЧП,[81][101][116][117][118] але в комп'ютернім баченні вони успішніші.

Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року Nvidia брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою графічних процесорів (ГП) Nvidia».[119] Того року Ендрю Ин визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів.[120] Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні.[121][122][123] ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів.[124][125] Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.[126]

Революція глибокого навчання

Як глибоке навчання є підмножиною машинного навчання і як машинне навчання є підмножиною штучного інтелекту (ШІ)

Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з машинного навчання. 2009 року довга короткочасна пам'ять, натренована нейромережною часовою класифікацією[en] (Алекс Ґрейвс[en], Сантьяго Фернандес, Фаустіно Ґомес та Юрген Шмідхубер, 2006)[99] стала першою РНМ, яка виграла конкурси з розпізнавання образів, вигравши три змагання з розпізнавання неперервного рукописного тексту.[127][17] Пізніше Google використала натреновану НЧК ДКЧП для розпізнавання мовлення на смартфоні.[128][101]

Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані зворотним поширенням, існували десятиліттями,[57][59] а втілення НМ на ГП — роками,[121] включно із ЗНМ,[123][17] для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року DanNet[129][6] Дена Чирешана, Улі Меєра, Джонатана Маскі, Луки Марії Гамбардели[en] та Юргена Шмідхубера вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі.[17] Також 2011 року DanNet виграла конкурс із китайського рукописного тексту ICDAR, а в травні 2012 року перемогла в конкурсі з сегментування зображень ISBI.[130] До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції CVPR[6] показала, як максимізувально агрегувальні ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року DanNet також виграла конкурс ICPR з аналізу великих медичних зображень для виявляння раку, а наступного року також і MICCAI Grand Challenge на ту ж тему.[131] У жовтні 2012 року подібна AlexNet Олексія Крижевського, Іллі Суцкевера та Джефрі Гінтона[7] виграла великомасштабне змагання ImageNet[en] зі значним відривом від неглибоких методів машинного навчання. Мережа VGG-16 Карена Симоняна[en] та Ендрю Зіссермана[en][132] ще більше знизила рівень похибок і виграла конкурс ImageNet 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.

Потім класифікування зображень було розширено до складнішого завдання породжування описів[en] (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.[133][134][135]

2012 року команда під проводом Джорджа Даля виграла конкурс «Merck Molecular Activity Challenge», використовуючи багатозадачні глибокі нейронні мережі для передбачування біомолекулярної мішені[en] одного препарату.[136][137] 2014 року група Зеппа Хохрайтера[en] використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла «Tox21 Data Challenge» NIH, FDA та NCATS[en].[138][139][140]

2016 року Роджер Парлофф зазначив «революцію глибокого навчання», яка змінила галузь ШІ.[141]

У березні 2019 року Йошуа Бенжіо[en], Джефрі Гінтона та Яна ЛеКуна було нагороджено премією Тюрінга за концептуальні та інженерні прориви, які зробили глибокі нейронні мережі критично важливою складовою обчислювальної техніки.

Нейронні мережі

Спрощений приклад тренування нейронної мережі у виявлянні об'єктів: Мережу тренують кількома зображеннями, відомими як зображення морських зірок та морських їжаків, що корелюють з «вузлами», які подають візуальні ознаки. Морські зірки відповідають текстурі в кружечок та зірковому контурові, тоді як більшість морських їжаків відповідають смугастій текстурі й овальній формі. Проте, приклад морського їжака з текстурою в кружечок створює слабко зважену пов'язаність між ними.
Наступний запуск мережі на вхідному зображенні (ліворуч):[142] Мережа правильно виявляє морську зірку. Проте, слабко зважена пов'язаність між текстурою в кружечок і морським їжаком також передає слабкий сигнал останньому від одного з двох проміжних вузлів. Крім того, черепашка, яку не було включено до тренування, дає слабкий сигнал для овальної форми, що також призводить до слабкого сигналу для виходу морського їжака. Ці слабкі сигнали можуть призвести до хибно позитивного результату для морського їжака.
В реальності текстури та контури не буде подано поодинокими вузлами, а радше пов'язаними ваговими шаблонами декількох вузлів.

Шту́чні нейро́нні мере́жі (ШНМ, англ. artificial neural networks, ANN) або коннекціоні́стські систе́ми (англ. connectionist systems) — це обчислювальні системи, натхненні біологічними нейронними мережами, які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, мічені[en] вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням програмування на основі правил .

ШНМ ґрунтується на сукупності з'єднаних вузлів, званих штучними нейронами (аналогічно біологічним нейронам у біологічному мозку). Кожне з'єднання (синапс) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий дійсними числами, зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.

Як правило, нейрони впорядковано в шари (англ. layers). Різні шари можуть виконувати різні типи перетворень над своїми входами. Сигнали проходять від першого шару (шару входу) до останнього шару (шару виходу), можливо, після проходження шарами декілька разів.

Початкова мета нейромережного підходу полягала у розв'язуванні задач таким же чином, як це робив би людський мозок. З часом увага зосередилася на відповідності конкретним розумовим здібностям, що призвело до відхилень від біології, таких як зворотне поширення, або передавання інформації у зворотному напрямку з підлаштовуванням мережі відображувати цю інформацію.

Нейронні мережі використовували для різноманітних завдань, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, фільтруванням соціальних мереж, грою в настільні та відеоігри[en] та медичною діагностикою.

Станом на 2017 рік нейронні мережі зазвичай мають від кількох тисяч до кількох мільйонів вузлів та мільйони з'єднань. Незважаючи на те, що це число на кілька порядків менше за число нейронів у мозку людини, ці мережі можуть виконувати багато завдань на рівні, що перевершує людський (наприклад, розпізнавати обличчя або грати в «Ґо»[143]).

Глибокі нейронні мережі

Глибока нейронна мережа (ГНМ, англ. deep neural network, DNN) — це штучна нейронна мережа (ШНМ) із кількома шарами між шарами входу та виходу.[14][17] Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій.[144] Ці складові в цілому функціонують у спосіб, що імітує функціювання людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.[джерело?]

Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,[джерело?] і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.

ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією примітивів.[145] Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю.[14] Наприклад, було доведено, що розріджені багатовимірні многочлени експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.[146]

До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.

ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги.[147] Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.

Рекурентні нейронні мережі (РНМ, англ. recurrent neural networks, RNN), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як моделювання мови.[148][149][150][151][152] Для цього використання особливо ефективна довга короткочасна пам'ять.[81][153]

Згорткові глибокі нейронні мережі (ЗНМ, англ. convolutional deep neural networks, CNN) використовують у комп'ютернім баченні.[154] ЗНМ також застосовували до акустичного моделювання[en] для автоматичного розпізнавання мовлення (АРМ, англ. automatic speech recognition, ASR).[155]

Виклики

Як і з ШНМ, при наївному тренуванні ГНМ може виникати багато проблем. Двома поширеними проблемами є перенавчання та обчислювальний час.

ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи регуляризації, такі як обрізання вузлів (англ. unit pruning) Івахненка,[41] ослаблення ваг[en] (англ. weight decay, -регуляризація) та розрідженість (англ. sparsity, -регуляризація).[156] Альтернативна регуляризація виключенням (англ. dropout) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності.[157] Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.[158]

ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), темп навчання та первинні ваги. Прочісування простору параметрів для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування (англ. batching, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих).[159] Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та Intel Xeon Phi) призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.[160][161]

Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ (артикуляційний контролер мозочкової моделі[en], англ. cerebellar model articulation controller, CMAC). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.[162][163]

Апаратне забезпечення

З 2010-х років прогрес як в алгоритмах машинного навчання, так і в комп'ютерному апаратному забезпеченні призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу.[164] До 2019 року графічні процесори (ГП), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ.[165] OpenAI оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від AlexNet (2012) і до AlphaZero (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.[166][167]

Для прискорення алгоритмів глибокого навчання було розроблено спеціальні електронні схеми, звані процесорами глибокого навчання. До процесорів глибокого навчання належать нейронні процесори (НП, англ. neural processing units, NPU) у мобільних телефонах Huawei[168] та серверах хмарних обчислень, такі як тензорні процесори (ТП, англ. tensor processing units, TPU) у Google Cloud Platform.[169] Cerebras Systems[en] також створила спеціальну систему для обробки великих моделей глибокого навчання, CS-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні Wafer Scale Engine (WSE-2).[170][171]

Атомарно тонкі напівпровідники вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі польових транзисторів з плавни́м затвором (англ. floating-gate field-effect transistors, FGFET).[172]

2021 року Й. Фельдманн зі співавт. запропонували інтегрований фотонний апаратний прискорювач для паралельної згорткової обробки.[173] Автори виділяють дві ключові переваги інтегрованої фотоніки над її електронними аналогами: (1) масивна паралельна передача даних через мультиплексування за довжиною хвилі в поєднанні з частотними гребінцями та (2) надзвичайно висока швидкість модуляції даних.[173] Їхня система може виконувати трильйони операцій множення-додавання за секунду, що вказує на потенціал інтегрованої фотоніки у застосуваннях штучного інтелекту, які потребують великих даних.[173]

Застосування

Автоматичне розпізнавання мовлення

Великомасштабне автоматичне розпізнавання мовлення — це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання»,[17] до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями[153] на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.[98]

Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі TIMIT[en]. Цей набір даних містить 630 носіїв восьми основних діалектів американської англійської, де кожен читає 10 речень.[174] Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання TIMIT стосується розпізнавання фональних[en] послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фонобіграмні мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, англ. phone error rates, PER), було узагальнено з 1991 року.

Метод Відсоток рівня
фональної похибки (РФП) (%)
РНМ з випадковими початковими значеннями[175] 26,1
Баєсова трифональна ГСМ[en]-ПММ 25,6
Модель прихованої траєкторії (породжувальна) 24,8
Монофональна ГНМ з випадковими початковими значеннями 23,4
Монофональна ГМП-ГНМ 22,4
Трифональна ГСМ[en]-ПММ з навчанням ПМВІ 21,7
Монофональна ГМП-ГНМ на блоці фільтрів[en] 20,7
Згорткова ГНМ[176] 20,0
Згорткова ГНМ з різнорідним агрегуванням 18,7
Ансамблева ГНМ/ЗНМ/РНМ[177] 18,3
Двоспрямована ДКЧП 17,8
Ієрархічна згорткова глибока максимумовиходова мережа[178] 16,5

Дебют ГНМ для розпізнавання мовців наприкінці 1990-х та розпізнавання мовлення приблизно в 2009—2011 роках, а також ДКЧП приблизно в 2003—2007 роках прискорили прогрес у восьми основних областях:[12][111][109]

  • Масштабування вгору/назовні та прискорення тренування та декодування ГНМ
  • Послідовнісно розрізнювальне тренування
  • Обробка ознак глибокими моделями з цілісним розумінням механізмів, що лежать в їхній основі
  • Пристосування ГНМ та споріднених глибоких моделей
  • Багатозадачне[en] та передавальне навчання за допомогою ГНМ і споріднених глибоких моделей
  • ЗНМ та як їх проєктувати, щоби найкращим чином використати предметні знання щодо мовлення
  • РНМ та їхні численні варіанти з ДКЧП
  • Інші типи глибоких моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.

Усі основні комерційні системи розпізнавання мовлення (наприклад, Microsoft Cortana, Xbox, Перекладач Skype[en], Amazon Alexa, Google Now, Apple Siri, Baidu та голосовий пошук iFlytek[en], а також низка мовленнєвих продуктів Nuance[en] тощо) ґрунтуються на глибокому навчанні.[12][179][180]

Розпізнавання зображень

Поширеним оцінковим набором для класифікування зображень є набір даних бази даних MNIST. Він складається з рукописних цифр і містить 60 000 навчальних та 10 000 випробувальних прикладів. Як і у випадку з TIMIT, його невеликий розмір дозволяє користувачам випробувати кілька конфігурацій. Доступний вичерпний перелік результатів на цьому наборі.[181]

Розпізнавання зображень на основі глибокого навчання стало «надлюдським», даючи точніші результати, ніж люди, учасники змагання. Вперше це сталося 2011 року з розпізнаванням дорожніх знаків, а 2014 року з розпізнаванням облич людей.[182][183]

Треновані глибоким навчанням транспортні засоби тепер інтерпретують камери кругового огляду.[184] Іншим прикладом є новітній аналіз у лицевій дисморфології (англ. Facial Dysmorphology Novel Analysis, FDNA), який використовують для аналізу випадків вад розвитку людини, пов'язаних із великою базою даних генетичних синдромів.

Обробка образотворчого мистецтва

Візуальна художня обробка Джиммі Вейлза у Франції у стилі «Крику» Мунка, застосованого за допомогою нейронного перенесення стилю

З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у

  • встановлюванні періоду стилю заданої картини[185][186]
  • Нейроннім перенесенні стилю[en] — вловлюванні стилю певного твору мистецтва та застосуванні його візуально приємним чином до довільної фотографії чи відео[185][186]
  • створенні вражаючих зображень на основі випадкових вхідних зорових полів.[185][186]

Обробка природної мови

Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років.[148] ДКЧП допомогла покращити машинний переклад і моделювання мови.[149][150][151]

Іншими ключовими методиками в цій галузі є негативне вибирання (англ. negative sampling)[187] та вкладання слів. Вкладання слів, наприклад word2vec, можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у векторному просторі. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як імовірнісну контекстновільну граматику[en] (ІКВГ, англ. probabilistic context free grammar, PCFG), втілену РНМ.[188] Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування.[188] Глибокі нейронні архітектури забезпечують найкращі результати для аналізу складників[en],[189] тональності,[190] пошуку інформації,[191][192] розуміння розмовної мови,[193] машинного перекладу,[149][194] контекстного зв'язування об'єктів,[194] розпізнавання стилю написання,[195] розпізнавання іменованих сутностей (класифікування лексем),[196] класифікування тексту та інших.[197]

Останні розробки узагальнюють вкладання слів до вкладання речень.

Перекладач Google використовує велику наскрізну мережу довгої короткочасної пам'яті (ДКЧП).[198][199][200][201] Нейронний машинний переклад Google використовує метод машинного перекладу на основі прикладів, у якому система «вчиться на мільйонах прикладів».[199] Він перекладає «цілі речення за раз, а не частини». Перекладач Google підтримує понад сто мов.[199] Мережа кодує «семантику речення, а не просто запам'ятовує пофразові переклади».[199][202] Перекладач Google використовує англійську як проміжну між більшістю мовних пар.[202]

Пошук нових ліків та токсикологія

Значний відсоток ліків-кандидатів не отримує схвалення регуляторних органів. Ці невдачі спричинені недостатньою ефективністю (впливом на мішень), небажаними взаємодіями (впливами поза мішенню) або непередбаченими токсичними впливами.[203][204] Дослідники вивчали використання глибокого навчання для передбачування біомолекулярних мішеней[en],[136][137] антимішеней[en] та токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.[138][139][140]

AtomNet — це система глибокого навчання для раціонального конструювання ліків на основі структури.[205] AtomNet використовували для передбачування новітніх біомолекул-кандидатів для мішеней таких захворювань як вірус Ебола[206] та розсіяний склероз.[207][206]

2017 року графові нейронні мережі[en] було вперше використано для передбачування різних властивостей молекул у великому наборі токсикологічних даних.[208] 2019 року породжувальні нейронні мережі було використано для створення молекул, які було перевірено експериментально від початку до кінця на мишах.[209][210]

Управління відносинами з клієнтами

Глибоке навчання з підкріпленням[en] використовували для наближування цінності можливих дій прямого маркетингу, визначених у термінах змінних RFM. Було показано, що ця функція оцінки цінності має природну інтерпретацію як пожиттєва цінність клієнта.[211]

Рекомендаційні системи

Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту.[212][213] Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання (англ. multi-view deep learning).[214] Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.

Біоінформатика

Докладніше: Біоінформатика

Автокодувальну ШНМ використовували в біоінформатиці для передбачування анотацій генної онтології та зв'язків між генами й функціями.[215]

У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв[216] та для передбачування ускладнень здоров'я з даних електронних медичних записів.[217]

Оцінювання глибокими нейронними мережами

Глибокі нейронні мережі (ГНМ) можливо використовувати для оцінювання ентропії стохастичних процесів, їх називають нейронними оцінювачами спільної ентропії (НОСЕ, англ. Neural Joint Entropy Estimator, NJEE).[218] Таке оцінювання дає уявлення про вплив випадкових змінних входу на незалежну випадкову змінну. На практиці, ГНМ тренують як класифікатор, який відображує вектор або матрицю входу X у розподіл імовірності виходу над можливими класами випадкової змінної Y за заданого входу X. Наприклад, у завданнях класифікування зображень НОСЕ відображує вектор значень кольорів пікселів у ймовірності над можливими класами зображень. На практиці розподіл імовірності Y отримують за допомогою шару Softmax із кількістю вузлів, яка дорівнює розміру абетки Y. НОСЕ використовує неперервно диференційовні передавальні функції, так що умови теореми про універсальне наближення виконуються. Показано, що цей метод забезпечує сильно слушну оцінку й перевершує інші методи в разі великих розмірів абетки.[218]

Аналіз медичних зображень

Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявляння уражень, сегментування органів та покращування зображень.[219][220] Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.[221][222]

Мобільна реклама

Знайти відповідну мобільну аудиторію для мобільної реклами завжди складно, оскільки необхідно розглянути та проаналізувати багато точок даних, перш ніж стане можливо створити цільовий сегмент і використати його для розміщення реклами на будь-якому рекламному сервері.[223] Глибоке навчання використовували для інтерпретування великих, багатовимірних наборів рекламних даних. Під час циклу інтернет-реклами запит/подача/натискання збирають багато точок даних. Ця інформація може ставати основою машинного навчання для покращення обирання оголошень.

Відновлювання зображень

Глибоке навчання було успішно застосовано до обернених задач[en], таких як знешумлювання, надвисока роздільність[en], заповнювання прогалин[en] та кольоризування фільмів.[224] До цих застосувань входять такі методи навчання як «Shrinkage Fields for Effective Image Restoration»,[225] який тренується на наборі зображень, та глибоке апріорне зображень[en] (англ. Deep Image Prior), що тренується на зображенні, якому потрібне відновлення.

Виявляння фінансового шахрайства

Глибоке навчання успішно застосовують для виявляння фінансового шахрайства, ухилення від сплати податків[226] та боротьби з відмиванням грошей.[227]

Матеріалознавство

У листопаді 2023 року дослідники з Google DeepMind та Національної лабораторії ім. Лоуренса в Берклі оголосили, що вони розробили систему ШІ, відому як GNoME. Ця система зробила внесла внесок до матеріалознавства, відкривши понад 2 мільйони нових матеріалів за відносно короткий час. GNoME використовує методики глибокого навчання для ефективного дослідження потенційних структур матеріалів, досягаючи значного зростання у встановлюванні стабільних неорганічних кристалічних структур. Передбачення цієї системи були підтверджені за допомогою автономних роботизованих експериментів, продемонструвавши вражаючий рівень успішності в 71 %. Дані про нововідкриті матеріали доступні публічно через базу даних Materials Project[en], надаючи дослідникам можливість встановлювати матеріали з бажаними властивостями для різних застосувань. Цей розвиток має наслідки для майбутнього наукових відкриттів та інтегрування ШІ в дослідження матеріалознавства, потенційно прискорюючи нововведення в матеріалах та знижуючи вартість розробки продуктів. Використання ШІ та глибокого навчання натякає на можливість мінімізації або виключення ручних лабораторних експериментів та дозволяє науковцям більше зосередитися на проєктуванні й аналізі унікальних сполук.[228][229][230]

Військові

Міністерство оборони Сполучених Штатів застосовувало глибоке навчання, щоб тренувати роботів виконувати нові завдання через спостереження.[231]

Диференціальні рівняння з частинними похідними

Фізичні нейронні мережі (англ. physics informed neural networks) використовували для розв'язування диференціальних рівнянь із частинними похідними як у прямих, так і в обернених задачах на основі даних.[232] Одним із прикладів є відбудова потоку рідини, керована рівняннями Нав'є — Стокса. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи обчислювальної гідродинаміки.[233][234]

Відбудова зображень

Відбудова зображень (англ. image reconstruction) — це відбудова зображень, що лежать в основі пов'язаних із зображеннями вимірювань. Декілька праць показали кращу та відмінну продуктивність методів глибокого навчання порівняно з аналітичними методами для різних застосувань, наприклад, спектральних[235] та ультразвукових зображень.[236]

Епігенетичний годинник

Епігенетичний годинник (англ. epigenetic clock) — це біохімічний тест, який можливо використовувати для вимірювання віку. Галкін зі співавт. використали глибокі нейронні мережі, щоби натренувати епігенетичний годинник старіння з безпрецедентною точністю, використавши понад 6000 зразків крові.[237] Цей годинник використовує інформацію з 1000 CpG-острівців і передбачує людей з певними станами старше здорових контрольних груп: ЗЗК[en], лобово-скроневою деменцією, раком яєчника, ожирінням. Цей годинник старіння планувала випустити для загального використання в 2021 року дочірня компанія компанії Insilico Medicine[en], Deep Longevity.

Відношення до когнітивного розвитку людини та розвитку мозку

Глибоке навчання тісно пов'язане з класом теорій розвитку мозку[en] (особливо нової кори), запропонованих когнітивними нейробіологами на початку 1990-х років.[238][239][240][241] Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля чинника росту нервів) підтримують самоорганізацію, дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і нова кора, нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос вимірювальних перетворювачів, добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих чинників росту… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».[242]

Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму зворотного поширення з метою підвищення реалістичності його обробки.[243][244] Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних породжувальних моделях та глибоких мережах переконань.[245][246] У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.[247]

Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів[248] і нейронних популяцій.[249] Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі приматів[250] як на рівні окремого вузла[251], так і на рівні популяції.[252]

Комерційна діяльність

Лабораторія ШІ Facebook виконує такі завдання як автоматичне мічення завантажених зображень[en] іменами людей на них.[253]

Google DeepMind Technologies розробила систему, здатну навчитися грати у відеоігри Atari, використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему AlphaGo, яка навчилася грі Ґо настільки добре, що перемогла професійного гравця.[254][255][256] Перекладач Google використовує нейронну мережу, щоби перекладати між понад 100 мовами.

2017 року було запущено Covariant.ai, зосереджений на інтегруванні глибокого навчання на заводах.[257]

Станом на 2008 рік[258] дослідники Техаського університету в Остіні (UT) розробили систему машинного навчання під назвою Training an Agent Manually via Evaluative Reinforcement (укр. ручне тренування агента через оцінювальне підкріплення), або TAMER, яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором.[231] Спершу розроблений як TAMER, новий алгоритм під назвою Deep TAMER було пізніше представлено 2018 року під час співпраці між Дослідницькою лабораторією армії США (ARL) та дослідниками UT. Deep TAMER використовував глибоке навчання, щоби забезпечити роботові здатність навчатися нових завдань шляхом спостерігання.[231] Використовуючи Deep TAMER, робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».[259]

Критика та коментарі

Глибоке навчання притягувало як критику, так і коментарі, у деяких випадках поза межами галузі інформатики.

Теорія

Основна критика стосується браку теорії навколо деяких методів.[260] Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як контрастове розходження, не така ясна[джерело?] (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на чорну скриньку, роблячи більшість підтверджень емпірично, а не теоретично.[261]

Інші зазначають, що глибоке навчання слід розглядати як крок до втілення сильного ШІ, а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної, щоби втілити цю мету повністю. Психолог-дослідник Ґері Маркус[en] зазначив:

Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання причинно-наслідкових зв'язків (…) вони не мають очевидних способів здійснення логічних висновків, і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як Watson (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик баєсового висновування, і аж до дедуктивного міркування.[262]

Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано,[263] демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті Ґардіан.[264]

Помилки

Деякі архітектури глибокого навчання демонструють проблематичну поведінку,[265] наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014)[266] та неправильне класифікування незначних збурень правильно класифікованих зображень (2013).[267] Ґьорцель припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури загального штучного інтелекту (ЗШІ).[265] Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень[268] спостережуваних об'єктів та подій.[265] Виведення граматики[en] (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи міркуваннями здорового глузду[en], які оперують поняттями в термінах граматичних породжувальних правил[en], і є основною метою як засвоєння мови людиною,[269] так і штучного інтелекту (ШІ).[270]

Кіберзагроза

Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість штучних нейронних мереж до хакерів та обману.[271] Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» (англ. "adversarial attack").[272]

2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень.[273] Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад TinEye, який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято.[274]

Інша група показала, що певні психоделічні видовища можуть змусити систему розпізнавання облич вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до знаків заборони проїзду без зупинки, змусивши ШНМ класифікувати їх неправильно.[273]

Проте ШНМ можливо додатково тренувати виявляти спроби обману, що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від зловмисних програм. ШНМ було навчено перемагати програмне забезпечення захисту від зловмисного програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося генетичним алгоритмом, доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.[273]

2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд Google Now відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».[273]

В «отруюванні даними[en]» до тренувального набору системи машинного навчання систематично підкидають хибні дані, щоби завадити їй досягти майстерності.[273]

Етика збирання даних

Більшість систем глибокого навчання покладаються на тренувальні та контрольні (англ. verification) дані, породжувані та/або розмічувані людьми.[275] У філософії засобів масової інформації стверджують, що для цієї мети регулярно використовують не лише низькооплачувану клікпрацю[en] (наприклад, на Amazon Mechanical Turk), а й неявні форми людської мікропраці[en], які часто не визнають як таку.[276] Філософ Райнер Мюльхоф[de] розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) ігрофікація (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, CAPTCHA для розпізнавання зображень, або відстежування кліків на сторінках результатів пошуку Google), (3) використання соціальних мотивів (наприклад, позначування облич у Facebook для отримування позначених зображень обличчя), (4) розроблення інформації (наприклад, за допомогою пристроїв самооцифровування[en], таких як відстежувачі активності), та (5) клікпрацю[en].[276]

Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як система розпізнавання облич Facebook[en], потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою Facebook запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вони отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити Facebook, що на зображенні не вони.[277] Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних»[276] для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» (англ. "human-aided artificial intelligence").[276]

Див. також

Примітки

  1. Schulz, Hannes; Behnke, Sven (1 листопада 2012). Deep Learning. KI - Künstliche Intelligenz (англ.). 26 (4): 357—363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
  2. Хома, Ю. В.; Бенч, А. Я. (2019). Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання (PDF). Комп'ютерні системи і мережі (укр.). 1 (1): 97—102.
  3. Дорош, Н. Л.; Цаплюк, О. В. (3-5 листопада 2021). Розпізнавання зображень алгоритмом глибокого навчання (PDF). VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем» (укр.). Дніпро: УДХТУ. с. 91—92.
  4. Бродкевич, В. М.; Ремесло, В. Я. (2018). Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках (PDF). Міжнародний науковий журнал «Інтернаука» (укр.). Київ. 1 (11 (51)): 56—60. ISSN 2520-2057.
  5. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep Learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  6. а б в Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition (англ.). с. 3642—3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
  7. а б Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). ImageNet Classification with Deep Convolutional Neural Networks (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada (англ.). Архів (PDF) оригіналу за 10 січня 2017. Процитовано 24 травня 2017.
  8. Google's AlphaGo AI wins three-match series against the world's best Go player. TechCrunch (англ.). 25 травня 2017. Архів оригіналу за 17 червня 2018. Процитовано 17 червня 2018.
  9. Marblestone, Adam H.; Wayne, Greg; Kording, Konrad P. (2016). Toward an Integration of Deep Learning and Neuroscience. Frontiers in Computational Neuroscience (англ.). 10: 94. arXiv:1606.03813. Bibcode:2016arXiv160603813M. doi:10.3389/fncom.2016.00094. PMC 5021692. PMID 27683554. S2CID 1994856.
  10. Bengio, Yoshua; Lee, Dong-Hyun; Bornschein, Jorg; Mesnard, Thomas; Lin, Zhouhan (13 лютого 2015). Towards Biologically Plausible Deep Learning (англ.). arXiv:1502.04156 [cs.LG].
  11. Study urges caution when comparing neural networks to the brain. MIT News | Massachusetts Institute of Technology (англ.). 2 листопада 2022. Процитовано 6 грудня 2023.
  12. а б в г д е Deng, L.; Yu, D. (2014). Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing (англ.). 7 (3–4): 1—199. doi:10.1561/2000000039. Архів (PDF) оригіналу за 14 березня 2016. Процитовано 18 жовтня 2014.
  13. Zhang, W. J.; Yang, G.; Ji, C.; Gupta, M. M. (2018). On Definition of Deep Learning. 2018 World Automation Congress (WAC) (англ.). с. 1—5. doi:10.23919/WAC.2018.8430387. ISBN 978-1-5323-7791-4. S2CID 51971897.
  14. а б в г Bengio, Yoshua (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. S2CID 207178999. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 3 вересня 2015.
  15. а б в г д Bengio, Y.; Courville, A.; Vincent, P. (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
  16. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 травня 2015). Deep learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
  17. а б в г д е ж и к л Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks (англ.). 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  18. Shigeki, Sugiyama (12 квітня 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (англ.). IGI Global. ISBN 978-1-5225-8218-2.
  19. Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems (англ.). с. 153—160. Архів (PDF) оригіналу за 20 жовтня 2019. Процитовано 6 жовтня 2019.
  20. а б Hinton, G.E. (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
  21. Sahu, Santosh Kumar; Mokhade, Anil; Bokde, Neeraj Dhanraj (січень 2023). An Overview of Machine Learning, Deep Learning, and Reinforcement Learning-Based Techniques in Quantitative Finance: Recent Progress and Challenges. Applied Sciences (англ.). 13 (3): 1956. doi:10.3390/app13031956. ISSN 2076-3417.
  22. а б в Cybenko (1989). Approximations by superpositions of sigmoidal functions (PDF). Mathematics of Control, Signals, and Systems[en] (англ.). 2 (4): 303—314. doi:10.1007/bf02551274. S2CID 3958369. Архів оригіналу (PDF) за 10 October 2015.
  23. а б в Hornik, Kurt (1991). Approximation Capabilities of Multilayer Feedforward Networks. Neural Networks (англ.). 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. S2CID 7343126.
  24. а б Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation (англ.). Prentice Hall. ISBN 978-0-13-273350-2.
  25. а б Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks (англ.). MIT Press. с. 48. ISBN 978-0-262-08239-6.
  26. а б Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width [Архівовано 2019-02-13 у Wayback Machine.]. Neural Information Processing Systems, 6231-6239. (англ.)
  27. Orhan, A. E.; Ma, W. J. (2017). Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback. Nature Communications (англ.). 8 (1): 138. Bibcode:2017NatCo...8..138O. doi:10.1038/s41467-017-00181-8. PMC 5527101. PMID 28743932.
  28. а б в г Murphy, Kevin P. (24 серпня 2012). Machine Learning: A Probabilistic Perspective (англ.). MIT Press. ISBN 978-0-262-01802-9.
  29. а б Fukushima, K. (1969). Visual feature extraction by a multilayered network of analog threshold elements. IEEE Transactions on Systems Science and Cybernetics (англ.). 5 (4): 322—333. doi:10.1109/TSSC.1969.300225.
  30. Sonoda, Sho; Murata, Noboru (2017). Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis (англ.). 43 (2): 233—268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
  31. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF) (англ.). Springer. ISBN 978-0-387-31073-2. Архів (PDF) оригіналу за 11 січня 2017. Процитовано 6 серпня 2017.
  32. Brush, Stephen G. (1967). History of the Lenz-Ising Model. Reviews of Modern Physics (англ.). 39 (4): 883—893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
  33. Amari, Shun-Ichi (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions (англ.). C (21): 1197—1206.
  34. а б в г д е ж и к л м н п р Schmidhuber, Jürgen (2022). Annotated History of Modern AI and Deep Learning (англ.). arXiv:2212.11279 [cs.NE].
  35. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (англ.). 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
  36. Tappert, Charles C. (2019). Who Is the Father of Deep Learning?. 2019 International Conference on Computational Science and Computational Intelligence (CSCI) (англ.). IEEE. с. 343—348. doi:10.1109/CSCI49370.2019.00067. ISBN 978-1-7281-5584-5. S2CID 216043128. Процитовано 31 травня 2021.
  37. а б в Rosenblatt, Frank (1962). Principles of Neurodynamics (англ.). Spartan, New York.
  38. а б Rina Dechter[en] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online [Архівовано 2016-04-19 у Wayback Machine.] (англ.)
  39. Fradkov, Alexander L. (1 січня 2020). Early History of Machine Learning. IFAC-PapersOnLine. 21st IFAC World Congress (англ.). 53 (2): 1385—1390. doi:10.1016/j.ifacol.2020.12.1888. ISSN 2405-8963. S2CID 235081987.
  40. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques (англ.). American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
  41. а б Ivakhnenko, Alexey (1971). Polynomial theory of complex systems (PDF). IEEE Transactions on Systems, Man, and Cybernetics (англ.). SMC-1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. Архів (PDF) оригіналу за 29 серпня 2017. Процитовано 5 листопада 2019.
  42. Robbins, H.; Monro, S. (1951). A Stochastic Approximation Method. The Annals of Mathematical Statistics (англ.). 22 (3): 400. doi:10.1214/aoms/1177729586.
  43. Amari, Shun'ichi (1967). A theory of adaptive pattern classifier. IEEE Transactions (англ.). EC (16): 279—307.
  44. Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987 (англ.)
  45. Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (фін.). University of Helsinki. с. 6—7.
  46. Linnainmaa, Seppo (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics (англ.). 16 (2): 146—160. doi:10.1007/bf01931367. S2CID 122357351.
  47. Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation? (PDF). Documenta Mathematica (англ.) (Extra Volume ISMP): 389—400. Архів оригіналу (PDF) за 21 липня 2017. Процитовано 11 червня 2017.
  48. Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (англ.). Open court publishing Company. ISBN 9780598818461.
  49. Kelley, Henry J. (1960). Gradient theory of optimal flight paths. ARS Journal (англ.). 30 (10): 947—954. doi:10.2514/8.5282.
  50. Werbos, Paul (1982). Applications of advances in nonlinear sensitivity analysis. System modeling and optimization (англ.). Springer. с. 762—770.
  51. Werbos, P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University (англ.). Процитовано 12 червня 2017.
  52. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986. (англ.)
  53. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. (англ.). 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
  54. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions (англ.). arXiv:1710.05941 [cs.NE].
  55. Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons (англ.). Science & Business Media. doi:10.1007/978-1-4757-3115-6. ISBN 978-0-7923-7824-2. Процитовано 27 грудня 2023.
  56. Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005. (англ.)
  57. а б Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics (англ.).
  58. Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics (англ.). 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
  59. а б LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989. (англ.)
  60. Zhang, Wei (1991). Image processing of human corneal endothelium based on a learning network. Applied Optics (англ.). 30 (29): 4211—7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526.
  61. Zhang, Wei (1994). Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network. Medical Physics (англ.). 21 (4): 517—24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017.
  62. LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). Gradient-based learning applied to document recognition (PDF). Proceedings of the IEEE (англ.). 86 (11): 2278—2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Процитовано 7 жовтня 2016.
  63. а б в Schmidhuber, Jürgen (1992). Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991) (PDF). Neural Computation (англ.). 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
  64. Schmidhuber, Jürgen (1993). Habilitation Thesis (PDF) (нім.). Архів оригіналу (PDF) за 26 червня 2021.
  65. Schmidhuber, Jürgen (1 листопада 1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
  66. а б Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021 (англ.). Springer. с. 9355—9366.
  67. Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers (англ.). arXiv:2009.14794 [cs.CL].
  68. Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993 (англ.). Springer. с. 460—463.
  69. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (12 червня 2017). Attention Is All You Need (англ.). arXiv:1706.03762 [cs.CL].
  70. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (англ.). с. 38—45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  71. He, Cheng (31 грудня 2021). Transformer in CV. Transformer in CV (англ.). Towards Data Science.
  72. Schmidhuber, Jürgen (1991). A possibility for implementing curiosity and boredom in model-building neural controllers. Proc. SAB'1991 (англ.). MIT Press/Bradford Books. с. 222—227.
  73. Schmidhuber, Jürgen (2010). Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010). IEEE Transactions on Autonomous Mental Development (англ.). 2 (3): 230—247. doi:10.1109/TAMD.2010.2056368. S2CID 234198.
  74. Schmidhuber, Jürgen (2020). Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991). Neural Networks (англ.). 127: 58—66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
  75. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014) (англ.). с. 2672—2680. Архів (PDF) оригіналу за 22 листопада 2019. Процитовано 20 серпня 2019.
  76. Prepare, Don't Panic: Synthetic Media and Deepfakes (англ.). witness.org. Архів оригіналу за 2 грудня 2020. Процитовано 25 листопада 2020.
  77. GAN 2.0: NVIDIA's Hyperrealistic Face Generator. SyncedReview.com (англ.). 14 грудня 2018. Процитовано 3 жовтня 2019.
  78. Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 лютого 2018). Progressive Growing of GANs for Improved Quality, Stability, and Variation (англ.). arXiv:1710.10196 [cs.NE].
  79. а б в S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". [Архівовано 2015-03-06 у Wayback Machine.]. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
  80. Hochreiter, S. та ін. (15 січня 2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kolen, John F.; Kremer, Stefan C. (ред.). A Field Guide to Dynamical Recurrent Networks (англ.). John Wiley & Sons. ISBN 978-0-7803-5369-5.
  81. а б в Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
  82. Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM. 9th International Conference on Artificial Neural Networks: ICANN '99 (англ.). Т. 1999. с. 850—855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
  83. Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 травня 2015). Highway Networks (англ.). arXiv:1505.00387 [cs.LG].
  84. Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Jürgen (2015). Training Very Deep Networks. Advances in Neural Information Processing Systems (англ.). Curran Associates, Inc. 28: 2377—2385.
  85. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). Las Vegas, NV, USA: IEEE. с. 770—778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  86. de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8 серпня 1994). An integrated Boolean neural network for pattern classification. Pattern Recognition Letters (англ.). 15 (8): 807—813. Bibcode:1994PaReL..15..807D. doi:10.1016/0167-8655(94)90009-4.
  87. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 травня 1995). The wake-sleep algorithm for unsupervised neural networks. Science (англ.). 268 (5214): 1158—1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831. S2CID 871473.
  88. Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science (англ.). Т. 2766. Springer. doi:10.1007/b11963. ISBN 3-540-40722-7. S2CID 1304548.
  89. Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 серпня 1993). Hybrid neural network/hidden markov model systems for continuous speech recognition. International Journal of Pattern Recognition and Artificial Intelligence (англ.). 07 (4): 899—916. doi:10.1142/s0218001493000455. ISSN 0218-0014.
  90. Robinson, T. (1992). A real-time recurrent error propagation network word recognition system. ICASSP. Icassp'92 (англ.): 617—620. ISBN 9780780305328. Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
  91. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (March 1989). Phoneme recognition using time-delay neural networks (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing (англ.). 37 (3): 328—339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Архів (PDF) оригіналу за 27 квітня 2021. Процитовано 24 вересня 2019.
  92. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). Research Developments and Directions in Speech Recognition and Understanding, Part 1. IEEE Signal Processing Magazine (англ.). 26 (3): 75—80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891. S2CID 357467.
  93. Bengio, Y. (1991). Artificial Neural Networks and their Application to Speech/Sequence Recognition (англ.). McGill University Ph.D. thesis. Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
  94. Deng, L.; Hassanein, K.; Elmasry, M. (1994). Analysis of correlation structure for a neural predictive model with applications to speech recognition. Neural Networks (англ.). 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.
  95. Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective. Speech Communication (англ.). 31 (2): 225—254. doi:10.1016/S0167-6393(99)00080-1.
  96. а б Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design. Speech Communication (англ.). 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.
  97. Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 травня 2021. Процитовано 14 червня 2017.
  98. а б Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). Biologically Plausible Speech Recognition with LSTM Neural Nets (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland (англ.). с. 175—184. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 9 квітня 2016.
  99. а б в Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the International Conference on Machine Learning, ICML 2006 (англ.): 369—376. CiteSeerX 10.1.1.75.6306.
  100. Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting [Архівовано 2018-11-18 у Wayback Machine.]. Proceedings of ICANN (2), pp. 220–229. (англ.)
  101. а б в Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). Google voice search: faster and more accurate (англ.). Архів оригіналу за 9 березня 2016. Процитовано 9 квітня 2016.
  102. Yann LeCun (2016). Slides on Deep Learning Online [Архівовано 2016-04-23 у Wayback Machine.] (англ.)
  103. Hinton, Geoffrey E. (1 жовтня 2007). Learning multiple layers of representation. Trends in Cognitive Sciences (англ.). 11 (10): 428—434. doi:10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Архів оригіналу за 11 жовтня 2013. Процитовано 12 червня 2017.
  104. Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). A Fast Learning Algorithm for Deep Belief Nets (PDF). Neural Computation[en] (англ.). 18 (7): 1527—1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Архів (PDF) оригіналу за 23 грудня 2015. Процитовано 20 липня 2011.
  105. Bengio, Yoshua (2012). Practical recommendations for gradient-based training of deep architectures (англ.). arXiv:1206.5533 [cs.LG].
  106. G. E. Hinton., "Learning multiple layers of representation". [Архівовано 2018-05-22 у Wayback Machine.]. Trends in Cognitive Sciences, 11, pp. 428–434, 2007. (англ.)
  107. а б в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups. IEEE Signal Processing Magazine (англ.). 29 (6): 82—97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. S2CID 206485943.
  108. а б в Deng, L.; Hinton, G.; Kingsbury, B. (травень 2013). New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP) (PDF) (англ.). Microsoft. Архів (PDF) оригіналу за 26 вересня 2017. Процитовано 27 грудня 2023.
  109. а б в Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer) (англ.). Springer. ISBN 978-1-4471-5779-3.
  110. Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research. Microsoft Research (англ.). 3 грудня 2015. Архів оригіналу за 16 березня 2018. Процитовано 16 березня 2018.
  111. а б Li, Deng (September 2014). Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'. Interspeech (англ.). Архів оригіналу за 26 вересня 2017. Процитовано 12 червня 2017.
  112. Yu, D.; Deng, L. (2010). Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition. NIPS Workshop on Deep Learning and Unsupervised Feature Learning (англ.). Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
  113. Seide, F.; Li, G.; Yu, D. (2011). Conversational speech transcription using context-dependent deep neural networks. Interspeech (англ.): 437—440. doi:10.21437/Interspeech.2011-169. S2CID 398770. Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
  114. Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 травня 2013). Recent Advances in Deep Learning for Speech Research at Microsoft. Microsoft Research (англ.). Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
  115. Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). Non-linear frequency warping using constant-Q transformation for speech emotion recognition. 2021 International Conference on Computer Communication and Informatics (ICCCI) (англ.). с. 1—4. arXiv:2102.04029. doi:10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID 231846518.
  116. Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling (PDF) (англ.). Архів оригіналу (PDF) за 24 квітня 2018.
  117. Li, Xiangang; Wu, Xihong (2014). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. arXiv:1410.4281 [cs.CL]. {{cite arXiv}}: Проігноровано невідомий параметр |langyage= (довідка)
  118. Zen, Heiga; Sak, Hasim (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis (PDF). Google.com (англ.). ICASSP. с. 4470—4474. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  119. Nvidia CEO bets big on deep learning and VR (англ.). Venture Beat. 5 квітня 2016. Архів оригіналу за 25 листопада 2020. Процитовано 21 квітня 2017.
  120. From not working to neural networking. The Economist (англ.). Архів оригіналу за 31 грудня 2016. Процитовано 26 серпня 2017.
  121. а б Oh, K.-S.; Jung, K. (2004). GPU implementation of neural networks. Pattern Recognition (англ.). 37 (6): 1311—1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
  122. "A Survey of Techniques for Optimizing Deep Learning on GPUs [Архівовано 2021-05-09 у Wayback Machine.]", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 (англ.)
  123. а б Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing (англ.), архів оригіналу за 18 травня 2020, процитовано 14 лютого 2021
  124. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 вересня 2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation (англ.). 22 (12): 3207—3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
  125. Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). Large-scale deep unsupervised learning using graphics processors. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09 (англ.). New York, NY, USA: ACM. с. 873—880. CiteSeerX 10.1.1.154.372. doi:10.1145/1553374.1553486. ISBN 9781605585161. S2CID 392458.
  126. Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). Efficient Processing of Deep Neural Networks: A Tutorial and Survey. arXiv:1703.09039 [cs.CV].
  127. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 (англ.)
  128. Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html (англ.)
  129. Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF). International Joint Conference on Artificial Intelligence (англ.). doi:10.5591/978-1-57735-516-8/ijcai11-210. Архів (PDF) оригіналу за 29 вересня 2014. Процитовано 13 червня 2017.
  130. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 25 (PDF) (англ.). Curran Associates, Inc. с. 2843—2851. Архів (PDF) оригіналу за 9 серпня 2017. Процитовано 13 червня 2017.
  131. Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science (англ.). Т. 7908, № Pt 2. с. 411—418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  132. Simonyan, Karen; Andrew, Zisserman (2014). Very Deep Convolution Networks for Large Scale Image Recognition (англ.). arXiv:1409.1556 [cs.CV].
  133. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). Show and Tell: A Neural Image Caption Generator (англ.). arXiv:1411.4555 [cs.CV]..
  134. Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). From Captions to Visual Concepts and Back (англ.). arXiv:1411.4952 [cs.CV]..
  135. Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (англ.). arXiv:1411.2539 [cs.LG]..
  136. а б Merck Molecular Activity Challenge. kaggle.com (англ.). Архів оригіналу за 16 липня 2020. Процитовано 16 липня 2020.
  137. а б Multi-task Neural Networks for QSAR Predictions | Data Science Association. www.datascienceassn.org (англ.). Архів оригіналу за 30 квітня 2017. Процитовано 14 червня 2017.
  138. а б "Toxicology in the 21st century Data Challenge" (англ.)
  139. а б NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 8 вересня 2015. Процитовано 5 березня 2015.
  140. а б NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 28 лютого 2015. Процитовано 5 березня 2015.
  141. Why Deep Learning Is Suddenly Changing Your Life. Fortune (англ.). 2016. Архів оригіналу за 14 квітня 2018. Процитовано 13 квітня 2018.
  142. Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies (англ.). Sourcebooks. ISBN 978-1492671206.
  143. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (January 2016). Mastering the game of Go with deep neural networks and tree search. Nature (англ.). 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
  144. A Guide to Deep Learning and Neural Networks (англ.), архів оригіналу за 2 листопада 2020, процитовано 16 листопада 2020
  145. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). Deep neural networks for object detection. Advances in Neural Information Processing Systems (англ.): 2553—2561. Архів оригіналу за 29 червня 2017. Процитовано 13 червня 2017.
  146. Rolnick, David; Tegmark, Max (2018). The power of deeper networks for expressing natural functions. International Conference on Learning Representations. ICLR 2018 (англ.). Архів оригіналу за 7 січня 2021. Процитовано 5 січня 2021.
  147. Hof, Robert D. Is Artificial Intelligence Finally Coming into Its Own?. MIT Technology Review (англ.). Архів оригіналу за 31 березня 2019. Процитовано 10 липня 2018.
  148. а б Gers, Felix A.; Schmidhuber, Jürgen (2001). LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks (англ.). 12 (6): 1333—1340. doi:10.1109/72.963769. PMID 18249962. S2CID 10192330. Архів оригіналу за 26 січня 2020. Процитовано 25 лютого 2020.
  149. а б в Sutskever, L.; Vinyals, O.; Le, Q. (2014). Sequence to Sequence Learning with Neural Networks (PDF). Proc. NIPS (англ.). arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  150. а б Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). Exploring the Limits of Language Modeling (англ.). arXiv:1602.02410 [cs.CL].
  151. а б Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). Multilingual Language Processing from Bytes (англ.). arXiv:1512.00103 [cs.CL].
  152. Mikolov, T. та ін. (2010). Recurrent neural network based language model (PDF). Interspeech (англ.): 1045—1048. doi:10.21437/Interspeech.2010-343. S2CID 17048224. Архів (PDF) оригіналу за 16 травня 2017. Процитовано 13 червня 2017.
  153. а б Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  154. LeCun, Y. та ін. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE (англ.). 86 (11): 2278—2324. doi:10.1109/5.726791. S2CID 14542261.
  155. Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). Deep convolutional neural networks for LVCSR. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8614—8618. doi:10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6. S2CID 13816461.
  156. Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). Advances in optimizing recurrent networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (англ.). с. 8624—8628. arXiv:1212.0901. CiteSeerX 10.1.1.752.9151. doi:10.1109/icassp.2013.6639349. ISBN 978-1-4799-0356-6. S2CID 12485056.
  157. Dahl, G. та ін. (2013). Improving DNNs for LVCSR using rectified linear units and dropout (PDF). ICASSP (англ.). Архів (PDF) оригіналу за 12 серпня 2017. Процитовано 13 червня 2017.
  158. Data Augmentation - deeplearning.ai | Coursera. Coursera (англ.). Архів оригіналу за 1 грудня 2017. Процитовано 30 листопада 2017.
  159. Hinton, G. E. (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003 (англ.). Архів оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
  160. You, Yang; Buluç, Aydın; Demmel, James (November 2017). Scaling deep learning on GPU and knights landing clusters. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17 (англ.). SC '17, ACM. с. 1—12. doi:10.1145/3126908.3126912. ISBN 9781450351140. S2CID 8869270. Архів оригіналу за 29 липня 2020. Процитовано 5 березня 2018.
  161. Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi. The Journal of Supercomputing (англ.). 75: 197—227. arXiv:1702.07908. Bibcode:2017arXiv170207908V. doi:10.1007/s11227-017-1994-x. S2CID 14135321.
  162. Ting Qin, et al. "A learning algorithm of CMAC based on RLS". Neural Processing Letters 19.1 (2004): 49-61. (англ.)
  163. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array". [Архівовано 2018-11-18 у Wayback Machine.]. Neural Processing Letters 22.1 (2005): 1-16. (англ.)
  164. Research, AI (23 жовтня 2015). Deep Neural Networks for Acoustic Modeling in Speech Recognition. airesearch.com (англ.). Архів оригіналу за 1 лютого 2016. Процитовано 23 жовтня 2015.
  165. GPUs Continue to Dominate the AI Accelerator Market for Now. InformationWeek (англ.). December 2019. Архів оригіналу за 10 червня 2020. Процитовано 11 червня 2020.
  166. Ray, Tiernan (2019). AI is changing the entire nature of computation. ZDNet (англ.). Архів оригіналу за 25 травня 2020. Процитовано 11 червня 2020.
  167. AI and Compute. OpenAI (англ.). 16 травня 2018. Архів оригіналу за 17 червня 2020. Процитовано 11 червня 2020.
  168. HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global. consumer.huawei.com (англ.).
  169. P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 червня 2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. ACM SIGARCH Computer Architecture News (EN) . 45 (2): 1—12. arXiv:1704.04760. doi:10.1145/3140659.3080246.
  170. Woodie, Alex (1 листопада 2021). Cerebras Hits the Accelerator for Deep Learning Workloads. Datanami (англ.). Процитовано 3 серпня 2022.
  171. Cerebras launches new AI supercomputing processor with 2.6 trillion transistors. VentureBeat (амер.). 20 квітня 2021. Процитовано 3 серпня 2022.
  172. Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). Logic-in-memory based on an atomically thin semiconductor. Nature (англ.). 587 (2): 72—77. Bibcode:2020Natur.587...72M. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
  173. а б в Feldmann, J.; Youngblood, N.; Karpov, M. та ін. (2021). Parallel convolutional processing using an integrated photonic tensor. Nature (англ.). 589 (2): 52—58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
  174. Garofolo, J.S.; Lamel, L.F.; Fisher, W.M.; Fiscus, J.G.; Pallett, D.S.; Dahlgren, N.L.; Zue, V. (1993). TIMIT Acoustic-Phonetic Continuous Speech Corpus (англ.). Linguistic Data Consortium. doi:10.35111/17gk-bn40. ISBN 1-58563-019-5. Процитовано 27 грудня 2023.
  175. Robinson, Tony (30 вересня 1991). Several Improvements to a Recurrent Error Propagation Network Phone Recognition System. Cambridge University Engineering Department Technical Report (англ.). CUED/F-INFENG/TR82. doi:10.13140/RG.2.2.15418.90567.
  176. Abdel-Hamid, O. та ін. (2014). Convolutional Neural Networks for Speech Recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing (англ.). 22 (10): 1533—1545. doi:10.1109/taslp.2014.2339736. S2CID 206602362. Архів оригіналу за 22 вересня 2020. Процитовано 20 квітня 2018.
  177. Deng, L.; Platt, J. (2014). Ensemble Deep Learning for Speech Recognition. Proc. Interspeech (англ.): 1915—1919. doi:10.21437/Interspeech.2014-433. S2CID 15641618.
  178. Tóth, Laszló (2015). Phone Recognition with Hierarchical Convolutional Deep Maxout Networks (PDF). EURASIP Journal on Audio, Speech, and Music Processing (англ.). 2015. doi:10.1186/s13636-015-0068-3. S2CID 217950236. Архів (PDF) оригіналу за 24 вересня 2020. Процитовано 1 квітня 2019.
  179. McMillan, Robert (17 грудня 2014). How Skype Used AI to Build Its Amazing New Language Translator | WIRED. Wired (англ.). Архів оригіналу за 8 червня 2017. Процитовано 14 червня 2017.
  180. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). Deep Speech: Scaling up end-to-end speech recognition (англ.). arXiv:1412.5567 [cs.CL].
  181. MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges. yann.lecun.com (англ.). Архів оригіналу за 13 січня 2014. Процитовано 28 січня 2014.
  182. Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (August 2012). Multi-column deep neural network for traffic sign classification. Neural Networks. Selected Papers from IJCNN 2011 (англ.). 32: 333—338. CiteSeerX 10.1.1.226.8219. doi:10.1016/j.neunet.2012.02.023. PMID 22386783.
  183. Chaochao Lu; Xiaoou Tang (2014). Surpassing Human Level Face Recognition (англ.). arXiv:1404.3840 [cs.CV].
  184. Nvidia Demos a Car Computer Trained with "Deep Learning" (6 January 2015), David Talbot, MIT Technology Review (англ.)
  185. а б в G. W. Smith; Frederic Fol Leymarie (10 квітня 2017). The Machine as Artist: An Introduction. Arts (англ.). 6 (4): 5. doi:10.3390/arts6020005.
  186. а б в Blaise Agüera y Arcas (29 вересня 2017). Art in the Age of Machine Intelligence. Arts (англ.). 6 (4): 18. doi:10.3390/arts6040018.
  187. Goldberg, Yoav; Levy, Omar (2014). word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method (англ.). arXiv:1402.3722 [cs.CL].
  188. а б Socher, Richard; Manning, Christopher. Deep Learning for NLP (PDF) (англ.). Архів (PDF) оригіналу за 6 липня 2014. Процитовано 26 жовтня 2014.
  189. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing With Compositional Vector Grammars (PDF). Proceedings of the ACL 2013 Conference (англ.). Архів (PDF) оригіналу за 27 листопада 2014. Процитовано 3 вересня 2014.
  190. Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, C.D.; Ng, A.; Potts, C. (жовтень 2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (PDF). Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (англ.). Association for Computational Linguistics. Архів (PDF) оригіналу за 28 грудня 2016. Процитовано 21 грудня 2023.
  191. Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 листопада 2014). A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval. Microsoft Research (англ.). Архів оригіналу за 27 жовтня 2017. Процитовано 14 червня 2017.
  192. Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 жовтня 2013). Learning Deep Structured Semantic Models for Web Search using Clickthrough Data. Microsoft Research (англ.). Архів оригіналу за 27 жовтня 2017. Процитовано 14 червня 2017.
  193. Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). Using recurrent neural networks for slot filling in spoken language understanding. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 23 (3): 530—539. doi:10.1109/taslp.2014.2383614. S2CID 1317136.
  194. а б Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 червня 2014). Learning Continuous Phrase Representations for Translation Modeling. Microsoft Research (англ.). Архів оригіналу за 27 жовтня 2017. Процитовано 14 червня 2017.
  195. Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). Authorship verification using deep belief network systems. International Journal of Communication Systems (англ.). 30 (12): e3259. doi:10.1002/dac.3259. S2CID 40745740.
  196. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). Precision information extraction for rare disease epidemiology at scale. Journal of Translational Medicine (англ.). 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134.
  197. Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research. Microsoft Research (англ.). Архів оригіналу за 13 березня 2017. Процитовано 14 червня 2017.
  198. Turovsky, Barak (15 листопада 2016). Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog (англ.). Архів оригіналу за 7 квітня 2017. Процитовано 23 березня 2017.
  199. а б в г Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 листопада 2016). Zero-Shot Translation with Google's Multilingual Neural Machine Translation System. Google Research Blog (англ.). Архів оригіналу за 10 липня 2017. Процитовано 23 березня 2017.
  200. Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg та ін. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (англ.). arXiv:1609.08144 [cs.CL].
  201. Metz, Cade (27 вересня 2016). An Infusion of AI Makes Google Translate More Powerful Than Ever. Wired (англ.). Архів оригіналу за 8 листопада 2020. Процитовано 12 жовтня 2017.
  202. а б Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). MT on and for the Web (PDF) (англ.). Архів оригіналу (PDF) за 29 березня 2017. Процитовано 1 грудня 2016.
  203. Arrowsmith, J; Miller, P (2013). Trial watch: Phase II and phase III attrition rates 2011-2012. Nature Reviews Drug Discovery (англ.). 12 (8): 569. doi:10.1038/nrd4090. PMID 23903212. S2CID 20246434.
  204. Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project. Drug Discovery Today (англ.). 20 (5): 505—513. doi:10.1016/j.drudis.2014.12.014. hdl:1942/18723. PMID 25582842.
  205. Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 жовтня 2015). AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery (англ.). arXiv:1510.02855 [cs.LG].
  206. а б Toronto startup has a faster way to discover effective medicines. The Globe and Mail (англ.). Архів оригіналу за 20 жовтня 2015. Процитовано 9 листопада 2015.
  207. Startup Harnesses Supercomputers to Seek Cures. KQED Future of You (англ.). 27 May 2015. Архів оригіналу за 24 грудня 2015. Процитовано 9 листопада 2015.
  208. Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 червня 2017). Neural Message Passing for Quantum Chemistry (англ.). arXiv:1704.01212 [cs.LG].
  209. Zhavoronkov, Alex (2019). Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nature Biotechnology (англ.). 37 (9): 1038—1040. doi:10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
  210. Gregory, Barber. A Molecule Designed By AI Exhibits 'Druglike' Qualities. Wired (англ.). Архів оригіналу за 30 квітня 2020. Процитовано 5 вересня 2019.
  211. Tkachenko, Yegor (8 квітня 2015). Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space (англ.). arXiv:1504.01840 [cs.LG].
  212. van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 26 (PDF) (англ.). Curran Associates, Inc. с. 2643—2651. Архів (PDF) оригіналу за 16 травня 2017. Процитовано 14 червня 2017.
  213. Feng, X.Y.; Zhang, H.; Ren, Y.J.; Shang, P.H.; Zhu, Y.; Liang, Y.C.; Guan, R.C.; Xu, D. (2019). The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study. Journal of Medical Internet Research[en] (англ.). 21 (5): e12957. doi:10.2196/12957. PMC 6555124. PMID 31127715.
  214. Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 травня 2015). A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems. Microsoft Research (англ.). Архів оригіналу за 25 січня 2018. Процитовано 14 червня 2017.
  215. Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 January 2014). Deep autoencoder neural networks for gene ontology annotation predictions. Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics (англ.). ACM. с. 533—540. doi:10.1145/2649387.2649442. hdl:11311/964622. ISBN 9781450328944. S2CID 207217210. Архів оригіналу за 9 травня 2021. Процитовано 23 листопада 2015.
  216. Sathyanarayana, Aarti (1 січня 2016). Sleep Quality Prediction From Wearable Data Using Deep Learning. JMIR mHealth and uHealth (англ.). 4 (4): e125. doi:10.2196/mhealth.6562. PMC 5116102. PMID 27815231. S2CID 3821594.
  217. Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 серпня 2016). Using recurrent neural network models for early detection of heart failure onset. Journal of the American Medical Informatics Association (англ.). 24 (2): 361—370. doi:10.1093/jamia/ocw112. ISSN 1067-5027. PMC 5391725. PMID 27521897.
  218. а б Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). Neural Joint Entropy Estimation (PDF). IEEE Transactions on Neural Networks and Learning Systems (англ.). PP: 1—13. arXiv:2012.11197. doi:10.1109/TNNLS.2022.3204919. PMID 36155469. S2CID 229339809.
  219. Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen A.W.M.; van Ginneken, Bram; Sánchez, Clara I. (December 2017). A survey on deep learning in medical image analysis. Medical Image Analysis (англ.). 42: 60—88. arXiv:1702.05747. Bibcode:2017arXiv170205747L. doi:10.1016/j.media.2017.07.005. PMID 28778026. S2CID 2088679.
  220. Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW) (англ.). с. 82—89. doi:10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID 4728736. Архів оригіналу за 9 травня 2021. Процитовано 12 листопада 2019.
  221. Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework. IEEE Access (англ.). 8: 129889—129898. Bibcode:2020IEEEA...8l9889D. doi:10.1109/ACCESS.2020.3006362. ISSN 2169-3536. S2CID 220733699.
  222. Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 квітня 2022). System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network. Cancers (англ.). 14 (7): 1819. doi:10.3390/cancers14071819. ISSN 2072-6694. PMC 8997449. PMID 35406591.
  223. De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). Predicting the popularity of instagram posts for a lifestyle magazine using deep learning. 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA) (англ.). с. 174—177. doi:10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
  224. Colorizing and Restoring Old Images with Deep Learning. FloydHub Blog (англ.). 13 листопада 2018. Архів оригіналу за 11 жовтня 2019. Процитовано 11 жовтня 2019.
  225. Schmidt, Uwe; Roth, Stefan. Shrinkage Fields for Effective Image Restoration (PDF). Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on (англ.). Архів (PDF) оригіналу за 2 січня 2018. Процитовано 1 січня 2018.
  226. Kleanthous, Christos; Chatzis, Sotirios (2020). Gated Mixture Variational Autoencoders for Value Added Tax audit case selection. Knowledge-Based Systems (англ.). 188: 105048. doi:10.1016/j.knosys.2019.105048. S2CID 204092079.
  227. Czech, Tomasz (28 червня 2018). Deep learning: the next frontier for money laundering detection. Global Banking and Finance Review (англ.). Архів оригіналу за 16 листопада 2018. Процитовано 15 липня 2018.
  228. Nuñez, Michael (29 листопада 2023). Google DeepMind's materials AI has already discovered 2.2 million new crystals. VentureBeat (амер.). Процитовано 19 грудня 2023.
  229. Merchant, Amil; Batzner, Simon; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (грудень 2023). Scaling deep learning for materials discovery. Nature (англ.). 624 (7990): 80—85. doi:10.1038/s41586-023-06735-9. ISSN 1476-4687. PMC 10700131.
  230. Peplow, Mark (29 листопада 2023). Google AI and robots join forces to build new materials. Nature (англ.). doi:10.1038/d41586-023-03745-5.
  231. а б в Army researchers develop new algorithms to train robots. EurekAlert! (англ.). Архів оригіналу за 28 серпня 2018. Процитовано 29 серпня 2018.
  232. Raissi, M.; Perdikaris, P.; Karniadakis, G. E. (1 лютого 2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics (англ.). 378: 686—707. Bibcode:2019JCoPh.378..686R. doi:10.1016/j.jcp.2018.10.045. ISSN 0021-9991. OSTI 1595805. S2CID 57379996.
  233. Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 березня 2020). Physics-informed neural networks for high-speed flows. Computer Methods in Applied Mechanics and Engineering (англ.). 360: 112789. Bibcode:2020CMAME.360k2789M. doi:10.1016/j.cma.2019.112789. ISSN 0045-7825. S2CID 212755458.
  234. Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 лютого 2020). Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations. Science (англ.). 367 (6481): 1026—1030. Bibcode:2020Sci...367.1026R. doi:10.1126/science.aaw4741. PMC 7219083. PMID 32001523.
  235. Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction. IEEE Transactions on Computational Imaging (англ.). 7: 489—504. arXiv:2008.11625. doi:10.1109/TCI.2021.3075349. ISSN 2333-9403. S2CID 235340737.
  236. Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (December 2020). Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction. IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control (англ.). 67 (12): 2584—2594. arXiv:2006.14395. doi:10.1109/TUFFC.2020.3010186. ISSN 1525-8955. PMID 32746211. S2CID 220055785.
  237. Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). DeepMAge: A Methylation Aging Clock Developed with Deep Learning. Aging and Disease (англ.). doi:10.14336/AD.
  238. Utgoff, P. E.; Stracuzzi, D. J. (2002). Many-layered learning. Neural Computation (англ.). 14 (10): 2497—2529. doi:10.1162/08997660260293319. PMID 12396572. S2CID 1119517.
  239. Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development (англ.). MIT Press. ISBN 978-0-262-55030-7.
  240. Shrager, J.; Johnson, MH (1996). Dynamic plasticity influences the emergence of function in a simple cortical array. Neural Networks (англ.). 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0. PMID 12662587.
  241. Quartz, SR; Sejnowski, TJ (1997). The neural basis of cognitive development: A constructivist manifesto. Behavioral and Brain Sciences (англ.). 20 (4): 537—556. CiteSeerX 10.1.1.41.7854. doi:10.1017/s0140525x97001581. PMID 10097006. S2CID 5818342.
  242. S. Blakeslee, "In brain's early growth, timetable may be critical", The New York Times, Science Section, pp. B5–B6, 1995. (англ.)
  243. Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 травня 1991). A more biologically plausible learning rule for neural networks. Proceedings of the National Academy of Sciences (англ.). 88 (10): 4433—4437. Bibcode:1991PNAS...88.4433M. doi:10.1073/pnas.88.10.4433. ISSN 0027-8424. PMC 51674. PMID 1903542.
  244. O'Reilly, Randall C. (1 липня 1996). Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm. Neural Computation (англ.). 8 (5): 895—938. doi:10.1162/neco.1996.8.5.895. ISSN 0899-7667. S2CID 2376781.
  245. Testolin, Alberto; Zorzi, Marco (2016). Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions. Frontiers in Computational Neuroscience (англ.). 10: 73. doi:10.3389/fncom.2016.00073. ISSN 1662-5188. PMC 4943066. PMID 27468262. S2CID 9868901.
  246. Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (September 2017). Letter perception emerges from unsupervised deep learning and recycling of natural image features. Nature Human Behaviour (англ.). 1 (9): 657—664. doi:10.1038/s41562-017-0186-2. ISSN 2397-3374. PMID 31024135. S2CID 24504018.
  247. Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 листопада 2011). Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons. PLOS Computational Biology (англ.). 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. doi:10.1371/journal.pcbi.1002211. ISSN 1553-7358. PMC 3207943. PMID 22096452. S2CID 7504633.
  248. Cash, S.; Yuste, R. (February 1999). Linear summation of excitatory inputs by CA1 pyramidal neurons. Neuron (англ.). 22 (2): 383—394. doi:10.1016/s0896-6273(00)81098-3. ISSN 0896-6273. PMID 10069343. S2CID 14663106.
  249. Olshausen, B; Field, D (1 серпня 2004). Sparse coding of sensory inputs. Current Opinion in Neurobiology (англ.). 14 (4): 481—487. doi:10.1016/j.conb.2004.07.007. ISSN 0959-4388. PMID 15321069. S2CID 16560320.
  250. Yamins, Daniel L K; DiCarlo, James J (March 2016). Using goal-driven deep learning models to understand sensory cortex. Nature Neuroscience (англ.). 19 (3): 356—365. doi:10.1038/nn.4244. ISSN 1546-1726. PMID 26906502. S2CID 16970545.
  251. Zorzi, Marco; Testolin, Alberto (19 лютого 2018). An emergentist perspective on the origin of number sense. Phil. Trans. R. Soc. B (англ.). 373 (1740): 20170043. doi:10.1098/rstb.2017.0043. ISSN 0962-8436. PMC 5784047. PMID 29292348. S2CID 39281431.
  252. Güçlü, Umut; van Gerven, Marcel A. J. (8 липня 2015). Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream. Journal of Neuroscience (англ.). 35 (27): 10005—10014. arXiv:1411.6422. doi:10.1523/jneurosci.5023-14.2015. PMC 6605414. PMID 26157000.
  253. Metz, C. (12 грудня 2013). Facebook's 'Deep Learning' Guru Reveals the Future of AI. Wired (англ.). Архів оригіналу за 28 березня 2014. Процитовано 26 серпня 2017.
  254. Gibney, Elizabeth (2016). Google AI algorithm masters ancient game of Go. Nature (англ.). 529 (7587): 445—446. Bibcode:2016Natur.529..445G. doi:10.1038/529445a. PMID 26819021. S2CID 4460235.
  255. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 січня 2016). Mastering the game of Go with deep neural networks and tree search. Nature (англ.). 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 0028-0836. PMID 26819042. S2CID 515925.публікація із закритим доступом — за платною стіною
  256. A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review. MIT Technology Review (англ.). Архів оригіналу за 1 лютого 2016. Процитовано 30 січня 2016.
  257. Metz, Cade (6 листопада 2017). A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up. The New York Times (англ.). Архів оригіналу за 7 липня 2019. Процитовано 5 липня 2019.
  258. Bradley Knox, W.; Stone, Peter (2008). TAMER: Training an Agent Manually via Evaluative Reinforcement. 2008 7th IEEE International Conference on Development and Learning (англ.). с. 292—297. doi:10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID 5613334.
  259. Talk to the Algorithms: AI Becomes a Faster Learner. governmentciomedia.com (англ.). 16 травня 2018. Архів оригіналу за 28 серпня 2018. Процитовано 29 серпня 2018.
  260. Marcus, Gary (14 січня 2018). In defense of skepticism about deep learning. Gary Marcus (англ.). Архів оригіналу за 12 жовтня 2018. Процитовано 11 жовтня 2018.
  261. Knight, Will (14 March 2017). DARPA is funding projects that will try to open up AI's black boxes. MIT Technology Review (англ.). Архів оригіналу за 4 November 2019. Процитовано 2 November 2017.
  262. Marcus, Gary (25 листопада 2012). Is "Deep Learning" a Revolution in Artificial Intelligence?. The New Yorker (англ.). Архів оригіналу за 27 листопада 2009. Процитовано 14 червня 2017.
  263. Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 червня 2015). Inceptionism: Going Deeper into Neural Networks (англ.). Google Research Blog. Архів оригіналу за 3 липня 2015. Процитовано 20 червня 2015.
  264. Alex Hern (18 червня 2015). Yes, androids do dream of electric sheep. The Guardian (англ.). Архів оригіналу за 19 червня 2015. Процитовано 20 червня 2015.
  265. а б в Goertzel, Ben (2015). Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms? (PDF) (англ.). Архів (PDF) оригіналу за 13 травня 2015. Процитовано 10 травня 2015.
  266. Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images (англ.). arXiv:1412.1897 [cs.CV].
  267. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). Intriguing properties of neural networks (англ.). arXiv:1312.6199 [cs.CV].
  268. Zhu, S.C.; Mumford, D. (2006). A stochastic grammar of images. Found. Trends Comput. Graph. Vis. (англ.). 2 (4): 259—362. CiteSeerX 10.1.1.681.2190. doi:10.1561/0600000018.
  269. Miller, G. A., and N. Chomsky. "Pattern conception". Paper for Conference on pattern detection, University of Michigan. 1957. (англ.)
  270. Eisner, Jason. Deep Learning of Recursive Structure: Grammar Induction (англ.). Архів оригіналу за 30 грудня 2017. Процитовано 10 травня 2015.
  271. Hackers Have Already Started to Weaponize Artificial Intelligence. Gizmodo (англ.). 11 вересня 2017. Архів оригіналу за 11 жовтня 2019. Процитовано 11 жовтня 2019.
  272. How hackers can force AI to make dumb mistakes. The Daily Dot (англ.). 18 червня 2018. Архів оригіналу за 11 жовтня 2019. Процитовано 11 жовтня 2019.
  273. а б в г д AI Is Easy to Fool—Why That Needs to Change. Singularity Hub (англ.). 10 жовтня 2017. Архів оригіналу за 11 жовтня 2017. Процитовано 11 жовтня 2017.
  274. Gibney, Elizabeth (2017). The scientist who spots fake videos. Nature (англ.). doi:10.1038/nature.2017.22784. Архів оригіналу за 10 жовтня 2017. Процитовано 11 жовтня 2017.
  275. Tubaro, Paola (2020). Whose intelligence is artificial intelligence?. Global Dialogue (англ.): 38—39.
  276. а б в г Mühlhoff, Rainer (6 листопада 2019). Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning. New Media & Society (англ.). 22 (10): 1868—1884. doi:10.1177/1461444819885334. ISSN 1461-4448. S2CID 209363848.
  277. Facebook Can Now Find Your Face, Even When It's Not Tagged. Wired (англ.). ISSN 1059-1028. Архів оригіналу за 10 серпня 2019. Процитовано 22 листопада 2019.

Література

Додаткова література

Книги

  • Ye, Jong Chul (2022). Geometry of deep learning: a signal processing perspective. Mathematics in industry (англ.). Singapore: Springer Nature. ISBN 978-981-16-6046-7.
  • Calin, Ovidiu L. (2020). Deep learning architectures: a mathematical approach. Springer series in the data sciences (англ.). Cham, Switzerland: Springer. ISBN 978-3-030-36721-3.
  • Kelleher, John D. (2019). Deep learning. The MIT press essential knowledge series (англ.). Cambridge, Massachusetts London: MIT Press. ISBN 978-0-262-53755-1.

Статті