Глибоке навчання: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
→‎Інтерпретації: перекладено en:Deep learning#Interpretations: https://en.wikipedia.org/w/index.php?title=Deep_learning&oldid=694787281#Interpretations
→‎Історія: перекладено en:Deep learning#History: https://en.wikipedia.org/w/index.php?title=Deep_learning&oldid=694787281#History
Рядок 52: Рядок 52:


Ймовірнісна інтерпретація випливає з інтерпретації нелінійності активації як [[Кумулятивна функція розподілу ймовірностей|кумулятивної функції густини]].<ref name="MURPHY" /> В [[Імовірність|імовірнісній]] інтерпретації чільне місце посідає виведення.<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="MURPHY" /><ref name="SCHOLARDBNS" /> Див. {{нп|Глибинна мережа переконань|||Deep belief network}}. [[Імовірність|Імовірнісна]] інтерпретація привела до запровадження {{нп|Пропускання (нейронні мережі)|пропускання||Dropout (neural networks)}} ({{lang-en|dropout}}) в якості {{нп|Регуляризація (математика)|регуляризатора||Regularization (mathematics)}}.<ref name="DROPOUT">{{cite arXiv |last1=Hinton |first1=G. E. |last2=Srivastava| first2 =N.|last3=Krizhevsky| first3=A.| last4 =Sutskever| first4=I.| last5=Salakhutdinov| first5=R.R.|eprint=1207.0580 |class=math.LG |title=Improving neural networks by preventing co-adaptation of feature detectors |date=2012}} {{ref-en}}</ref>
Ймовірнісна інтерпретація випливає з інтерпретації нелінійності активації як [[Кумулятивна функція розподілу ймовірностей|кумулятивної функції густини]].<ref name="MURPHY" /> В [[Імовірність|імовірнісній]] інтерпретації чільне місце посідає виведення.<ref name="BOOK2014" /><ref name="BENGIODEEP" /><ref name="BENGIO2012" /><ref name="SCHIDHUB" /><ref name="MURPHY" /><ref name="SCHOLARDBNS" /> Див. {{нп|Глибинна мережа переконань|||Deep belief network}}. [[Імовірність|Імовірнісна]] інтерпретація привела до запровадження {{нп|Пропускання (нейронні мережі)|пропускання||Dropout (neural networks)}} ({{lang-en|dropout}}) в якості {{нп|Регуляризація (математика)|регуляризатора||Regularization (mathematics)}}.<ref name="DROPOUT">{{cite arXiv |last1=Hinton |first1=G. E. |last2=Srivastava| first2 =N.|last3=Krizhevsky| first3=A.| last4 =Sutskever| first4=I.| last5=Salakhutdinov| first5=R.R.|eprint=1207.0580 |class=math.LG |title=Improving neural networks by preventing co-adaptation of feature detectors |date=2012}} {{ref-en}}</ref>

== Історія ==

Архітектури глибинного навчання, зокрема побудовані зі [[Штучна нейронна мережа|штучних нейронних мереж]] (ШНМ), беруть свій початок щонайменше з [[Неокогнітрон]]у, запровадженого Куніхіко Фукусімою 1980 року.<ref name="FUKU1980">{{cite journal | last1 = Fukushima | first1 = K. | year = 1980 | title = Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position | url = | journal = Biol. Cybern. | volume = 36 | issue = | pages = 193–202 | doi=10.1007/bf00344251}} {{ref-en}}</ref> ШНМ самі по собі беруть свій початок ще раніше. Виклик полягав у тому, як тренувати мережі з декількома шарами. 1989 року {{нп|Яну ЛеКуну|||Yann LeCun}} та ін. вдалося застосувати до глибинної нейронної мережі стандартний алгоритм [[Метод зворотного поширення помилки|зворотного поширення]], що був відомим з 1974 року,<ref name="WERBOS1974">P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," ''PhD thesis, Harvard University'', 1974. {{ref-en}}</ref> з метою розпізнавання рукописних [[Поштовий індекс|поштових індексів]] на пошті. Незважаючи на успіх застосування алгоритму, тривалість тренування мережі на цьому наборі даних складала близько 3 днів, роблячи його практично недоцільним для загального використання.<ref name="LECUN1989">LeCun ''et al.'', "Backpropagation Applied to Handwritten Zip Code Recognition," ''Neural Computation'', 1, pp. 541–551, 1989. {{ref-en}}</ref> 1995 року {{нп|Брендан Фрей|||Brendan Frey}} натренував мережу, що складалася з шести прихованих шарів та кількох сотень прихованих блоків, застосовуючи {{нп|алгоритм неспання-сну|||Wake-sleep algorithm}}, який було винайдено {{нп|Пітер Даян|Пітером Даяном||Peter Dayan}} та {{нп|Джефрі Хінтон|Джефрі Хінтоном||Geoffrey Hinton}}.<ref>{{Cite journal|title = The wake-sleep algorithm for unsupervised neural networks|url = http://www.sciencemag.org/content/268/5214/1158|journal = Science|date = 1995-05-26|pages = 1158–1161|volume = 268|issue = 5214|doi = 10.1126/science.7761831|first = Geoffrey E.|last = Hinton|first2 = Peter|last2 = Dayan|first3 = Brendan J.|last3 = Frey|first4 = Radford|last4 = Neal}} {{ref-en}}</ref> Тим не менше, навчання зайняло два дні.

В низьку швидкість роблять свій внесок багато факторів, один з яких через так звану {{нп|Проблема градієнту, що зникає|проблему градієнту, що зникає||Vanishing gradient problem}}, проаналізовану 1991 року {{нп|Зепп Хохрайтер|Зеппом Хохрайтером||Sepp Hochreiter}}.<ref name="HOCH1991">S. Hochreiter., "[http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf Untersuchungen zu dynamischen neuronalen Netzen]," ''Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber'', 1991. {{ref-de}}</ref><ref name="HOCH2001">S. Hochreiter ''et al.'', "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," ''In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press'', 2001. {{ref-en}}</ref>

В той час як такі мережі по 1991 рік застосовувалися для розпізнавання окремих двовимірних рукописних цифр, розпізнавання тривимірних об'єктів до 1991 року використовувало підхід на основі тривимірних моделей&nbsp;— співставлення двовимірних зображень зі зробленими вручну тривимірними моделями об'єктів. Цзюян Вен та ін. висунули припущення, що людський мозок не використовує монолітні тривимірні моделі об'єктів, і 1992 року вони опублікували Кресцептрон ({{lang-en|Cresceptron}}),<ref name="Weng1992">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf Cresceptron: a self-organizing neural network which grows adaptively]," ''Proc. International Joint Conference on Neural Networks'', Baltimore, Maryland, vol
I, pp. 576-581, June, 1992. {{ref-en}}</ref><ref name="Weng1993">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf Learning recognition and segmentation of 3-D objects from 2-D images]," ''Proc. 4th International Conf. Computer Vision'', Berlin, Germany, pp. 121-128, May, 1993. {{ref-en}}</ref><ref name="Weng1997">J. Weng, N. Ahuja and T. S. Huang, "[http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf Learning recognition and segmentation using the Cresceptron]," ''International Journal of Computer Vision'', vol. 25, no. 2, pp. 105-139, Nov. 1997. {{ref-en}}</ref> метод виконання розпізнавання тривимірних об'єктів безпосередньо із загромаджених сцен. Кресцептрон є каскадом багатьох шарів, подібних до [[Неокогнітрон]]у. Але, на відміну від [[Неокогнітрон]]у, який вимагає ручного об'єднання особливостей програмістом, Кресцептрон повністю ''автоматично'' навчився відкритого ряду спонтанних особливостей на кожному рівні каскаду, де кожна особливість представляється ядром згортки. На додачу, Кресцептрон також сегментував кожен вивчений об'єкт із загромадженої сцени шляхом зворотного аналізу через мережу. Підвибірку ({{lang-en|max-pooling}}), що нині часто запозичується глибинними нейронними мережами (наприклад, перевірками ImageNet), було вперше застосовано в Кресцептроні для зменшення роздільної здатності положення на коефіцієнт (2×2) до 1 через каскад для кращого узагальнення. З причини великого браку розуміння того, як мозок автономно зв'язує свої біологічні мережі, та тодішніх обчислюваних витрат ШНМ, популярним вибором цієї галузі в 1990-х та 2000-х роках були простіші моделі, що використовують розроблені вручну особливості, орієнтовані на конкретні задачі, такі як [[фільтр Ґабора]] та [[Метод опорних векторів|методи опорних векторів]] ({{lang-en|support vector machines, SVM}}).

В довгій історії розпізнавання мовлення протягом багатьох років досліджувалися як поверхневі, так і глибині види (наприклад, рекурентні мережі) штучних нейронних мереж.<ref name="Morgan1993">Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI" {{ref-en}}</ref><ref name="Robinson1992">T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP. {{ref-en}}</ref><ref name="Waibel1989">Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing." {{ref-en}}</ref> Але ці методи ніколи не перемагали неоднорідну внутрішньо-ручну технологію {{нп|Сумішева модель|гаусових сумішевих моделей||Mixture model}}/[[Прихована марковська модель|прихованих марковських моделей]] (ГСМ-ПММ, {{lang-en|GMM-HMM}}), що ґрунтується на породжувальних моделях мовлення, навчених дискримінативно.<ref name="Baker2009">{{cite journal | last1 = Baker | first1 = J. | last2 = Deng | first2 = Li | last3 = Glass | first3 = Jim | last4 = Khudanpur | first4 = S. | last5 = Lee | first5 = C.-H. | last6 = Morgan | first6 = N. | last7 = O'Shaughnessy | first7 = D. | year = 2009 | title = Research Developments and Directions in Speech Recognition and Understanding, Part 1 | url = | journal = IEEE Signal Processing Magazine | volume = 26 | issue = 3| pages = 75–80 | doi=10.1109/msp.2009.932166}} {{ref-en}}</ref> Було методично проаналізовано ряд ключових труднощів, включно зі зменшенням градієнту та слабкою структурою часової кореляції в нейронних передбачувальних моделях.<ref name="Bengio1991">Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.{{ref-en}}</ref><ref name="Deng1994">{{cite journal | last1 = Deng | first1 = L. | last2 = Hassanein | first2 = K. | last3 = Elmasry | first3 = M. | year = 1994 | title = Analysis of correlation structure for a neural predictive model with applications to speech recognition | url = | journal = Neural Networks | volume = 7 | issue = 2| pages = 331–339 | doi=10.1016/0893-6080(94)90027-2}} {{ref-en}}</ref> Всі ці труднощі існували на додачу до браку великих навчальних даних та великих обчислювальних потужностей у ці ранні дні. Більшість дослідників розпізнавання мовлення, які розуміли такі перешкоди, отже, згодом відійшли від нейронних мереж, щоби займатися породжувальними підходами моделювання, до недавнього відродження глибинного навчання, що подолало всі ці труднощі. Хінтон та ін. і Ден та ін. зробили огляд цієї нещодавньої історії про те, як їхня співпраця між собою, а потім і з колегами між групами, запалила ренесанс нейронних мереж, та ініціювала дослідження глибинного навчання і його застосування в розпізнаванні мовлення.<ref name=HintonDengYu2012/><ref name="ReferenceICASSP2013">{{cite journal|last1=Deng|first1=L.|last2=Hinton|first2=G.|last3=Kingsbury|first3=B.|title=New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)| date=2013}} {{ref-en}}</ref><ref name="HintonKeynoteICASSP2013">Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton). {{ref-en}}</ref><ref name="interspeech2014Keynote">Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014. {{ref-en}}</ref>

Термін «глибинне навчання» набрав обертів у середині 2000-х років після публікації {{нп|Джефрі Хінтон|Джефрі Хінтона||Geoffrey Hinton}} та Руслана Салахутдінова, що показала, як багатошарову [[Нейронна мережа прямого поширення|нейронну мережу прямого поширення]] може бути попередньо натреновано шар за шаром, з розглядом кожного шару в свою чергу як [[Навчання без учителя|спонтанної]] {{нп|Обмежена машина Больцмана|обмеженої машини Больцмана||Restricted Boltzmann machine}}, а потім застосовано [[Навчання з учителем|кероване]] [[Метод зворотного поширення помилки|зворотне поширення]] для тонкого налаштування.<ref name="HINTON2007">G. E. Hinton., "Learning multiple layers of representation," ''Trends in Cognitive Sciences'', 11, pp. 428–434, 2007. {{ref-en}}</ref> 1992 року Шмідгубер вже реалізував дуже подібну ідею для загальнішого випадку спонтанних глибинних ієрархій [[Рекурентні нейронні мережі|рекурентних нейронних мереж]], і також експериментально показав її переваги для прискорення керованого навчання.<ref name="SCHMID1992">J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," ''Neural Computation'', 4, pp. 234–242, 1992. {{ref-en}}</ref><ref name="SCHMID1991">J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." {{ref-en}}</ref>

З відродженням глибинного навчання воно стало частиною багатьох передових систем у різних дисциплінах, зокрема таких як [[комп'ютерне бачення]] та [[автоматичне розпізнавання мовлення]] (АРМ, {{lang-en|automatic speech recognition, ASR}}). Результати на широко використовуваних оцінкових наборах, таких як {{нп|TIMIT}} (АРМ) та {{нп|База даних MNIST|MNIST||MNIST database}} ([[класифікація зображень]]), як і на ряді великих словникових задач розпізнавання мовлення, постійно покращуються новими застосуваннями глибинного навчання.<ref name=HintonDengYu2012/><ref>http://research.microsoft.com/apps/pubs/default.aspx?id=189004 {{ref-en}}</ref><ref name="MS2013">L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft, ICASSP, 2013. {{ref-en}}</ref> Наразі було показано, що архітектури глибинного навчання у вигляді {{нп|Згорткова нейронна мережа|згорткових нейронних мереж||Convolutional neural network}} були чи не найефективнішими;<ref name="CNNspeech2013">L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013. {{ref-en}}</ref><ref name="SAIN2013">T. Sainath ''et al.'', "Convolutional neural networks for LVCSR," ''ICASSP'', 2013. {{ref-en}}</ref> проте вони ширше застосовуються в комп'ютерному баченні, ніж в АРМ.

Реальний вплив глибинного навчання в промисловості почався у великомасштабному розпізнаванні мовлення близько 2010 року. Наприкінці 2009 року Джефа Хінтона було запрошено Лі Деном до праці з ним та колегами в [[Microsoft Research]] у Редмонді для застосування глибинного навчання до розпізнавання мовлення. Вони співорганізували 2009 року семінар NIPS на тему глибинного навчання для розпізнавання мовлення. Цей семінар спонукали обмеження глибинних породжувальних моделей мовлення, та можливість того, що ера великих обчислень та великих даних виправдовує серйозну спробу підходу глибинних нейронних мереж (ГНМ, {{lang-en|deep neural net, DNN}}). Тоді (неправильно) вважалося, що попереднє тренування ГНМ із застосуванням породжувальних моделей глибинних мереж переконань (ГМП, {{lang-en|deep belief net, DBN}}) стане ліками від головних труднощів нейронних мереж, з якими зіткнулися в 1990-х роках.<ref name="HintonKeynoteICASSP2013"/> Проте незабаром після початку дослідження в цьому напрямку в Microsoft Research було виявлено, що при застосуванні великих кількостей навчальних даних, і особливо коли ГНМ розроблено відповідно з великими, контекстно-залежними вихідними шарами, сталося різке скорочення помилок у тоді-передових ГСМ-ПММ та більш просунутих системах розпізнавання мовлення на базі породжувальних моделей без потреби в попередньому навчанні породжувальних ГМП, це відкриття було згодом перевірено кількома іншими головними групами дослідження розпізнавання мовлення.<ref name="HintonDengYu2012">{{cite journal | last1 = Hinton | first1 = G. | last2 = Deng | first2 = L. | last3 = Yu | first3 = D. | last4 = Dahl | first4 = G. | last5 = Mohamed | first5 = A. | last6 = Jaitly | first6 = N. | last7 = Senior | first7 = A. | last8 = Vanhoucke | first8 = V. | last9 = Nguyen | first9 = P. | last10 = Sainath | first10 = T. | last11 = Kingsbury | first11 = B. | year = 2012 | title = Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups | url = | journal = IEEE Signal Processing Magazine | volume = 29 | issue = 6| pages = 82–97 | doi=10.1109/msp.2012.2205597}} {{ref-en}}</ref><ref name="patent2011">D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing. {{ref-en}}</ref> Далі було встановлено, що природа помилок розпізнавання, продукованих цими двома типами систем, має характерні відмінності,<ref name="ReferenceICASSP2013"/><ref name="NIPS2009">NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu). {{ref-en}}</ref> що приносить технічне розуміння того, як вправно інтегрувати глибинне навчання до наявних високоефективних систем декодування мовлення в реальному часі, розгорнутих усіма головними гравцями в галузі розпізнавання мовлення. Історію цього знаменного розвитку в глибинному навчанні було описано та проаналізовано в нещодавніх книгах.<ref name=BOOK2014 /><ref name="ReferenceA">{{cite journal|last1=Yu|first1=D.|last2=Deng|first2=L.|title=Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)| date=2014}} {{ref-en}}</ref>

Досягнення в апаратному забезпеченні також стали важливим фактором, що стимулював поновлення зацікавлення глибинним навчанням. Зокрема, потужні [[Графічний процесор|графічні процесори]] ({{lang-en|GPU}}) вельми підходять для роду перемелювання чисел, матрично/векторної математики, що включає машинне навчання. Було показано, що графічні процесори прискорюють навчальні алгоритми на порядки, повертаючи тривалості виконання з тижнів назад до днів.<ref name="CIRESAN2010">D. C. Ciresan ''et al.'', "Deep Big Simple Neural Nets for Handwritten Digit Recognition," ''Neural Computation'', 22, pp. 3207–3220, 2010. {{ref-en}}</ref><ref name="RAINA2009">R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," ''Proc. 26th Int. Conf. on Machine Learning'', 2009. {{ref-en}}</ref>





Версія за 22:46, 14 грудня 2015

Глибинне навчання (глибинне машинне навчання, глибинне структурне навчання, ієрархічне навчання, англ. deep learning, deep machine learning, deep structured learning, hierarchical learning, або іноді DL) — це галузь машинного навчання, що ґрунтується на наборі алгоритмів, які намагаються моделювати високорівневі абстракції в даних, застосовуючи декілька обробних шарів зі складними структурами, або інакше є побудованими з кількох нелінійних перетворень.[1][2][3][4][5]

Глибинне навчання є частиною ширшого сімейства методів машинного навчання, що ґрунтуються на навчанні ознак даних. Спостереження (наприклад, зображення) може бути представлено багатьма способами, такими як вектор значень яскравості для пікселів, або абстрактнішим способом, як множина кромок, областей певної форми тощо. Деякі представлення роблять простішим навчання задачам (наприклад, розпізнаванню облич, або виразів облич[6]) з прикладів. Однією з обіцянок глибинного навчання є заміна ознак ручної роботи дієвими алгоритмами автоматичного або напівавтоматичного навчання ознак та ієрархічного виділяння ознак.[7]

Дослідження в цій області намагаються зробити кращі представлення та створити моделі для навчання цих представлень з великомасштабних немічених даних. Деякі з цих представлень було зроблено під натхненням досягнень в нейронауці та з мотивів схем обробки та передавання інформації в нервовій системі, таких як нервове кодування, що намагається визначити зв'язок між різноманітними стимулами та пов'язаними нейронними реакціями в мозку.[8]

Різні архітектури глибинного навчання, такі як глибинні нейронні мережі, згорткові глибинні нейронні мережі, глибинні мережі переконань та рекурентні нейронні мережі застосовувалися в таких областях, як комп'ютерне бачення, автоматичне розпізнавання мовлення, обробка природної мови, розпізнавання звуку та біоінформатика, де вони, як було показано, представляють передові результати в різноманітних задачах.

З іншого боку, глибинне навчання характеризувалося як модне слово, або ребрендинг нейронних мереж.[9][10]

Введення

Визначення

Є кілька способів, якими характеризувалася галузь глибинного навчання. Глибинне навчання є класом алгоритмів машинного навчання, які[1]:199–200

  • використовують каскад багатьох шарів блоків нелінійної обробки для виділяння ознак та перетворення. Кожен наступний шар використовує вихід із попереднього шару в якості входу. Алгоритми можуть бути з керованим або спонтанним навчанням, а застосування включають розпізнавання образів (спонтанне) та класифікацію (керовану).
  • ґрунтуються на навчанні (спонтанному) декількох шарів ознак або представлень даних. Ознаки вищих рівнів виводяться з ознак нижчих рівнів для формування ієрархічного представлення.
  • є частиною ширшої області машинного навчання з навчання представлень даних.
  • навчаються кільком рівням представлень, що відповідають різним рівням абстракції; ці рівні формують ієрархію понять.

Ці визначення мають спільними (1) декілька шарів блоків нелінійної обробки та (2) кероване або спонтанне навчання представлень ознак у кожному з шарів, з формуванням шарами ієрархії від низькорівневих до високорівневих ознак.[1]:200 Побудова шару блоків нелінійної обробки, що застосовується в алгоритмі глибинного навчання, залежить від розв'язуваної задачі. Шари, що застосовувалися в глибинному навчанні, включають приховані шари штучної нейронної мережі та набори складних висловлень.[2] Вони також можуть включати приховані змінні, організовані по шарах у глибинних породжувальних моделях, такі як вузли в глибинних мережах переконань та глибинних машинах Больцмана.

Алгоритми глибинного навчання протиставляються алгоритмам поверхневого навчання кількістю параметризованих перетворень, з якими стикається сигнал при його поширенні від вхідного шару до вихідного, де параметризоване перетворення є блоком обробки, що має параметри, які підлягають тренуванню, такі як вагові або порогові коефіцієнти.[4]:6 Ланцюг перетворень від входу до виходу є шляхом присвоювання коефіцієнтів довіри (англ. credit assignment path, CAP). CAP описують потенційно причинні зв'язки між входом та виходом, і можуть мати змінну довжину. Для нейронної мережі прямого поширення довжина шляхів присвоювання коефіцієнтів довіри, і відтак глибина цієї мережі, є числом прихованих шарів плюс один (вихідний шар також параметризовано). Для рекурентних нейронних мереж, в яких сигнал може поширюватися через якийсь шар більше одного разу, CAP має потенційно необмежену довжину. Універсально узгодженого порогу глибини, що відділяв би поверхневе навчання від глибинного, не існує, але більшість дослідників у цій галузі погоджуються, що глибинне навчання має декілька нелінійних шарів (CAP > 2), а Шмідгубер розглядає CAP > 10 як дуже глибинне навчання.[4]:7

Фундаментальні поняття

Алгоритми глибинного навчання ґрунтуються на розподілених представленнях. Припущенням, що лежить в основі розподілених представлень, є те, що спостережувані дані породжено взаємодією багатьох різних факторів на різних рівнях. Глибинне навчання додає припущення, що ці фактори організовано в численні рівні, відповідно до різних рівнів абстракції або побудови. Для забезпечення різних ступенів абстракції можуть застосовуватися змінні кількості та розміри рівнів.[3]

Глибинне навчання використовує цю ідею ієрархічних пояснювальних факторів, де навчання абстрактніших понять вищого рівня здійснюється з понять нижчого рівня. Ці архітектури часто будуються за допомогою порівневого жадібного методу. Глибинне навчання дозволяє розплутувати ці абстракції й вихоплювати ознаки, що є корисними для навчання.[3]

Для задач керованого навчання замість виділяння з даних ознак, розроблених вручну[en], методи глибинного навчання переводять дані у компактне проміжне представлення на кшталт головних компонент, і виводять шаруваті структури, що усувають надмірність у представленні.[1]

Багато алгоритмів глибинного навчання застосовуються в спонтанній постановці на немаркованих даних (що зазвичай є багатшими за марковані), роблячи це важливою перевагою цих алгоритмів. Глибинна мережа переконань є прикладом глибинної структури, що може тренуватися спонтанним чином.[3]

Інтерпретації

Глибинні нейронні мережі зазвичай інтерпретують у термінах теореми про універсальне наближення,[11][12][13][14][15] або ймовірнісного виведення.[1][2][3][4][16][17]

Інтерпретація теореми про універсальне наближення

Теорема про універсальне наближення стосується здатності нейронних мереж прямого поширення з єдиним прихованим шаром наближувати неперервні функції.[11][12][13][14][15]

Її перше доведення було опубліковано в 1989 році Джорджем Цибенком для сигмоїдних активаційних функцій[12], і було узагальнено для багатошарових архітектур прямого поширення в 1991 році Куртом Горником.[13]

Імовірнісна інтерпретація

Запроваджена та популяризована такими світилами, як Джеф Хінтон, Джошуа Бенджо[en], Ян ЛеКун та Юрген Шмідгубер, ймовірнісна інтерпретація[16] веде спадок від машинного навчання, і приділяє особливу увагу таким поняттям оптимізації (або навчання), як тренування та тестування. Ці два терміни (тренування/тестування) звертаються до таких понять оптимізації, як узгодження та узагальнення відповідно.

Ймовірнісна інтерпретація випливає з інтерпретації нелінійності активації як кумулятивної функції густини.[16] В імовірнісній інтерпретації чільне місце посідає виведення.[1][2][3][4][16][17] Див. Глибинна мережа переконань. Імовірнісна інтерпретація привела до запровадження пропускання[en] (англ. dropout) в якості регуляризатора.[18]

Історія

Архітектури глибинного навчання, зокрема побудовані зі штучних нейронних мереж (ШНМ), беруть свій початок щонайменше з Неокогнітрону, запровадженого Куніхіко Фукусімою 1980 року.[19] ШНМ самі по собі беруть свій початок ще раніше. Виклик полягав у тому, як тренувати мережі з декількома шарами. 1989 року Яну ЛеКуну[en] та ін. вдалося застосувати до глибинної нейронної мережі стандартний алгоритм зворотного поширення, що був відомим з 1974 року,[20] з метою розпізнавання рукописних поштових індексів на пошті. Незважаючи на успіх застосування алгоритму, тривалість тренування мережі на цьому наборі даних складала близько 3 днів, роблячи його практично недоцільним для загального використання.[21] 1995 року Брендан Фрей[en] натренував мережу, що складалася з шести прихованих шарів та кількох сотень прихованих блоків, застосовуючи алгоритм неспання-сну[en], який було винайдено Пітером Даяном[en] та Джефрі Хінтоном.[22] Тим не менше, навчання зайняло два дні.

В низьку швидкість роблять свій внесок багато факторів, один з яких через так звану проблему градієнту, що зникає[en], проаналізовану 1991 року Зеппом Хохрайтером[en].[23][24]

В той час як такі мережі по 1991 рік застосовувалися для розпізнавання окремих двовимірних рукописних цифр, розпізнавання тривимірних об'єктів до 1991 року використовувало підхід на основі тривимірних моделей — співставлення двовимірних зображень зі зробленими вручну тривимірними моделями об'єктів. Цзюян Вен та ін. висунули припущення, що людський мозок не використовує монолітні тривимірні моделі об'єктів, і 1992 року вони опублікували Кресцептрон (англ. Cresceptron),[25][26][27] метод виконання розпізнавання тривимірних об'єктів безпосередньо із загромаджених сцен. Кресцептрон є каскадом багатьох шарів, подібних до Неокогнітрону. Але, на відміну від Неокогнітрону, який вимагає ручного об'єднання особливостей програмістом, Кресцептрон повністю автоматично навчився відкритого ряду спонтанних особливостей на кожному рівні каскаду, де кожна особливість представляється ядром згортки. На додачу, Кресцептрон також сегментував кожен вивчений об'єкт із загромадженої сцени шляхом зворотного аналізу через мережу. Підвибірку (англ. max-pooling), що нині часто запозичується глибинними нейронними мережами (наприклад, перевірками ImageNet), було вперше застосовано в Кресцептроні для зменшення роздільної здатності положення на коефіцієнт (2×2) до 1 через каскад для кращого узагальнення. З причини великого браку розуміння того, як мозок автономно зв'язує свої біологічні мережі, та тодішніх обчислюваних витрат ШНМ, популярним вибором цієї галузі в 1990-х та 2000-х роках були простіші моделі, що використовують розроблені вручну особливості, орієнтовані на конкретні задачі, такі як фільтр Ґабора та методи опорних векторів (англ. support vector machines, SVM).

В довгій історії розпізнавання мовлення протягом багатьох років досліджувалися як поверхневі, так і глибині види (наприклад, рекурентні мережі) штучних нейронних мереж.[28][29][30] Але ці методи ніколи не перемагали неоднорідну внутрішньо-ручну технологію гаусових сумішевих моделей[en]/прихованих марковських моделей (ГСМ-ПММ, англ. GMM-HMM), що ґрунтується на породжувальних моделях мовлення, навчених дискримінативно.[31] Було методично проаналізовано ряд ключових труднощів, включно зі зменшенням градієнту та слабкою структурою часової кореляції в нейронних передбачувальних моделях.[32][33] Всі ці труднощі існували на додачу до браку великих навчальних даних та великих обчислювальних потужностей у ці ранні дні. Більшість дослідників розпізнавання мовлення, які розуміли такі перешкоди, отже, згодом відійшли від нейронних мереж, щоби займатися породжувальними підходами моделювання, до недавнього відродження глибинного навчання, що подолало всі ці труднощі. Хінтон та ін. і Ден та ін. зробили огляд цієї нещодавньої історії про те, як їхня співпраця між собою, а потім і з колегами між групами, запалила ренесанс нейронних мереж, та ініціювала дослідження глибинного навчання і його застосування в розпізнаванні мовлення.[34][35][36][37]

Термін «глибинне навчання» набрав обертів у середині 2000-х років після публікації Джефрі Хінтона та Руслана Салахутдінова, що показала, як багатошарову нейронну мережу прямого поширення може бути попередньо натреновано шар за шаром, з розглядом кожного шару в свою чергу як спонтанної обмеженої машини Больцмана, а потім застосовано кероване зворотне поширення для тонкого налаштування.[38] 1992 року Шмідгубер вже реалізував дуже подібну ідею для загальнішого випадку спонтанних глибинних ієрархій рекурентних нейронних мереж, і також експериментально показав її переваги для прискорення керованого навчання.[39][40]

З відродженням глибинного навчання воно стало частиною багатьох передових систем у різних дисциплінах, зокрема таких як комп'ютерне бачення та автоматичне розпізнавання мовлення (АРМ, англ. automatic speech recognition, ASR). Результати на широко використовуваних оцінкових наборах, таких як TIMIT[en] (АРМ) та MNIST (класифікація зображень), як і на ряді великих словникових задач розпізнавання мовлення, постійно покращуються новими застосуваннями глибинного навчання.[34][41][42] Наразі було показано, що архітектури глибинного навчання у вигляді згорткових нейронних мереж були чи не найефективнішими;[43][44] проте вони ширше застосовуються в комп'ютерному баченні, ніж в АРМ.

Реальний вплив глибинного навчання в промисловості почався у великомасштабному розпізнаванні мовлення близько 2010 року. Наприкінці 2009 року Джефа Хінтона було запрошено Лі Деном до праці з ним та колегами в Microsoft Research у Редмонді для застосування глибинного навчання до розпізнавання мовлення. Вони співорганізували 2009 року семінар NIPS на тему глибинного навчання для розпізнавання мовлення. Цей семінар спонукали обмеження глибинних породжувальних моделей мовлення, та можливість того, що ера великих обчислень та великих даних виправдовує серйозну спробу підходу глибинних нейронних мереж (ГНМ, англ. deep neural net, DNN). Тоді (неправильно) вважалося, що попереднє тренування ГНМ із застосуванням породжувальних моделей глибинних мереж переконань (ГМП, англ. deep belief net, DBN) стане ліками від головних труднощів нейронних мереж, з якими зіткнулися в 1990-х роках.[36] Проте незабаром після початку дослідження в цьому напрямку в Microsoft Research було виявлено, що при застосуванні великих кількостей навчальних даних, і особливо коли ГНМ розроблено відповідно з великими, контекстно-залежними вихідними шарами, сталося різке скорочення помилок у тоді-передових ГСМ-ПММ та більш просунутих системах розпізнавання мовлення на базі породжувальних моделей без потреби в попередньому навчанні породжувальних ГМП, це відкриття було згодом перевірено кількома іншими головними групами дослідження розпізнавання мовлення.[34][45] Далі було встановлено, що природа помилок розпізнавання, продукованих цими двома типами систем, має характерні відмінності,[35][46] що приносить технічне розуміння того, як вправно інтегрувати глибинне навчання до наявних високоефективних систем декодування мовлення в реальному часі, розгорнутих усіма головними гравцями в галузі розпізнавання мовлення. Історію цього знаменного розвитку в глибинному навчанні було описано та проаналізовано в нещодавніх книгах.[1][47]

Досягнення в апаратному забезпеченні також стали важливим фактором, що стимулював поновлення зацікавлення глибинним навчанням. Зокрема, потужні графічні процесори (англ. GPU) вельми підходять для роду перемелювання чисел, матрично/векторної математики, що включає машинне навчання. Було показано, що графічні процесори прискорюють навчальні алгоритми на порядки, повертаючи тривалості виконання з тижнів назад до днів.[48][49]


Див. також

Примітки

  1. а б в г д е ж Deng, L.; Yu, D. (2014). Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing. 7: 3—4. (англ.)
  2. а б в г Bengio, Yoshua (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. (англ.)
  3. а б в г д е Bengio, Y.; Courville, A.; Vincent, P. (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538. (англ.)
  4. а б в г д Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. (англ.)
  5. Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). Deep Learning. Nature. 521: 436—444. doi:10.1038/nature14539. (англ.)
  6. Glauner, P. (2015). Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). Imperial College London, Department of Computing. arXiv:1508.06535. (англ.)
  7. Song, H.A.; Lee, S. Y. (2013). Hierarchical Representation Using NMF. Neural Information Processing. Lectures Notes in Computer Sciences. Т. 8226. Springer Berlin Heidelberg. с. 466—473. doi:10.1007/978-3-642-42054-2_58. ISBN 978-3-642-42053-5. (англ.)
  8. Olshausen, B. A. (1996). Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature. 381 (6583): 607—609. (англ.)
  9. Collobert, R. (April 2011). Deep Learning for Efficient Discriminative Parsing. VideoLectures.net. Подія сталася на 7min 45s. (англ.)
  10. Gomes, L. (20 October 2014). Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts. IEEE Spectrum. (англ.)
  11. а б Balázs Csanád Csáji. Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary (англ.)
  12. а б в Cybenko., G. (1989) "Approximations by superpositions of sigmoidal functions", Mathematics of Control, Signals, and Systems[en], 2 (4), 303-314 (англ.)
  13. а б в Kurt Hornik (1991) "Approximation Capabilities of Multilayer Feedforward Networks", Neural Networks, 4(2), 251–257 (англ.)
  14. а б Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. ISBN 0-13-273350-1. (англ.)
  15. а б Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48 (англ.)
  16. а б в г Murphy, K.P. (2012) Machine learning: a probabilistic perspective MIT Press (англ.)
  17. а б Hinton, G.E. Deep belief networks. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
  18. Hinton, G. E.; Srivastava, N.; Krizhevsky, A.; Sutskever, I.; Salakhutdinov, R.R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv:1207.0580 [math.LG]. (англ.)
  19. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. 36: 193—202. doi:10.1007/bf00344251. (англ.)
  20. P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," PhD thesis, Harvard University, 1974. (англ.)
  21. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989. (англ.)
  22. Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 травня 1995). The wake-sleep algorithm for unsupervised neural networks. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831. (англ.)
  23. S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
  24. S. Hochreiter et al., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. (англ.)
  25. J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June, 1992. (англ.)
  26. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May, 1993. (англ.)
  27. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron," International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997. (англ.)
  28. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI" (англ.)
  29. T. Robinson. (1992) A real-time recurrent error propagation network word recognition system, ICASSP. (англ.)
  30. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing." (англ.)
  31. Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). Research Developments and Directions in Speech Recognition and Understanding, Part 1. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166. (англ.)
  32. Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.(англ.)
  33. Deng, L.; Hassanein, K.; Elmasry, M. (1994). Analysis of correlation structure for a neural predictive model with applications to speech recognition. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2. (англ.)
  34. а б в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597. (англ.)
  35. а б Deng, L.; Hinton, G.; Kingsbury, B. (2013). New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP). (англ.)
  36. а б Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton). (англ.)
  37. Keynote talk: "Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014. (англ.)
  38. G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11, pp. 428–434, 2007. (англ.)
  39. J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992. (англ.)
  40. J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." (англ.)
  41. http://research.microsoft.com/apps/pubs/default.aspx?id=189004 (англ.)
  42. L. Deng et al. Recent Advances in Deep Learning for Speech Research at Microsoft, ICASSP, 2013. (англ.)
  43. L. Deng, O. Abdel-Hamid, and D. Yu, A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion, ICASSP, 2013. (англ.)
  44. T. Sainath et al., "Convolutional neural networks for LVCSR," ICASSP, 2013. (англ.)
  45. D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing. (англ.)
  46. NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu). (англ.)
  47. Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer). (англ.)
  48. D. C. Ciresan et al., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," Neural Computation, 22, pp. 3207–3220, 2010. (англ.)
  49. R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," Proc. 26th Int. Conf. on Machine Learning, 2009. (англ.)