Випрямляч (нейронні мережі)

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Графіки випрямляча (синій) та softplus (зелений) передавальних функцій в околі x = 0

Випрямляч (англ. rectifier або rectified linear unit, ReLU[1]) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:

,

де x вхідне значення нейрона. Вона є аналогом напівперіодичного випрямляча у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (англ. Hahnloser) та іншими у 2000 році[2] з біологічним підґрунтям та математичним обґрунтуванням.[3] В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибинних мереж,[4] на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними[5] ніж гіперболічний тангенс. Випрямляч є, станом на 2018, найбільш популярною передавальною функцією для for глибинних нейронних мереж.[6][7]

Гладке наближення випрямляча є гладкою функцією

яка називається softplus функцією.[8] Похідною softplus є , тобто логістична функція.

Випрямляч часто використовується при глибинному навчанні в задачах комп'ютерного зору[4] та розпізнавання мовлення[9][10].

Варіації[ред. | ред. код]

ReLU з шумом[ред. | ред. код]

До випрямляча можна додати гаусів шум[en], що дає випрямляч ReLU з шумом[1]

, з

ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.[1]

Нещільна ReLU[ред. | ред. код]

Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.[10]

Параметрична ReLU розвиває цю ідею, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.[11]

Зауважте, що для , це еквівалентно

і тому таке відношення називають «максимальним виводом» (англ. maxout) мережі.[11]

ELU[ред. | ред. код]

Експоненціально-лінійний випрямляч робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.[12]

є гіперпараметром[en], який налаштовується і  — константа.

Переваги[ред. | ред. код]

  • Біологічна правдоподібність: Одностороння на відміну від центрально симетричного гіперболічного тангенса.
  • Розріджена активація: наприклад, у випадково ініціалізованій мережі, тільки близько 50 % прихованих елементів активуються (мають не нульове значення).
  • Краще градієнтне поширення: рідше виникає проблема зникання градієнту у порівнянні з сигмоїдальною передавальною функцією, яка може виникнути в обох напрямках.[13]
  • Швидкість обчислення: тільки порівняння, додавання та множення.
  • Інваріантність відносно масштабування: для .

Випрямляч було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (англ. Neural Abstraction Pyramid), яка була навчена з учителем, щоб вирішувати декілька завдань комп'ютерного зору.[14] У 2011,[4] випрямляч використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього навчання без учителя. Випрямляч, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.

Потенційні складнощі[ред. | ред. код]

  • Не регулярна у нулі: проте похідна існує в усіх інших точка, також можна на власний розсуд задати значення у нулі — 0 або 1.
  • Несиметрична
  • Необмежена
  • Наявність мертвих зон: може трапитись так, що нейрони будуть переведені у стан, в якому вони стануть неактивними для всіх вхідних значень. Для такого стану відсутнє зворотне поширення градієнту, яке проходить через нейрон і тому в такому стані нейроном потрапляє у незмінний стан і «вмирає». Це один з різновидів проблеми зникання градієнту. В деяких випадках велика кількість нейронів мережі може застигнути у мертвому стані, і справити ефект зменшення місткості моделі. Така проблема зазвичай виникає коли встановлено дуже велику швидкість навчання. Цей ефект можна послабити, якщо натомість використати Leaky ReLU.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б в Vinod Nair and Geoffrey Hinton (2010). Rectified Linear Units Improve Restricted Boltzmann Machines ICML. 
  2. R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas, H.S. Seung (2000). Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit. Nature 405: 947–951. 
  3. R Hahnloser, H.S. Seung (2001). Permitted and Forbidden Sets in Symmetric Threshold-Linear Networks NIPS 2001. 
  4. а б в Xavier Glorot, Antoine Bordes and Yoshua Bengio (2011). Deep sparse rectifier neural networks AISTATS. 
  5. Yann LeCun, Leon Bottou, Genevieve B. Orr and Klaus-Robert Müller (1998). «Efficient BackProp». У G. Orr and K. Müller. Neural Networks: Tricks of the Trade. Springer. http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf. 
  6. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature 521 (7553): 436–444. Bibcode:2015Natur.521..436L. PMID 26017442. doi:10.1038/nature14539. 
  7. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (October 16, 2017). «Searching for Activation Functions». arXiv:1710.05941 [cs.NE]. 
  8. C. Dugas, Y. Bengio, F. Bélisle, C. Nadeau, R. Garcia, NIPS'2000, (2001),Incorporating Second-Order Functional Knowledge for Better Option Pricing.
  9. László Tóth (2013). Phone Recognition with Deep Sparse Rectifier Neural Networks ICASSP. 
  10. а б Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Rectifier Nonlinearities Improve Neural Network Acoustic Models
  11. а б He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on Image Net Classification». arXiv:1502.01852 [cs.CV]. 
  12. Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). «Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)». arXiv:1511.07289 [cs.LG]. 
  13. Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011-06-14). Deep Sparse Rectifier Neural Networks. PMLR (en). 
  14. Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science 2766. Springer. doi:10.1007/b11963.