Передавальна функція штучного нейрона

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Функція активації, або передавальна функція (англ. activation function[1][2][3][4][5], також excitation function, squashing function, transfer function[6]) штучного нейрона — залежність вихідного сигналу штучного нейрона від вхідного.

Зазвичай передавальна функція відображає дійсні числа на інтервал або [1].

Більшість видів нейронних мереж для функції активації використовують сигмоїди[2]. ADALINE і самоорганізаційні карти використовують лінійні функції активації, а радіально базисні мережі використовують радіальні базисні функції[1].

Математично доведено, що тришаровий перцептрон з використанням сигмоїдної функції активації може апроксимувати будь-яку неперервну функцію з довільною точністю (Теорема Цибенко)[1].

Метод зворотного поширення помилки вимагає, щоб функція активації була неперервною, нелінійною, монотонно зростаючою, і диференційовною[1].

В задачі багатокласової[en] класифікації нейрони останнього шару зазвичай використовують softmax як функцію активації[3].

Порівняння передавальних функцій[ред. | ред. код]

Деякі бажані властивості передавальної функції включають:

  • Нелінійна — коли передавальна функція нелінійна, то, як доведено, двошарова нейронна мережа є універсальною апроксимацією функцій.[7] Тотожна передавальна функція не має такої властивості. Коли декілька шарів використовують тотожну передавальну функцію, тоді вся мережа еквівалентна одношаровій моделі.
  • Неперервна диференційовність — ця властивість бажана property is desirable (RELU не є неперервно диференційовною і має неоднозначне рішення для оптимізації заснованій на градієнті) для використання методів оптимізації заснованих на градієнті. Передавальна функція двійковий крок не диференційовна у 0, але диференційовна в усіх інших значення, що є проблемою для методів заснованих на градієнті.[8]
  • Область визначення.
  • Монотонність.
  • Гладка функція з монотонною похідною.
  • Наближення до тотожної функції в початку координат.

У наступній таблиці порівнюються деякі передавальні функції від однієї змінної x з попереднього шару:

Назва Графік Рівняння Похідна (по x) Область Порядок гладкості Монотонність Монотонність похідної Наближення до Тотожної функції в початку координат
Тотожна Activation identity.svg Так Так Так
Двійковий крок Activation binary step.svg Так Ні Ні
Логістична (a.k.a. Сігмоїда або М'який крок) Activation logistic.svg [1] Так Ні Ні
TanH Activation tanh.svg Так Ні Так
ArcTan Activation arctan.svg Так Ні Так
Softsign[9][10] Activation softsign.png Так Ні Так
Inverse square root unit (ISRU)[11] Так Ні Так
Випрямлена лінійна (Rectified linear unit, ReLU)[12] Activation rectified linear.svg Так Так Ні
Leaky rectified linear unit (Leaky ReLU)[13] Activation prelu.svg Так Так Ні
Parameteric rectified linear unit (PReLU)[14] Activation prelu.svg [2] Так Так Так
Randomized leaky rectified linear unit (RReLU)[15] Activation prelu.svg [3] Так Так Ні
Exponential linear unit (ELU)[16] Activation elu.svg Так Так Так
Scaled exponential linear unit (SELU)[17]

з та

Так Ні Ні
S-shaped rectified linear activation unit (SReLU)[18]
are parameters.
Ні Ні Ні
Inverse square root linear unit (ISRLU)[11] Так Так Так
Adaptive piecewise linear (APL)[19] [4] Ні Ні Ні
SoftPlus[20] Activation softplus.svg Так Так Ні
Bent identity Activation bent identity.svg Так Так Так
Sigmoid-weighted linear unit (SiLU)[21] (a.k.a. Swish[22]) [5] [6] Ні Ні Ні
SoftExponential[23] Activation soft exponential.svg Так Так Так
Синусоїда[24] Activation sinusoid.svg Ні Ні Так
Sinc Activation sinc.svg Ні Ні Ні
Гауссіан Activation gaussian.svg Ні Ні Ні
 Тут, H це функція Гевісайда.
 α є стохастичною змінною вибраною з нормального розподілу під час навчання і зафіксована як очікуване значення розподілу до часу тестування.
   Тут,  — логістична функція.
  виконується для всього інтервалу.

Наступна таблиця містить передавальні функції від декількох змінних:

Назва Рівняння Похідна(ні) Область Порядок гладкості
Softmax    for i = 1, …, J [7]
Maxout[25]

  Тут,  — символ Кронекера.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б в г д Ke-Lin Du, Swamy M. N. S., Neural Networks and Statistical Learning, Springer-Verlag London, 2014 DOI:10.1007/978-1-4471-5571-3
  2. а б James Keller, Derong Liu, and David Fogel: Fundamentals of computational intelligence: neural networks, fuzzy systems, and evolutionary computation: John Wiley and Sons, 2016, 378 pp, ISBN 978-1-110-21434-2
  3. а б Lionel Tarassenko, 2 - Mathematical background for neural computing, In Guide to Neural Computing Applications, Butterworth-Heinemann, New York, 1998, Pages 5-35, ISBN 9780340705896, http://doi.org/10.1016/B978-034070589-6/50002-6.
  4. Anthony, Martin (2001). 1. Artificial Neural Networks. с. 1–8. doi:10.1137/1.9780898718539. 
  5. Michael Nielsen. Neural Networks and Deep Learning.
  6. Stegemann, J. A.; N. R. Buenfeld (2014). A Glossary of Basic Neural Network Terminology for Regression Problems. Neural Computing & Applications 8 (4): 290–296. ISSN 0941-0643. doi:10.1007/s005210050034. 
  7. Cybenko, G.V. (2006). Approximation by Superpositions of a Sigmoidal function. У van Schuppen, Jan H. Mathematics of Control, Signals, and Systems. Springer International. с. 303–314. 
  8. Snyman, Jan (3 March 2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Science & Business Media. ISBN 978-0-387-24348-1. 
  9. Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). Quadratic polynomials learn better image features". Technical Report 1337. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. 
  10. Glorot, Xavier; Bengio, Yoshua (2010). Understanding the difficulty of training deep feedforward neural networks. International Conference on Artificial Intelligence and Statistics (AISTATS’10). Society for Artificial Intelligence and Statistics. 
  11. а б Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (2017-11-09). «Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)». arXiv:1710.09967 [cs.LG]. 
  12. Nair, Vinod; Hinton, Geoffrey E. (2010). Rectified Linear Units Improve Restricted Boltzmann Machines. 27th International Conference on International Conference on Machine Learning. ICML'10. USA: Omnipress. с. 807–814. ISBN 9781605589077. 
  13. Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (June 2013). Rectifier nonlinearities improve neural network acoustic models. Proc. ICML 30 (1). Процитовано 2 January 2017. 
  14. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-02-06). «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification». arXiv:1502.01852 [cs.CV]. 
  15. Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (2015-05-04). «Empirical Evaluation of Rectified Activations in Convolutional Network». arXiv:1505.00853 [cs.LG]. 
  16. Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015-11-23). «Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)». arXiv:1511.07289 [cs.LG]. 
  17. Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (2017-06-08). «Self-Normalizing Neural Networks». arXiv:1706.02515 [cs.LG]. 
  18. Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (2015-12-22). «Deep Learning with S-shaped Rectified Linear Activation Units». arXiv:1512.07030 [cs.CV]. 
  19. Forest Agostinelli; Matthew Hoffman; Peter Sadowski; Pierre Baldi (21 Dec 2014). «Learning Activation Functions to Improve Deep Neural Networks». arXiv:1412.6830 [cs.NE]. 
  20. Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). Deep sparse rectifier neural networks. International Conference on Artificial Intelligence and Statistics. 
  21. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning
  22. Searching for Activation Functions
  23. Godfrey, Luke B.; Gashler, Michael S. (2016-02-03). A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR 1602: 481–486. Bibcode:2016arXiv160201321G. arXiv:1602.01321. 
  24. Gashler, Michael S.; Ashmore, Stephen C. (2014-05-09). «Training Deep Fourier Neural Networks To Fit Time-Series Data». arXiv:1405.2262 [cs.NE]. 
  25. Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013-02-18). Maxout Networks. JMLR WCP 28 (3): 1319–1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389.