Активациона функција
У вештачким неуронским мрежама, активациона функција чвора дефинише излаз тог чвора на основу улаза или скупа улаза. Стандардно коло компјутерског чипа може се гледати као дигитална мрежа активационих функција које могу имати вредност „укључено” (1) или „искључено” (0), у зависности од улаза. Ово је слично понашању линеарног перцептрона у неуронским мрежама. Међутим, само нелинеарне активационе функције дозвољавају таквим мрежама да израчунају нетривијалне проблеме користећи само мали број чворова.[1] У вештачким неуронским мрежама, ова функција се назива и функција преноса.
Функције
[уреди | уреди извор]У биолошки инспирисаним неуронским мрежама, активациона функција је обично апстракција која представља стопу акционог потенцијала који се појављује у ћелији. У својој најједноставнијој форми, ова функција је бинарна — тј. или се неурон активира или не. Функција изгледа као , гдје је Хевисајдова одскочна функција. У овом случају многи неурони се морају користити у рачунању изван линеарног раздвајања категорија.
Линија позитивног нагиба може се користити да би се одразило повећање стопе активирања која се јавља како се улазна струја повећава. Таква функција би била у форми , где је нагиб. Ова активациона функција је линеарна и стога има исте проблеме као и бинарна функција. Поред тога, мреже конструисане коришћењем овог модела имају нестабилну конвергенцију зато што неуронски улази по фаворизованим путевима имају тенденцију да се повећају без везивања, јер ова функција није нормализована.
Сви наведени проблеми могу се обрадити коришћењем нормализоване сигмоидне активационе функције. Један реалан модел остаје на нули све док не прими улазну струју. У том тренутку, стопа активације се прво брзо повећава, али се постепено приближава асимптоти са стопом од 100%. Математички, ово изгледа као , где се хипероболичка тангентна функција може заменити било којом сигмоидном функцијом. Ово понашање се реално рефлектује у неурону, јер неурони физички не могу да се активирају брже од одређене стопе. Међутим, овај модел се сусреће са проблемима у рачунарским мрежама, јер није диференцијабилан, што је захтев за израчунавање бекпропагације.
Коначни модел, који се користи у вишеслојним перцептронима, је сигмоидна активациона функција у облику хиперболичног тангенса. Обично се користе два облика ове функције: , чији је распон нормализован од -1 до 1 и , који је вертикално транслиран како би био нормализован од 0 до 1. Овај последњи модел често се сматра биолошки реалнијим, али има теоријске и експерименталне потешкоће са одређеним типовима рачунарских проблема.
Поређење активационих функција
[уреди | уреди извор]Активационе функције треба да имају нека пожељна својства, међу којима су:
- Нелинеарност — Када је активациона функција нелинеаерна, онда се може доказати да је двослојна неуронска мрежа универзални апроксиматор функције.[2]
- Интервал — Када је интервал активационе функције коначан, методе учења засноване на градијенту имају тенденцију да буду стабилније. Када је интервал бесконачан, учење је генерално ефикасније.
- Непрекидна диференцијабилност — Ово својство је пожељно (ReLU није непрекидно диференцијабилан и има неке проблеме са оптимизацијом заснованом на градијенту) за омогућавање метода оптимизације заснованих на градијенту. Активациона бинарна одскочна функција није диференцијабилна у нули, а извод јој је 0 за све остале вредности, тако да методе засноване на градијенту немају напретка са овом функцијом.[3]
- Монотоност — Када је активациона функција монотона, површина грешке која је повезана са једнослојним моделом гарантовано је конвексна.[4]
- Глатке функције са монотоним изводом — За ове функције показало се да у неким случајевима боље генерализују.
- Апроксимација идентитета приближно оригиналу — Када активационе функције имају ово својство, неуронска мрежа ће ефикасно учити када се њене тежине иницијализују на мале случајне вредности. Када активациона функција не апроксимира идентитет приближан оригиналу, приликом иницијализације тежина мора се обратити посебна пажња.[5] У табели испод, активацион ефункције где је и и где је непрекидно у 0, означене су да имају ово својство.
Следећа табела пореди својства неколико активационих функција:
Назив | Граф | Једначина | Извод (по x) | Интервал | Ред непрекидности | Монотона | Монотон извод | Апроксимира идентитет приближно оригиналу |
---|---|---|---|---|---|---|---|---|
Функција идентитета | Да | Да | Да | |||||
Бинарна одскочна функција | Да | Не | Не | |||||
Сигмоидна функција | [1] | Да | Не | Не | ||||
Хиперболички тангенс | Да | Не | Да | |||||
Инверзни тангенс | Да | Не | Да | |||||
Инверзни хиперболички синус | Да | Не | Да | |||||
ElliotSig[6][7][8] Softsign[9][10] | Да | Не | Да | |||||
ISRU[11] | Да | Не | Да | |||||
ISRLU[11] | Да | Да | Да | |||||
SQNL[8] | Да | Не | Да | |||||
ReLU[12] | Да | Да | Не | |||||
BReLU[13] | Да | Да | Не | |||||
Leaky ReLU[14] | Да | Да | Не | |||||
PReLU[15] | Да akko | Да | Да akko | |||||
RReLU[16] | [2] | Да | Да | Не | ||||
ELU[17] | Да akko | Да akko | Да akko | |||||
SELU[18] |
са и |
Да | Не | Не | ||||
SReLU[19] | су параметри. |
Не | Не | Не | ||||
APL[20] | [3] | Не | Не | Не | ||||
SoftPlus[21] | Да | Да | Не | |||||
Савијена функција идентиета | Да | Да | Да | |||||
SiLU[22] (SiL[23] или Swish-1[24]) | [4] | [5] | Не | Не | Апроксимира идентитет/2 | |||
Блага експоненцијална функција[25] | Да | Да | Да akko | |||||
Soft Clipping[26] | Да | Не | Не | |||||
Синусоида[27] | Не | Не | Да | |||||
Sinc | Не | Не | Не | |||||
Гаусова функција | Не | Не | Не |
- ^ Овде, H је Хевисајдова функција.
- ^ α је стохастичка променљива изведена из униформне расподеле времена учења и фиксирана је на очекивану вредност расподеле времена тестирања.
- ^ ^ ^ Овде, је логистичка функција.
Следећа табела садржи активационе функције које нису функције једног сложеног x из претходног слоја или слојева:
Назив | Једначина | Изводи | Интервал | Ред непрекидности |
---|---|---|---|---|
Softmax | for i = 1, …, J | [6] | ||
Maxout[28] |
Референце
[уреди | уреди извор]- ^ Hinkelmann, Knut. „Neural Networks,” (PDF). University of Applied Science Northwestern Switzerland. стр. 7. Архивирано из оригинала (PDF) 06. 10. 2018. г. Невалидан унос
|dead-url=dead
(помоћ) - ^ Mathematics of Control, Signals, and Systems: MCSS. (на језику: енглески). Springer International. 2006.
- ^ Snyman, Jan (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms (на језику: енглески). Springer Science & Business Media. ISBN 9780387243481.
- ^ Wu, Huaiqin (9. 9. 2009). „Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions”. Information Sciences. 179 (19): 3432—3441. ISSN 0020-0255. doi:10.1016/j.ins.2009.06.006.
- ^ Abbott, L. F.; Sussillo, David (19. 12. 2014). „Random Walk Initialization for Training Very Deep Feedforward Networks” (на језику: енглески).
- ^ Elliot, David L. (1993), „A better activation function for artificial neural networks”, ISR Technical Report TR 93-8, University of Maryland, College Park, MD 20742., CiteSeerX 10.1.1.46.7204
- ^ „elliotsig, Elliot symmetric sigmoid transfer function”, command introduced in Matlab R2012b, Matlab Documentation, MathWorks.
- ^ а б Wuraola, Adedamola; Patel, Nitish (2018), „SQNL:A New Computationally Efficient Activation Function”, 2018 International Joint Conference on Neural Networks (IJCNN), Rio Rio de Janeiro, Brazil: IEEE, стр. 1—7
- ^ Bergstra, James; Desjardins, Guillaume; Lamblin, Pascal; Bengio, Yoshua (2009). „Quadratic polynomials learn better image features". Technical Report 1337”. Département d’Informatique et de Recherche Opérationnelle, Université de Montréal. Архивирано из оригинала 25. 9. 2018. г.
- ^ Glorot, Xavier; Bengio, Yoshua (2010), „Understanding the difficulty of training deep feedforward neural networks” (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS'10), Society for Artificial Intelligence and Statistics, Архивирано из оригинала (PDF) 01. 04. 2017. г.
- ^ а б Carlile, Brad; Delamarter, Guy; Kinney, Paul; Marti, Akiko; Whitney, Brian (9. 11. 2017). „Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)”. arXiv:1710.09967 [cs.LG].
- ^ Nair, Vinod; Hinton, Geoffrey E. (2010), „Rectified Linear Units Improve Restricted Boltzmann Machines”, 27th International Conference on International Conference on Machine Learning, ICML'10, USA: Omnipress, стр. 807—814, ISBN 9781605589077
- ^ Eidnes, Lars; Nøkland, Arild (2018). „Shifting Mean Activation Towards Zero with Bipolar Activation Functions”. International Conference on Learning Representations (ICLR) Workshop. arXiv:1709.04054 .
- ^ Maas, Andrew L.; Hannun, Awni Y.; Ng, Andrew Y. (јун 2013). „Rectifier nonlinearities improve neural network acoustic models” (PDF). Proc. ICML. 30 (1). Архивирано из оригинала (PDF) 03. 01. 2017. г. Приступљено 2. 1. 2017.
- ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6. 2. 2015). „Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”. arXiv:1502.01852 [cs.CV].
- ^ Xu, Bing; Wang, Naiyan; Chen, Tianqi; Li, Mu (4. 5. 2015). „Empirical Evaluation of Rectified Activations in Convolutional Network”. arXiv:1505.00853 [cs.LG].
- ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23. 11. 2015). „Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)”. arXiv:1511.07289 [cs.LG].
- ^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8. 6. 2017). „Self-Normalizing Neural Networks”. Advances in Neural Information Processing Systems. 30 (2017). Bibcode:2017arXiv170602515K. arXiv:1706.02515 .
- ^ Jin, Xiaojie; Xu, Chunyan; Feng, Jiashi; Wei, Yunchao; Xiong, Junjun; Yan, Shuicheng (22. 12. 2015). „Deep Learning with S-shaped Rectified Linear Activation Units”. arXiv:1512.07030 [cs.CV].
- ^ Agostinelli, Forest; Hoffman, Matthew; Sadowski, Peter; Baldi, Pierre (21. 12. 2014). „Learning Activation Functions to Improve Deep Neural Networks”. arXiv:1412.6830 [cs.NE].
- ^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). „Deep sparse rectifier neural networks” (PDF). International Conference on Artificial Intelligence and Statistics.
- ^ Hendrycks, Dan; Gimpel, Kevin (2016). „Gaussian Error Linear Units (GELUs)”. arXiv:1606.08415 [cs.LG].
- ^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017). „Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning”. arXiv:1702.03118 [cs.LG].
- ^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). „Searching for Activation Functions”. arXiv:1710.05941 [cs.NE].
- ^ Godfrey, Luke B.; Gashler, Michael S. (3. 2. 2016). „A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks”. 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management: KDIR. 1602: 481—486. Bibcode:2016arXiv160201321G. arXiv:1602.01321 .
- ^ Klimek, Matthew D.; Perelstein, Maxim (26. 10. 2018). „Neural Network-Based Approach to Phase Space Integration”. arXiv:1810.11509 [hep-ph].
- ^ Gashler, Michael S.; Ashmore, Stephen C. (9. 5. 2014). „Training Deep Fourier Neural Networks To Fit Time-Series Data”. arXiv:1405.2262 [cs.NE].
- ^ Goodfellow, Ian J.; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). „Maxout Networks”. JMLR Workshop and Conference Proceedings. 28 (3): 1319—1327. Bibcode:2013arXiv1302.4389G. arXiv:1302.4389 .