Користувач:Маркіян Сколоздра/пісочниця

Мережа на основі Радіально-базисної функції

У галузі математичного моделювання, мережа радіально-базисних функцій є штучною нейронною мережею, яка використовує радіальні базисні функції як функції активації. Вихід мережі є лінійною комбінацією радіальних базисних функцій входів і параметрів нейронів. Мережі на основі Радіально-базисних функцій мають безліч застосувань, у тому числі функції наближення, прогнозування часових рядів, класифікація і системи управління. Вони були вперше сформульовані Брумхедом і Лоу у їхній статті 1988 р.^[1]^[2]^[3]

Архітектура мережі[ред. | ред. код]

Мережа радіально-базисних функцій (RBF) має три рівні: вхідний; прихований, з нелінійною функцією активації RBF і рівень з лінійним виходом. Вхід може бути поданий вектором дійсних чисел $\mathbf {x} \in \mathbb {R} ^{n}$ . Виходом мережі, є скалярна функція вхідного вектора, $\varphi :\mathbb {R} ^{n}\to \mathbb {R}$ , і задається так:

\varphi (\mathbf {x} )=\sum _{i=1}^{N}a_{i}\rho (||\mathbf {x} -\mathbf {c} _{i}||)

де $N$ це кількість нейронів на прихованому рівні, $\mathbf {c} _{i}$ є центром вектору нейрона $i$ , та $a_{i}$ це вага нейрона $i$ у лінійному виході нейрону. Функція, яка залежать тільки від відстані до центру вектора є радіально симетричні щодо цього вектора, отже називається радіально-базисною функцією. В базовій формі всі входи підключені до кожного прихованого нейрона. Норма, як правило, береться з евклідової відстані (хоча відстань Махаланобіса мабуть в цілому краще працює) і радіально-базисну функцію зазвичай прийнято брати Гаусову

\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}=\exp \left[-\beta \left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert ^{2}\right]

.

Гаусові базисні функції є локальними для центрального вектора в такому значення, що

\lim _{||x||\to \infty }\rho (\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert )=0

тобто зміна параметрів одного нейрона має тільки невеликий вплив на вхідні значення, які знаходяться далеко від центру цього нейрона.

Параметри $a_{i}$ , $\mathbf {c} _{i}$ , і $\beta _{i}$ визначаються таким чином, що оптимізує схожість між $\varphi$ та даними.

Нормована[ред. | ред. код]

Нормована архітектура[ред. | ред. код]

На додаток до вищесказаної ненормованої архітектури, RBF мережі можуть бути нормовані. В даному випадку відображення наступне

\varphi (\mathbf {x} )\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\sum _{i=1}^{N}a_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}a_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

де

u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\frac {\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{j=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{j}\right\Vert {\big )}}}

відома як "нормована радіально-базисна функція"

Теоретична мотивація для нормування[ред. | ред. код]

Існує теоретичне обґрунтування для цієї архітектури у випадку стохастичного потоку даних. Припустимо, наближення стохастичного ядра для спільної щільності ймовірностей

P\left(\mathbf {x} \land y\right)={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,\sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}

де ваги $\mathbf {c} _{i}$ і $e_{i}$ є екземплярами з даних, які вимагають нормування ядра.

\int \rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}\,d^{n}\mathbf {x} =1

та

\int \sigma {\big (}\left\vert y-e_{i}\right\vert {\big )}\,dy=1

.

Щільність ймовірностей у вхідних і вихідних областях визначаємо

P\left(\mathbf {x} \right)=\int P\left(\mathbf {x} \land y\right)\,dy={1 \over N}\sum _{i=1}^{N}\,\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

і

Очікування y взяте з входу $\mathbf {x}$ є

\varphi \left(\mathbf {x} \right)\ {\stackrel {\mathrm {def} }{=}}\ E\left(y\mid \mathbf {x} \right)=\int y\,P\left(y\mid \mathbf {x} \right)dy

де

P\left(y\mid \mathbf {x} \right)

це умовна ймовірність y взятого з $\mathbf {x}$ . Умовна ймовірність пов'язана зі спільною ймовірністю через теорему Байеса

P\left(y\mid \mathbf {x} \right)={\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}

який дає

\varphi \left(\mathbf {x} \right)=\int y\,{\frac {P\left(\mathbf {x} \land y\right)}{P\left(\mathbf {x} \right)}}\,dy

.

А потім стає

\varphi \left(\mathbf {x} \right)={\frac {\sum _{i=1}^{N}e_{i}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}{\sum _{i=1}^{N}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}}}=\sum _{i=1}^{N}e_{i}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

коли проводяться обчислення.

Локальні лінійні моделі[ред. | ред. код]

Іноді зручно розширити архітектуру на місцеві лінійні моделі. У цьому випадку архітектура перетворюється у перший порядок

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

і

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{N}\left(a_{i}+\mathbf {b} _{i}\cdot \left(\mathbf {x} -\mathbf {c} _{i}\right)\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )}

in the unnormalized and normalized cases, respectively. Here $\mathbf {b} _{i}$ are weights to be determined. Higher order linear terms are also possible.

в ненормалізованих і нормованих випадках, відповідно. Тут $\mathbf {b} _{i}$ є вагами, що були визначені. Лінійні члени вищого порядку також можливі.

Цей результат може бути записаний

\varphi \left(\mathbf {x} \right)=\sum _{i=1}^{2N}\sum _{j=1}^{n}e_{ij}v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}

where

e_{ij}={\begin{cases}a_{i},&{\mbox{if }}i\in [1,N]\\b_{ij},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

and

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)\rho {\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

у ненормованому випадку та

v_{ij}{\big (}\mathbf {x} -\mathbf {c} _{i}{\big )}\ {\stackrel {\mathrm {def} }{=}}\ {\begin{cases}\delta _{ij}u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [1,N]\\\left(x_{ij}-c_{ij}\right)u{\big (}\left\Vert \mathbf {x} -\mathbf {c} _{i}\right\Vert {\big )},&{\mbox{if }}i\in [N+1,2N]\end{cases}}

в нормованому випадку.

Тут $\delta _{ij}$ є дельта функція Кронекера, описана як

\delta _{ij}={\begin{cases}1,&{\mbox{if }}i=j\\0,&{\mbox{if }}i\neq j\end{cases}}

.

Навчання[ред. | ред. код]

RBF мережі, навчаються за допомогою двох крокового алгоритму. На першому етапі, вибирають вектор значень центрів $\mathbf {c} _{i}$ функції RBF на прихованому рівні. Цей крок може бути виконаний кількома способами; центри можуть бути випадковою вибіркою з безлічі прикладів, або вони можуть бути визначені з використанням методу кластеризації k-середніх. Зверніть увагу, що цей крок є неконтрольованим навчанням. Третій крок зворотного поширення може бути виконаний, щоб точно налаштувати всі параметри RBF.^[3]

Другий крок сходиться до лінійної моделі з коефіцієнтами до виходів прихованого рівня по відношенню до будь-якої об'єктивної функції. Загальна цільова функція, принаймні, для оцінки регресії / функції, є найменша функція квадратів:

K(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ \sum _{t=1}^{\infty }K_{t}(\mathbf {w} )

де

K_{t}(\mathbf {w} )\ {\stackrel {\mathrm {def} }{=}}\ {\big [}y(t)-\varphi {\big (}\mathbf {x} (t),\mathbf {w} {\big )}{\big ]}^{2}

.

Ми явно включаємо залежність від ваг. Мінімізація цільової функції найменших квадратів для оптимального вибору ваг оптимізує точність результату підгонки.

Приклад[ред. | ред. код]

Прогнозування часових рядів[ред. | ред. код]

Для прогнозування часового ряду можуть бути зроблені наступні ітерації:

\varphi (0)=x(1)

{x}(t)\approx \varphi (t-1)

{x}(t+1)\approx \varphi (t)=\varphi [\varphi (t-1)]

.

Порівняння фактичного і розрахункового часового ряду відображається на малюнку. За оцінками часовий ряд починається в нульовий момент часу з точним знанням х (0). Потім він використовує оцінку динаміки, щоб оновити оцінку часових рядів для декількох часових кроків.

Відзначимо, що оцінка є точною тільки протягом декількох часових кроків. Це загальна характеристика хаотичних часових рядів. Ця властивість чутливої залежності від початкових умов, загальних для хаотичного часового ряду. Невеликі початкові помилки посилюється з часом. Міра розбіжності часових рядів з майже ідентичними початковими умов відома як показник Ляпунова.

Дивіться також[ред. | ред. код]

Посилання на джерела[ред. | ред. код]

↑ Broomhead, D. S.; Lowe, David (1988). Radial basis functions, multi-variable functional interpolation and adaptive networks (Технічний звіт). № 4148. RSRE.
↑ Broomhead, D. S.; Lowe, David (1988). Multivariable functional interpolation and adaptive networks. Complex Systems. 2: 321—355.
↑ ^а ^б Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). Three learning phases for radial-basis-function networks. Neural Networks. 14: 439—458. doi:10.1016/s0893-6080(01)00027-2. CiteSeerX: 10.1.1.109.312.

J. Moody and C. J. Darken, "Fast learning in networks of locally tuned processing units," Neural Computation, 1, 281-294 (1989). Also see Radial basis function networks according to Moody and Darken
T. Poggio and F. Girosi, "Networks for approximation and learning," Proc. IEEE 78(9), 1484-1487 (1990).
Roger D. Jones, Y. C. Lee, C. W. Barnes, G. W. Flake, K. Lee, P. S. Lewis, and S. Qian, ?Function approximation and time series prediction with neural networks,? Proceedings of the International Joint Conference on Neural Networks, June 17–21, p. I-649 (1990).
Martin D. Buhmann (2003). Radial Basis Functions: Theory and Implementations. Cambridge University. ISBN 0-521-63338-9.
Yee, Paul V. and Haykin, Simon (2001). Regularized Radial Basis Function Networks: Theory and Applications. John Wiley. ISBN 0-471-35349-3.
John R. Davies, Stephen V. Coggeshall, Roger D. Jones, and Daniel Schutzer, "Intelligent Security Systems," in Freedman, Roy S., Flein, Robert A., and Lederman, Jess, Editors (1995). Artificial Intelligence in the Capital Markets. Chicago: Irwin. ISBN 1-55738-811-3.
Simon Haykin (1999). Neural Networks: A Comprehensive Foundation (вид. 2nd). Upper Saddle River, NJ: Prentice Hall. ISBN 0-13-908385-5.
S. Chen, C. F. N. Cowan, and P. M. Grant, "Orthogonal Least Squares Learning Algorithm for Radial Basis Function Networks", IEEE Transactions on Neural Networks, Vol 2, No 2 (Mar) 1991.

[1] Broomhead, D. S.; Lowe, David (1988). Radial basis functions, multi-variable functional interpolation and adaptive networks (Технічний звіт). № 4148. RSRE.

[2] Broomhead, D. S.; Lowe, David (1988). Multivariable functional interpolation and adaptive networks. Complex Systems. 2: 321—355.

[schwenker-3] а ^б Schwenker, Friedhelm; Kestler, Hans A.; Palm, Günther (2001). Three learning phases for radial-basis-function networks. Neural Networks. 14: 439—458. doi:10.1016/s0893-6080(01)00027-2. CiteSeerX: 10.1.1.109.312.

[1]

[2]

[3]

Користувач:Маркіян Сколоздра/пісочниця

Зміст