Магістралева мережа

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 05:37, 14 лютого 2022, створена TohaomgBot (обговорення | внесок) (Перекладено дати в примітках з англійської на українську)
Перейти до навігації Перейти до пошуку

У машиннім навчанні магістра́лева мере́жа (англ. highway network) — це один з підходів до оптимізування мереж та збільшення їхньої глибини. Магістралеві мережі використовують навчені вентильні механізми для регулювання інформаційного потоку, натхненного рекурентними нейронними мережами довгої короткочасної пам'яті (ДКЧП). Ці вентильні механізми дозволяють нейронним мережам мати шляхи для проходження інформації крізь різні шари («інформаційні магістралі», англ. "information highways").[1][2]

Магістралеві мережі використовують як частину задач маркування текстових послідовностей[en] та розпізнавання мовлення.[3][4]

Модель

Ця модель має два вентилі на додачу до вентилю H(WH, x): перетворювальний вентиль (англ. transform gate) T(WT, x) та вентиль перенесення (англ. carry gate) C(WC, x). Ці два останні вентилі є нелінійними передавальними функціями (умовно сигмоїдними функціями). Функція H(WH, x) може бути будь-якою бажаною передавальною функцією.

Вентиль перенесення визначають як C(WC, x) = 1 − T(WT, x). Тоді як перетворювальний вентиль — це просто вентиль із сигмоїдною передавальною функцією.

Структура

Структура прихованого шару відповідає рівнянню:


Перевага магістралевої мережі над звичайними глибинними нейронними мережами полягає в тому, що вона розв'язує або частково запобігає проблемі зникання градієнта, що призводить до спрощення оптимізування нейронних мереж.

Примітки

  1. Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 травня 2015). Highway Networks. arXiv:1505.00387 [cs.LG]. (англ.)
  2. Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). Training Very Deep Networks. Advances in Neural Information Processing Systems 28. Curran Associates, Inc.: 2377—2385. (англ.)
  3. Liu, Liyuan; Shang, Jingbo; Xu, Frank F.; Ren, Xiang; Gui, Huan; Peng, Jian; Han, Jiawei (12 вересня 2017). Empower Sequence Labeling with Task-Aware Neural Language Model. arXiv:1709.04109 [cs.CL]. (англ.)
  4. Kurata, Gakuto; Ramabhadran, Bhuvana; Saon, George; Sethy, Abhinav (19 вересня 2017). Language Modeling with Highway LSTM. arXiv:1709.06436 [cs.CL]. (англ.)