Swish функція

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Swish функція це математична функція, що описується виразом:

[1][2]

де β є константою або параметром, який залежить від типу моделі.

Похідна функції .

Застосування[ред. | ред. код]

Застосовується в якості функції активації штучного нейрона. У 2017 році, провівши аналіз даних ImageNet, дослідники з Google стверджували, що використання функції swish як функції активації в штучних нейронних мережах покращує продуктивність порівняно з функціями ReLU та сигмоподібної форми[1][2]. Вважається, що однією з причин покращення є те, що функція swish допомагає полегшити проблему зникаючого градієнта під час зворотного поширення[3].

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (16 жовтня 2017). Swish: A Self-Gated Activation Function (PDF). v1. Google Brain. arXiv:1710.05941v1. Архів (PDF) оригіналу за 18 червня 2020. Процитовано 18 червня 2020.
  2. а б Ramachandran, Prajit; Zoph, Barret; Le, Quoc V. (27 жовтня 2017). Searching for Activation Functions (PDF). v2. Google Brain. arXiv:1710.05941v2. Архів (PDF) оригіналу за 18 червня 2020. Процитовано 18 червня 2020.
  3. Serengil, Sefik Ilkin (21 серпня 2018). Swish as Neural Networks Activation Function. Machine Learning, Math. Архів оригіналу за 18 червня 2020. Процитовано 18 червня 2020.