Завісні втрати

Перевірена версія цієї сторінки, затверджена 12 липня 2021, заснована на цій версії.

Завісні втрати (англ. hinge loss) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів.^[1] Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу $t = \pm1$ та оцінки класифікатора $y$ , завісна втрата передбачення $y$ визначається як

\ell (y)=\max(0,1-t\cdot y).

Варто зауважити, що тут $y$ є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ $y=\mathbf {w} \cdot \mathbf {x} +b$ , де $(\mathbf {w} ,b)$ є параметрами гіперплощини та $\mathbf {x}$ — точка, яку потрібно класифікувати.

Зрозуміло, що коли $t$ та $y$ мають однаковий знак (що означає, що $y$ вказує на правильний клас) та $|y|\geqslant 1$ , тоді завісні втрати $\ell (y)=0$ , а коли вони мають різні знаки, то $\ell (y)$ зростає лінійно від $y$ (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж функція нуль-один.

Узагальнення

Хоч є поширеною практикою узагальнення бінарних ОВМ на багатокласову^[en] ОВМ у режимі один з усіх або один в один,^[2] також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат.^[3] Наприклад, Крамер та Сінгер^[4] дали таке визначення у випадку лінійного класифікатора:^[5]

\ell (y)=\max(0,1+\max _{t\neq y}\mathbf {w} _{t}\mathbf {x} -\mathbf {w} _{y}\mathbf {x} ).

Тут $y$ — мітка цілі, $\mathbf {w} _{t}$ та $\mathbf {w} _{y}$ — параметри моделі.

Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:^[6]^[3]

\ell (y)=\sum _{t\neq y}\max(0,1+\mathbf {w} _{t}\mathbf {x} -\mathbf {w} _{y}\mathbf {x} ).

При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. Структурова опорно-векторна машина^[en] з масштабуванням розділення використовує наступний варіант, де $w$ позначає параметри ОВМ, $y$ — передбачення ОВМ, $φ$ додає функцію ознак та $Δ$ є відстанню Геммінга:

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max(0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle ).\end{aligned}}

Оптимізація

Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі $w$ лінійної ОВМ з функцією оцінки $y=\mathbf {w} \cdot \mathbf {x}$ , який буде

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1\\0&{\text{otherwise}}\end{cases}}

Однак, оскільки похідна завісних втрат при $ty=1$ невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації^[7]

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty\leq 1,\\0&{\text{if}}~~1\leq ty\end{cases}}

або квадратично гладкий

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma \\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

запропонований Чангом.^[8] Модифікований варіант втрат Губера^[en] $L$ є спеціальним випадком цієї функції втрат з $\gamma =2$ , зокрема, $L(t,y)=4\ell _{2}(y)$ .

Примітки

↑ Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same? (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510.
↑ Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. Multiple Classifier Systems (PDF). LNCS. Т. 3541. с. 278—285. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.
↑ ^а ^б Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). A Unified View on Multi-class Support Vector Classification (PDF). J. Machine Learning Research. 17: 1—32.
↑ Crammer, Koby; Singer, Yoram (2001). On the algorithmic implementation of multiclass kernel-based vector machines (PDF). J. Machine Learning Research. 2: 265—292.
↑ Moore, Robert C.; DeNero, John (2011). L₁ and L₂ regularization for multiclass hinge loss models (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.
↑ Weston, Jason; Watkins, Chris (1999). Support Vector Machines for Multi-Class Pattern Recognition (PDF). European Symposium on Artificial Neural Networks.
↑ Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.
↑ Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms (PDF). ICML.

[1] Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same? (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510.

[duan2005-2] Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. Multiple Classifier Systems (PDF). LNCS. Т. 3541. с. 278—285. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.

[unifiedview-3] а ^б Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). A Unified View on Multi-class Support Vector Classification (PDF). J. Machine Learning Research. 17: 1—32.

[4] Crammer, Koby; Singer, Yoram (2001). On the algorithmic implementation of multiclass kernel-based vector machines (PDF). J. Machine Learning Research. 2: 265—292.

[5] Moore, Robert C.; DeNero, John (2011). L₁ and L₂ regularization for multiclass hinge loss models (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.

[6] Weston, Jason; Watkins, Chris (1999). Support Vector Machines for Multi-Class Pattern Recognition (PDF). European Symposium on Artificial Neural Networks.

[7] Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.

[zhang-8] Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms (PDF). ICML.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Завісні втрати

Узагальнення

Оптимізація

Примітки

Навігаційне меню

Пошук