Завісні втрати

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
Графік завісних втрат (синій, вимірюється вертикально) проти 0-1 втрат (вимірюється вертикально; не правильна класифікація позначена зеленим: y < 0) для t = 1 та змінна y (вимірюється горизонтально). Бачимо, що завісні втрати штрафують передбачення y < 1, відповідно до розділення в опорній веторній машині.

Завісні втрати (англ. hinge loss) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів.[1] Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу t = ±1 та оцінки класифікатора y, завісна втрата передбачення y визначається як

Варто зауважити, що тут y є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ , де є параметрами гіперплощини та  — точка, яку потрібно класифікувати.

Зрозуміло, що коли t та y мають однаковий знак (що означає, що y вказує на правильний клас) та , тоді завісні втрати , а коли вони мають різні знаки, то зростає лінійно від y (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж функція нуль-один.

Узагальнення

Хоч є поширеною практикою узагальнення бінарних ОВМ на багатокласову[en] ОВМ у режимі один з усіх або один в один,[2] також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат.[3] Наприклад, Крамер та Сінгер[4] дали таке визначення у випадку лінійного класифікатора:[5]

Тут  — мітка цілі, та  — параметри моделі.

Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:[6][3]

При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. Структурова опорно-векторна машина[en] з масштабуванням розділення використовує наступний варіант, де w позначає параметри ОВМ, y — передбачення ОВМ, φ додає функцію ознак та Δ є відстанню Геммінга:

Оптимізація

Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі w лінійної ОВМ з функцією оцінки , який буде

Креслення трьох варіантів завісних втрат як функції z = ty: «звичайний» варіант (синій), його квадрат (зелений), і кусково гладкий варіант Ренні та Сребро (червоний).

Однак, оскільки похідна завісних втрат при невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації[7]

або квадратично гладкий

запропонований Чангом.[8] Модифікований варіант втрат Губера[en] є спеціальним випадком цієї функції втрат з , зокрема, .

Примітки

  1. Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same? (PDF). Neural Computation. 16 (5): 1063—1076. doi:10.1162/089976604773135104. PMID 15070510.
  2. Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. Multiple Classifier Systems (PDF). LNCS. Т. 3541. с. 278—285. doi:10.1007/11494683_28. ISBN 978-3-540-26306-7.
  3. а б Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). A Unified View on Multi-class Support Vector Classification (PDF). J. Machine Learning Research. 17: 1—32.
  4. Crammer, Koby; Singer, Yoram (2001). On the algorithmic implementation of multiclass kernel-based vector machines (PDF). J. Machine Learning Research. 2: 265—292.
  5. Moore, Robert C.; DeNero, John (2011). L1 and L2 regularization for multiclass hinge loss models (PDF). Proc. Symp. on Machine Learning in Speech and Language Processing.
  6. Weston, Jason; Watkins, Chris (1999). Support Vector Machines for Multi-Class Pattern Recognition (PDF). European Symposium on Artificial Neural Networks.
  7. Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels (PDF). Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.
  8. Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms (PDF). ICML.