Функція втрат

У Вікіпедії є статті про інші значення цього терміна: Функція витрат.

В математичній оптимізації, статистиці, теорії рішень та машинному навчанні фу́нкція втрат (англ. loss function) або фу́нкція витра́т (англ. cost function) — це функція, яка відображує подію, або значення однієї чи декількох величин, на дійсне число, яке інтуїтивно представляє якісь «витрати», пов'язані з цією подією. Задача оптимізації намагається функцію втрат мінімізувати. Цільова́ фу́нкція (англ. objective function) є або функцією втрат, або протилежною їй (яку іноді називають функцією винагороди, функцією прибутку^[en], функцією корисності, функцією допасованості тощо), в разі чого вона підлягає максимізації.

У статистиці функція втрат, як правило, використовується для оцінювання параметрів, а подія, яка розглядається, є певною функцією відмінності між розрахунковими та істинними значеннями для зразка даних. Це поняття, старе як Лаплас, було повторно введено до статистики Абрахамом Валдом в середині XX століття.^[1] В контексті економіки, наприклад, воно зазвичай є економічною вартістю^[en] або смутком. У класифікації воно є штрафом за неправильну класифікацію прикладу. В актуарній науці воно використовується в контексті страхування для моделювання виплат над страховими преміями, особливо з часів праць Гаральда Крамера^[en] 1920-х років.^[2] В оптимальному керуванні втрати є штрафом за невдачу в досягненні бажаного значення. В управлінні фінансовими ризиками ця функція точно відображається на грошові втрати.

Використання в статистиці

Оцінювання параметрів для задач керованого навчання, таких як регресія або класифікація, може бути сформульовано як мінімізацію функції втрат над тренувальним набором. Метою оцінювання є знаходження функції, яка добре моделює свій вхід: при застосуванні її до тренувального набору вона повинна передбачати значення (або мітки класів), пов'язані зі зразками в цьому наборі. Функція втрат здійснює чисельну оцінку величини, на яку передбачення відхиляється від дійсних значень.

Визначення

Формально, ми починаємо з розгляду деякого сімейства розподілів для випадкової величини X, проіндексованого деякою θ.

Інтуїтивно, ми можемо розглядати X як наші «дані», можливо, $X=(X_{1},\ldots ,X_{n})$ , де $X_{i}\sim F_{\theta }$ є НОР. X є набором речей, про які правило вирішування^[en] ухвалюватиме рішення. Існує якесь число можливих шляхів $F_{\theta }$ моделювання наших даних X, які наша функція рішення може використовувати для ухвалення рішень. При скінченному числі моделей ми можемо розглядати θ як індекс у цьому сімействі ймовірнісних моделей. При нескінченному числі моделей вона є набором параметрів цього сімейства розподілів.

На практиці, важливо розуміти, що хоча й заманливо думати про функції втрат як про обов'язково параметричні (оскільки здається, що вони приймають θ як «параметр»), факт нескінченної вимірності θ цілком несумісний з цим записом; наприклад, якщо сімейство функцій імовірності є незліченно нескінченним, то θ індексує незліченно нескінченний простір.

Звідси, для заданої множини A можливих дій, пра́вило вирі́шування^[en] (англ. decision rule) є функцією δ : $\scriptstyle {\mathcal {X}}$ → A.

Фу́нкція втрат є дійснозначною обмеженою знизу функцією L на Θ × A для деякого θ ∈ Θ. Значення L(θ, δ(X)) є витратами на дію δ(X) за параметра θ.^[3]

Очікувані втрати

Значення функції втрат само по собі є випадковою величиною, оскільки воно залежить від виходу випадкової величини X. Як частотна, так і баєсова статистичні теорії включають здійснення рішень на основі математичного сподівання функції втрат: проте, ця величина за цих двох парадигм визначається по-різному.

Частотні очікувані втрати

Спочатку ми визначаємо очікувані втрати в частотному контексті. Вони отримуються взяттям математичного сподівання по відношенню до розподілу ймовірності P_θ спостережуваних даних X. Це також називають фу́нкцією ри́зику (англ. risk function)^[4]^[5]^[6]^[7] правила вирішування δ та параметру θ. Тут правило вирішування залежить від виходу X. Функція ризику задається як

R(\theta ,\delta )=\mathbb {E} _{\theta }L{\big (}\theta ,\delta (X){\big )}=\int _{X}L{\big (}\theta ,\delta (x){\big )}\,\operatorname {d} P_{\theta }(x).

Тут θ є фіксованим але можливо невідомим станом природи, X є вектором спостережень, які стохастично вибираються з генеральної сукупності, ${\mathbb {E} }_{\theta }$ є математичним сподіванням над всіма значеннями генеральної сукупності X, dP_θ є мірою ймовірності над простором подій X (параметризованою за θ), а інтеграл обчислюється над усім носієм^[en] X.

Баєсові очікувані втрати

У баєсовому підході це математичне сподівання обчислюється із застосуванням апостеріорного розподілу π^* параметра θ:

\rho (\pi ^{*},a)=\int _{\Theta }L(\theta ,a)\,\operatorname {d} \pi ^{*}(\theta )

.

Потім потрібно обрати дію a^*, яка мінімізує очікувані втрати. І хоча це й призведе в результаті до обрання тієї ж дії, яку було би обрано і з застосуванням частотного ризику, акцент баєсового підходу полягає в тому, що цікавить лише обрання оптимальної дії за фактичних спостережуваних даних, тоді як обрання фактичного частотного оптимального правила вирішування, яке є функцією від усіх можливих спостережень, є значно складнішою задачею.

Економічний вибір за непевності

В економіці ухвалення рішень за умов непевності часто моделюють із застосуванням функції корисності фон Неймана — Морґенштерна від непевної величини, яка становить інтерес, такої як багатство на кінець періоду. Оскільки значення цієї величини є непевним, таким є й значення функції корисності; це математичне сподівання корисності, яке максимізують.

Приклади

Для скалярного параметру θ, функції вирішування, чий вихід ${\hat {\theta }}$ є оцінкою θ, та квадратичної функції втрат

L(\theta ,{\hat {\theta }})=(\theta -{\hat {\theta }})^{2},

функція ризику стає середньоквадратичною похибкою цієї оцінки,

R(\theta ,{\hat {\theta }})=E_{\theta }(\theta -{\hat {\theta }})^{2}.

В оцінці густини невідомий параметр сам є густиною ймовірності. Як функцію втрат зазвичай обирають норму відповідного функційного простору. Наприклад, для норми L²

L(f,{\hat {f}})=\|f-{\hat {f}}\|_{2}^{2}\,,

функція ризику стає середнім накопиченим квадратом похибки^[en]

R(f,{\hat {f}})=E\|f-{\hat {f}}\|^{2}.\,

Правила вирішування

Правило вирішування здійснює вибір, використовуючи критерій оптимальності. Деякими часто використовуваними критеріями є:

Мініма́кс: Обирати правило вирішування з найнижчими найгіршими втратами — тобто, мінімізувати втрати в найгіршому випадку (максимально можливі):

{\underset {\delta }{\operatorname {arg\,min} }}\ \max _{\theta \in \Theta }\ R(\theta ,\delta ).

Інваріа́нтність^[en]: Обирати оптимальне правило вирішування, яке задовольняє вимогу інваріантності.
Обирати правило вирішування з найнижчими усередненими втратами (тобто, максимізувати математичне сподівання функції втрат):

{\underset {\delta }{\operatorname {arg\,min} }}\ \mathbb {E} _{\theta \in \Theta }[R(\theta ,\delta )]={\underset {\delta }{\operatorname {arg\,min} }}\ \int _{\theta \in \Theta }R(\theta ,\delta )\,p(\theta )\,d\theta .

Вибір функції втрат

Правильна статистична практика вимагає вибирання оцінки відповідно до фактичної прийнятної дисперсії, напрактикованої в контексті конкретної прикладної задачі. Таким чином, в прикладному застосуванні функцій втрат вибирання того, який статистичний метод використовувати для моделювання прикладної задачі, залежить від знання втрат, з якими доведеться стикнутися в разі помилки за конкретних обставин задачі.^[8]

Типовий приклад стосується оцінювання «положення». За типових статистичних припущень середнє або усереднене значення — це статистика для оцінювання положення, яка мінімізує очікувані втрати, що виникають за функції втрат квадратичної похибки, тоді як медіана є оцінювачем, який мінімізує очікувані втрати за функції втрат абсолютної різниці. Проте за інших, менш поширених обставин оптимальними будуть інші оцінювачі.

В економіці, коли агент є байдужим до ризику^[en], цільова функція виражається просто в грошовому вираженні, такому як прибуток, дохід або багатство на кінець періоду.

Але для агентів з неприйняттям ризику^[en] (або з любов'ю до ризику^[en]) втрати вимірюються як від'ємна функція корисності, яка представляє задоволення, і зазвичай інтерпретується радше в порядкових, ніж у кількісних^[en] (абсолютних) термінах.

Можливі й інші міри витрат, наприклад, смертність або Захворюваність в галузі соціальної медицини або техніки безпеки.

Для більшості алгоритмів оптимізації бажано мати таку функцію втрат, яка є всюди неперервною та диференційовною.

Двома дуже часто застосовуваними функціями втрат є квадратичні втрати $L(a)=a^{2}$ та абсолютні втрати $L(a)=|a|$ . Проте абсолютні втрати мають той недолік, що вони не диференційовні в $a=0$ . Квадратичні ж втрати мають той недолік, що в них є схильність віддавати перевагу викидам — при підсумовуванні над множиною $a$ (як у $\sum _{i=1}^{n}L(a_{i})$ ) остаточна сума схильна бути радше результатом декількох особливо великих значень $a$ , аніж вираженням усередненого значення $a$ .

Вибір функції втрат не є довільним. Він має дуже обмежувальний характер, а іноді функції втрат можуть зображуватися їхніми бажаними властивостями.^[9] Серед принципів вибору є, наприклад, вимога повноти класу симетричних статистик у випадку НОР спостережень, принцип повної інформації та деякі інші.

Функції втрат у баєсовій статистиці

Одним із наслідків баєсового висновування є те, що, на додачу до експериментальних даних, функція втрат сама по собі не визначає рішення повністю. Що важливе, так це взаємозв'язок між функцією втрат та апостеріорною ймовірністю. Тому можливо мати дві різні функції втрат, які ведуть до одного й того ж рішення, коли апріорні розподіли ймовірності, пов'язані з кожною, компенсують тонкощі кожної з функцій втрат.^{[джерело?]}

Поєднання трьох елементів апріорної ймовірності, даних та функції втрат відтак уможливлює рішення на основі макзимізації суб'єктивної очікуваної корисності, поняття, введеного Леонардом Севіджем.^{[джерело?]}

Смуток

Докладніше: Смуток (теорія рішень)

Севідж також стверджував, що при застосуванні небаєсових методів, таких як мінімакс, функція втрат повинна ґрунтуватися на ідеї смутку (англ. regret), тобто, втрати, пов'язані з рішенням, повинні бути різницею між наслідками найкращого рішення, яке могло би бути зроблено, якби обставини для його обґрунтування були відомими, та рішення, яке в дійсності було зроблено, перш ніж вони стали відомими.

Квадратична функція втрат

Застосування квадратичної функції втрат є поширеним, наприклад, при застосуванні методів найменших квадратів. Вона часто краще піддається математичній обробці, ніж інші функції втрат, завдяки властивостям дисперсій, а також завдяки своїй симетричності: похибка перевищення цілі спричиняє такі ж втрати, як і похибка такої ж величини недотягування до цілі. Якщо ціллю є t, то квадратичною функцією втрат є

\lambda (x)=C(t-x)^{2}\;

для деякої сталої C; значення цієї сталої не впливає на рішення, і може бути знехтуване встановленням його в 1.

Багато поширених статистик, включно з t-критеріями, регресійними моделями, плануваннями експериментів та багатьма іншими, використовують методи найменших квадратів при застосуванні теорії лінійної регресії, яка ґрунтується на квадратичній функції втрат.

Квадратична функція втрат також використовується в лінійно-квадратичних задачах оптимального керування^[en]. В цих задачах, навіть за відсутності непевності, може бути неможливо досягти бажаних значень всіх цільових величин. Втрати часто виражають як квадратичну форму у відхиленнях величин, які цікавлять, від їхніх бажаних значень; цей підхід є піддатливим, оскільки він дає в результаті лінійні умови першого порядку^[en]. В контексті стохастичного керування^[en] застосовується математичне сподівання квадратичної форми.