Компроміс зсуву та дисперсії

Функція та зашумлені дані.

розмах=5

розмах=1

розмах=0.1

Функцію (червону) наближують із застосуванням радіальних базисних функцій (синіх). На кожному графіку показано кілька спроб. Для кожної зі спроб як навчальний набір надається кілька із зашумлених точок даних (нагорі). Для широкого розмаху (мал. 2) зсув є сильним: РБФ не можуть повністю наближувати функцію (особливо у центральному заглибленні), але дисперсія між різними наближеннями є низькою. Зі зниженням розмаху (мал. 3 та 4) зсув зменшується: сині криві наближують червону щільніше. Проте, в залежності від шуму в різних спробах дисперсія між спробами зростає. У найнижчому зображенні наближені значення для x=0 різняться дико в залежності від того, де були розташовані точки даних.

У статистиці та машинному навчанні, компромі́с (або диле́ма) зсу́ву та диспе́рсії (англ. bias–variance tradeoff or dilemma) — це задача одночасної мінімізації двох джерел похибки, які перешкоджають алгоритмам керованого навчання робити узагальнення на основі їхніх тренувальних наборів:

Зсув (англ. bias) — це похибка, викликана помилковими припущеннями в алгоритмі навчання. Великий зсув може спричиняти нездатність алгоритму знаходити доречні взаємозв'язки між ознаками та цільовими виходами (недонавчання).
Дисперсія (англ. variance) — це похибка від чутливості до малих флуктуацій в тренувальному наборі. Висока дисперсія може спричиняти перенавчання: моделювання випадкового шуму^[en] в тренувальних даних замість моделювання бажаних виходів.

Ро́зклад на зсув та диспе́рсію (англ. bias–variance decomposition) — це спосіб аналізувати очікувану похибку узагальнення алгоритму навчання по відношенню до тієї чи іншої задачі як суму трьох членів: зсуву, дисперсії, та величини, що називається незнижуваною похибкою (англ. irreducible error), яка виникає внаслідок шуму в самій задачі.

Цей компроміс застосовується до всіх видів керованого навчання: класифікації, регресії (узгодження функцій)^[1]^[2] та навчання структурованого виходу. Його також залучали для пояснення дієвості евристик у людському навчанні.

Задача[ред. | ред. код]

Компроміс зсуву та дисперсії є центральною задачею в керованому навчанні. В ідеалі потрібно обирати модель, яка і закономірності в своїх тренувальних даних схоплює добре, але й добре узагальнює їх для ще не бачених даних. На жаль, зазвичай неможливо робити те і друге одночасно. Методи навчання з високою дисперсією можуть бути здатними добре представляти свої тренувальні набори, але перебувають під загрозою перенавчання зашумлених або нехарактерних тренувальних даних. На противагу їм, алгоритми з великим зсувом зазвичай видають простіші моделі, не схильні до перенавчання, але можуть недопідлаштовуватися до своїх тренувальних даних, виявляючись нездатними схопити важливі закономірності.

Моделі з малим зсувом зазвичай є складнішими (наприклад, регресійними многочленами високого порядку), що дозволяє їм представляти тренувальний набір точніше. Проте в процесі вони можуть також представляти й велику складову шуму^[en], присутню в тренувальному наборі, роблячи свої передбачення менш точними — незважаючи на свою додану складність. З іншого боку, моделі з великим зсувом схильні бути відносно простими (регресійними многочленами низького порядку, або навіть лінійними), але можуть видавати передбачення з нижчою дисперсією при застосуванні поза межами тренувального набору.

Розклад квадратичної помилки на зсув та дисперсію[ред. | ред. код]

Припустімо, що в нас є тренувальний набір, який складається з набору точок $x_{1},\dots ,x_{n}$ та дійсних значень $y_{i}$ , пов'язаних з кожною із точок $x_{i}$ . Ми виходимо з того, що існує функційний, але зашумлений взаємозв'язок $y=f(x)+\varepsilon$ , в якому шум $\varepsilon$ має нульове середнє значення та дисперсію $\sigma ^{2}$ .

Нам треба знайти функцію ${\hat {f}}(x;D)$ , що якомога краще наближує справжню функцію $f(x)$ засобами якогось алгоритму навчання на навчальній вибірці $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ . Ми робимо «якомога краще» точним поняттям, вимірюючи середньоквадратичну похибку $y$ відносно ${\hat {f}}(x;D)$ : ми хочемо, щоби $(y-{\hat {f}}(x;D))^{2}$ було мінімальним, як для $x_{1},\dots ,x_{n}$ , так і для точок за межами нашої вибірки. Звісно, ми не можемо сподіватися зробити це досконало, оскільки $y_{i}$ містять шум $\varepsilon$ ; це означає, що ми мусимо бути готові допустити незнижувану похибку в будь-якій функції, яку б ми не придумали.

Пошук ${\hat {f}}$ , яка узагальнюється на точки за межами тренувального набору, може бути здійснено за допомогою будь-якого із багатьох алгоритмів, що застосовуються для керованого навчання. Виявляється, що яку би функцію ${\hat {f}}$ ми не обрали, ми можемо розкласти математичне сподівання її похибки на небаченому зразкові $x$ наступним чином:^[3]^:34^[4]^:223

\operatorname {E} _{D,\varepsilon }{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}.

Де

\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}{\big [}{\hat {f}}(x;D){\big ]}-f(x),

а

\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}=\operatorname {E} _{D}[{\big (}\operatorname {E} _{D}[{\hat {f}}(x;D)]-{\hat {f}}(x;D){\big )}^{2}].

Математичне сподівання пробігає різні варіанти вибору тренувального набору $D=\{(x_{1},y_{1})\dots ,(x_{n},y_{n})\}$ , всі вибрані з одного й того ж (умовного) розподілу $P(x,y)$ . Ці три члени представляють:

квадрат зсуву методу навчання, що можна розглядати як похибку, спричинену спрощувальними припущеннями, вбудованих до цього методу. Наприклад, при наближуванні нелінійної функції $f(x)$ із застосуванням методу навчання для лінійних моделей^[en] в оцінках ${\hat {f}}(x)$ буде присутня похибка внаслідок припущення лінійності;
дисперсію методу навчання, або, інтуїтивно, наскільки сильно метод навчання ${\hat {f}}(x)$ рухатиметься навколо свого середнього значення;
незнижувану похибку $\sigma ^{2}$ . Оскільки всі три члени є невід'ємними, вона формує обмеження знизу для математичного сподівання похибки на небачених зразках.^[3]^:34

Що складнішою є модель ${\hat {f}}(x)$ , то більше точок даних вона схоплюватиме, і то меншим буде зсув. Проте, складність робитиме так, що модель більше «рухатиметься», щоби захопити точки даних, і відтак її дисперсія буде вищою.

Виведення[ред. | ред. код]

Виведення розкладу на зсув та дисперсію для квадратичних помилок відбувається наступним чином.^[5]^[6] Для зручності позначення введімо скорочення $f=f(x)$ та ${\hat {f}}={\hat {f}}(x;D)$ та опустимо індекс $D$ . По-перше, зауважте, що для будь-якої випадкової змінної $X$ ми маємо

\operatorname {Var} [X]=\operatorname {E} [X^{2}]-\operatorname {E} [X]^{2}.

Перегрупувавши, отримуємо

\operatorname {E} [X^{2}]=\operatorname {Var} [X]+\operatorname {E} [X]^{2}.

Оскільки $f$ є детермінованою,

\operatorname {E} [f]=f.

З цього, за умови $y=f+\varepsilon$ та $\operatorname {E} [\varepsilon ]=0$ (оскільки $\varepsilon$ — це шум), випливає, що $\operatorname {E} [y]=\operatorname {E} [f+\varepsilon ]=\operatorname {E} [f]=f.$

Також, оскільки $\operatorname {Var} [\varepsilon ]=\sigma ^{2},$

\operatorname {Var} [y]=\operatorname {E} [(y-\operatorname {E} [y])^{2}]=\operatorname {E} [(y-f)^{2}]=\operatorname {E} [(f+\varepsilon -f)^{2}]=\operatorname {E} [\varepsilon ^{2}]=\operatorname {Var} [\varepsilon ]+\operatorname {E} [\varepsilon ]^{2}=\sigma ^{2}+0^{2}=\sigma ^{2}.

Отже, оскільки $\varepsilon$ та ${\hat {f}}$ є незалежними, ми можемо записати, що

{\begin{aligned}\operatorname {E} {\big [}(y-{\hat {f}})^{2}{\big ]}&=\operatorname {E} {\big [}(f+\varepsilon -{\hat {f}})^{2}{\big ]}\\[5pt]&=\operatorname {E} {\big [}(f+\varepsilon -{\hat {f}}+\operatorname {E} [{\hat {f}}]-\operatorname {E} [{\hat {f}}])^{2}{\big ]}\\[5pt]&=\operatorname {E} {\big [}(f-\operatorname {E} [{\hat {f}}])^{2}{\big ]}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}+2\operatorname {E} {\big [}(f-\operatorname {E} [{\hat {f}}])\varepsilon {\big ]}+2\operatorname {E} {\big [}\varepsilon (\operatorname {E} [{\hat {f}}]-{\hat {f}}){\big ]}+2\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})(f-\operatorname {E} [{\hat {f}}]){\big ]}\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}+2(f-\operatorname {E} [{\hat {f}}])\operatorname {E} [\varepsilon ]+2\operatorname {E} [\varepsilon ]\operatorname {E} {\big [}\operatorname {E} [{\hat {f}}]-{\hat {f}}{\big ]}+2\operatorname {E} {\big [}\operatorname {E} [{\hat {f}}]-{\hat {f}}{\big ]}(f-\operatorname {E} [{\hat {f}}])\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {E} [\varepsilon ^{2}]+\operatorname {E} {\big [}(\operatorname {E} [{\hat {f}}]-{\hat {f}})^{2}{\big ]}\\[5pt]&=(f-\operatorname {E} [{\hat {f}}])^{2}+\operatorname {Var} [\varepsilon ]+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\operatorname {Var} [\varepsilon ]+\operatorname {Var} {\big [}{\hat {f}}{\big ]}\\[5pt]&=\operatorname {Bias} [{\hat {f}}]^{2}+\sigma ^{2}+\operatorname {Var} {\big [}{\hat {f}}{\big ]}.\end{aligned}}

Остаточно, функція втрат середньо-квадратичної похибки MSE (або від'ємна лог-функція правдомодібності) отримується шляхом взяття математичного сподівання $x\sim P$ :

{\text{MSE}}=\operatorname {E} _{x}{\bigg \{}\operatorname {Bias} _{D}[{\hat {f}}(x;D)]^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\bigg \}}+\sigma ^{2}.

Застосування до класифікації[ред. | ред. код]

Розклад на зсув та дисперсію спершу було сформульованого для регресії методом найменших квадратів. Можливо знайти подібний розклад і для випадку класифікації за втрат 0-1 (коефіцієнт помилок класифікації).^[7]^[8] Як альтернатива, якщо задачу класифікації може бути перефразовано як імовірнісну класифікацію, то математичне сподівання квадрату похибки передбачуваних імовірностей по відношенню до справжніх імовірностей може бути розкладено, як і раніше.^[9]

Підходи[ред. | ред. код]

Зниження розмірності та обирання ознак можуть знижувати дисперсію шляхом спрощення моделей. Аналогічно, зниженню дисперсії сприяє більший тренувальний набір. Додавання ознак (провісників) сприяє зниженню зсуву, ціною введення додаткової дисперсії. Алгоритми навчання зазвичай мають деякі налагоджувані параметри, які контролюють зсув та дисперсію, наприклад:

(Узагальнені^[en]) лінійні моделі може бути регуляризовано, щоби знизити їхню дисперсію ціною збільшення їхнього зсуву.^[10]
У штучних нейронних мережах дисперсія збільшується, а зсув зменшується з числом прихованих вузлів.^[1] Як і в УЛМ, зазвичай застосовується регуляризація.
В моделях k-найближчих сусідів велике значення $k$ призводить до великого зсуву та низької дисперсії (див. нижче).
У навчанні з прикладів регуляризація може досягатися варіюванням суміші прототипів та екземплярів.^[11]
У деревах рішень глибина дерева визначає дисперсію. Зазвичай, для контролю дисперсії дерева рішень підрізують.^[3]^:307

Одним зі шляхів розв'язання цієї дилеми є застосування сумішевих моделей^[en] та ансамблевого навчання.^[12]^[13] Наприклад, підсилювання багато «слабких» моделей (із великим зсувом) поєднує в ансамбль, який має менший зсув, ніж окремі моделі, тоді як натяжкове агрегування поєднує «сильні» системи навчання таким чином, що знижує їхню дисперсію.

k-найближчі сусіди[ред. | ред. код]

У випадку регресії $k$ -найближчих сусідів існує вираз замкненого вигляду, який ставить у відповідність розклад на зсув та дисперсію до параметру $k$ :^[4]^{:37, 223}

\mathrm {E} [(y-{\hat {f}}(x))^{2}]=\left(f(x)-{\frac {1}{k}}\sum _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

де $N_{1}(x),\dots ,N_{k}(x)$ є $k$ найближчими сусідами $x$ у тренувальному наборі. Зсув (перший член) є монотонно зростаючою функцією від $k$ , тоді як дисперсія (другий член) при збільшенні $k$ спадає. Справді, за «розсудливих припущень» зсув оцінки першого-найближчого сусіда (1-НС, англ. 1-NN) зникає повністю, оскільки розмір тренувальної вибірки наближується до нескінченності.^[1]

Застосування до людського навчання[ред. | ред. код]

В той час як дилему зсуву та дисперсії широко обговорювали в контексті машинного навчання, її розглядали і в контексті людського пізнання, перш за все Ґерд Ґіґеренцер^[en] зі співробітниками в контексті навчених евристик. Вони переконували (див. посилання нижче), що людський мозок розв'язує цю дилему в випадку зазвичай розріджених, погано виражених тренувальних наборів, забезпечених досвідом, шляхом обрання евристики сильного зсуву/низької дисперсії. Це віддзеркалює той факт, що підхід нульового зсуву має погану узагальнюваність на нові ситуації, а також нерозсудливо припускає точне знання справжнього стану світу. Отримувані в результаті евристики є відносно простими, але дають кращі висновки в ширшому розмаїтті ситуацій.^[14]

Жемо^[en] та ін.^[1] переконують, що дилема зсуву та дисперсії означає, що таких здібностей, як узагальнене розпізнавання об'єктів, не може бути навчено з нуля, що вони вимагають певної міри «жорсткої розводки», яка потім налаштовується досвідом. Причиною цього є те, що безмодельні підходи до отримання висновків для уникнення високої дисперсії вимагають непрактично великих тренувальних наборів.

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ ^а ^б ^в ^г Geman, Stuart; E. Bienenstock; R. Doursat (1992). Neural networks and the bias/variance dilemma (PDF). Neural Computation. 4: 1—58. doi:10.1162/neco.1992.4.1.1. Архів оригіналу (PDF) за 10 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
↑ Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 (англ.)
↑ ^а ^б ^в Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. Архів оригіналу за 23 Червня 2019. Процитовано 6 Листопада 2016. (англ.)
↑ ^а ^б Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. Архів оригіналу за 26 січня 2015. Процитовано 6 листопада 2016. (англ.)
↑ Vijayakumar, Sethu (2007). The Bias–Variance Tradeoff (PDF). University Edinburgh. Архів оригіналу (PDF) за 9 Вересня 2016. Процитовано 19 серпня 2014. (англ.)
↑ Shakhnarovich, Greg (2011). Notes on derivation of bias-variance decomposition in linear regression (PDF). Архів оригіналу (PDF) за 21 August 2014. Процитовано 20 серпня 2014. (англ.)
↑ Domingos, Pedro (2000). A unified bias-variance decomposition (PDF). ICML. Архів оригіналу (PDF) за 7 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)
↑ Valentini, Giorgio; Dietterich, Thomas G. (2004). Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods. JMLR. 5: 725—775. (англ.)
↑ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introduction to Information Retrieval. Cambridge University Press. с. 308—314. Архів оригіналу за 4 Травня 2021. Процитовано 6 Листопада 2016. (англ.)
↑ Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 978-0471528890. (англ.)
↑ Gagliardi, F (2011). Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction. Artificial Intelligence in Medicine. 52 (3): 123—139. doi:10.1016/j.artmed.2011.04.002. (англ.)
↑ Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 (англ.)
↑ Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff [Архівовано 29 Жовтня 2016 у Wayback Machine.]. 2012. (англ.)
↑ Gigerenzer, Gerd; Brighton, Henry (2009). Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science. 1: 107—143. doi:10.1111/j.1756-8765.2008.01006.x. PMID 25164802. (англ.)

Посилання[ред. | ред. код]

Fortmann-Roe, Scott (June 2012). Understanding the Bias-Variance Tradeoff. Архів оригіналу за 29 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)

[geman-1] а ^б ^в ^г Geman, Stuart; E. Bienenstock; R. Doursat (1992). Neural networks and the bias/variance dilemma (PDF). Neural Computation. 4: 1—58. doi:10.1162/neco.1992.4.1.1. Архів оригіналу (PDF) за 10 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)

[2] Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101 (англ.)

[islr-3] а ^б ^в Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. Архів оригіналу за 23 Червня 2019. Процитовано 6 Листопада 2016. (англ.)

[ESL-4] а ^б Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. Архів оригіналу за 26 січня 2015. Процитовано 6 листопада 2016. (англ.)

[5] Vijayakumar, Sethu (2007). The Bias–Variance Tradeoff (PDF). University Edinburgh. Архів оригіналу (PDF) за 9 Вересня 2016. Процитовано 19 серпня 2014. (англ.)

[6] Shakhnarovich, Greg (2011). Notes on derivation of bias-variance decomposition in linear regression (PDF). Архів оригіналу (PDF) за 21 August 2014. Процитовано 20 серпня 2014. (англ.)

[7] Domingos, Pedro (2000). A unified bias-variance decomposition (PDF). ICML. Архів оригіналу (PDF) за 7 Жовтня 2016. Процитовано 6 Листопада 2016. (англ.)

[8] Valentini, Giorgio; Dietterich, Thomas G. (2004). Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods. JMLR. 5: 725—775. (англ.)

[9] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introduction to Information Retrieval. Cambridge University Press. с. 308—314. Архів оригіналу за 4 Травня 2021. Процитовано 6 Листопада 2016. (англ.)

[10] Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 978-0471528890. (англ.)

[11] Gagliardi, F (2011). Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction. Artificial Intelligence in Medicine. 52 (3): 123—139. doi:10.1016/j.artmed.2011.04.002. (англ.)

[12] Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615 (англ.)

[13] Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff [Архівовано 29 Жовтня 2016 у Wayback Machine.]. 2012. (англ.)

[14] Gigerenzer, Gerd; Brighton, Henry (2009). Homo Heuristicus: Why Biased Minds Make Better Inferences. Topics in Cognitive Science. 1: 107—143. doi:10.1111/j.1756-8765.2008.01006.x. PMID 25164802. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]