Середньоквадратична похибка

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

У статистиці середньоквадрати́чна по́хибка, сере́дня квадрати́чна по́хибка (СКП, англ. mean squared error, MSE)[1][2] або середньоквадрати́чне відхи́лення, сере́днє квадрати́чне відхи́лення (СКВ, англ. mean squared deviation, MSD) оцінювача (процедури оцінювання неспостережуваної величини) вимірює усереднення квадратів похибок — тобто, середнє квадратичної різниці між оцінками значень та справжнім значенням. СКП є функцією ризику, яка відповідає математичному сподіванню квадрату похибкових втрат.[на чию думку?][прояснити: ком.] Той факт, що СКП є майже завжди строго додатною (а не нульовою), випливає з випадковості, або з того, що оцінювач не враховує інформації[en], яка могла би давати точнішу оцінку.[3]

СКП є мірою якості оцінювача. Оскільки вона походить від квадрата евклідової відстані, її значення є завжди додатним, і зменшується, коли похибка наближається до нуля.

СКП є другим моментом похибки (відносно оригіналу),[прояснити: ком.] і, таким чином, охоплює як дисперсію оцінювача (наскільки широким є розкид оцінок від одного зразка даних до іншого), так і його зміщення (наскільки віддаленим є усереднене оцінене значення від істинного).[джерело?] Для незміщеного оцінювача СКП є його дисперсією. Як і дисперсія, СКП має ті ж одиниці вимірювання, що й квадрат оцінюваної величини. За аналогією зі стандартним відхиленням, взяття квадратного кореня СКП дає кореневу середньоквадратичну похибку, або кореневе середньоквадратичне відхилення[en] (КСКП або КСКВ, англ. RMSE, RMSD), що має ті ж одиниці вимірювання, що й оцінювана величина. Для незміщеного оцінювача КСКП є квадратним коренем дисперсії, відомим як стандартна похибка.

Визначення та основні властивості[ред. | ред. код]

СКП оцінює якість або передбачувача (тобто функції, що відображує довільні входи до вибірки значень деякої випадкової величини), або оцінювача (тобто математичної функції, що відображує вибірку даних до оцінки параметра сукупності, з якої відбираються ці дані). Визначення СКП різниться залежно від того, чи вона описує передбачувач, чи оцінювач.

Передбачувач[ред. | ред. код]

Якщо вектор з передбачень породжується з вибірки точок даних на всіх змінних, є вектором спостережуваних значень передбачуваної змінної, а є передбаченими значеннями (наприклад, як із допасовування найменшими квадратами), тоді СКП цього передбачувача в межах цієї вибірки обчислюється як

Іншими словами, СКП є середнім значенням квадратів похибок . Це є легко обчислюваною величиною для конкретної вибірки (й отже, залежить від вибірки).

У матрицевому записі

де є , а є матрицею .

СКП також можливо обчислювати на q точках даних, які не використовували для оцінювання моделі, чи то через те, що їх було притримано для цієї мети, чи то через те, що ці дані було отримано щойно. У цьому процесі (відомому як перехресне затверджування) СКП часто називають середньоквадратичною похибкою передбачування[en][джерело?], й обчислюють як

Оцінювач[ред. | ред. код]

СКП оцінювача відносно невідомого параметра визначають як[2]

Це визначення залежить від невідомого параметра, але СКП апріорі є властивістю оцінювача. СКП може бути функцією від невідомих параметрів, і в цьому випадку будь-який оцінювач СКП на основі оцінок цих параметрів буде функцією від даних (і відтак випадковою величиною). Якщо оцінювач виводять як статистику вибірки й використовують для оцінювання якогось параметра сукупності, тоді математичне сподівання стосується ви́біркового розподілу цієї статистики вибірки.

СКП можливо записувати як суму дисперсії оцінювача та квадрату його зміщення, що забезпечує корисний спосіб обчислювання СКП й виражає те, що у випадку незміщених оцінювачів СКП та дисперсія дорівнюють одна одній.[4]

Доведення взаємозв'язку з дисперсією та зміщенням[ред. | ред. код]

Як альтернативний варіант, маємо

Але у випадку реального моделювання, СКП можливо описувати як суму дисперсії моделі, зміщення моделі, та незвідної невизначеності[джерело?][прояснити: ком.]. Відповідно до цього взаємозв'язку, СКП оцінювачів можливо просто використовувати для порівнювання ефективності[en], що враховує інформацію про дисперсію та зміщення оцінювача. Це називають критерієм СКП (англ. MSE criterion).

У регресії[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Зменшена статистика хі-квадрат[en].

В регресійному аналізі природнішим способом перегляду загальної тенденції даних у цілому є побудова графіків. Середнє значення відстані від кожної з точок до передбачуваної регресійної моделі можливо обчислювати й показувати як середньоквадратичну похибку. Піднесення до квадрату має вирішальне значення для подолання складності з від'ємними знаками. Для мінімізування СКП модель може бути точнішою, що означатиме, що модель є ближчою до фактичних даних. Одним із прикладів лінійної регресії з використанням цього методу є метод найменших квадратів, який оцінює адекватність моделі лінійної регресії для моделювання двовимірного набору даних[en],[5] але обмеження якого пов'язане з відомим розподілом цих даних.

Термін середньоквадратична похибка іноді використовують як позначення незміщеної оцінки дисперсії похибок: за́лишкової суми квадратів[en], поділеної на кількість ступенів вільності. Це визначення для відомої, обчислюваної величини відрізняється від наведеного вище визначення для обчислюваної СКП передбачувача використанням іншого знаменника. Цим знаменником є розмір вибірки, зменшений на кількість параметрів моделі, оцінюваних з тих самих даних, (n − p) для p регресорів, або (n − p − 1), якщо використовують відтин[en] (докладніше див. похибки та залишки у статистиці).[6] Незважаючи на те, що СКП (визначене як у цій статті) не є незміщеним оцінювачем дисперсії похибок, вона є слушним оцінювачем за умови слушності передбачувача.

У регресійнім аналізі «середньоквадратична похибка», яку часто називають середньоквадратичною похибкою передбачування[en] або «позави́бірковою середньоквадратичною похибкою» (англ. out-of-sample mean squared error), може також позначувати середнє значення квадратів відхилень[en] передбачень від істинних значень на позавибірковому випробувальному просторі, породженому моделлю, оціненою за певним ви́бірковим простором. Вона також є відомою, обчислюваною величиною, і вона різниться залежно від вибірки та позавибіркового випробувального простору.

Приклади[ред. | ред. код]

Середнє значення[ред. | ред. код]

Нехай є випадкова вибірка розміру з генеральної сукупності, . Нехай зразки вибірки було вибрано з вертанням[en]. Тобто, зразків вибирають по одному, і раніше вибрані зразки все одно мають право бути вибраними для всіх витягувань. Звичайним оцінювачем для є ви́біркове середнє[1]

яке має математичне сподівання, що дорівнює істинному середньому (тож воно є незміщеним), і середньоквадратичну похибку

де є дисперсією сукупності.

Це є найкращим незміщеним оцінювачем[en] (тобто тим, що має найнижчу СКП серед усіх незміщених оцінювачів) для гауссового розподілу, але не для, скажімо, рівномірного розподілу.

Дисперсія[ред. | ред. код]

Звичайним оцінювачем дисперсії є виправлена дисперсія вибірки:

Він є незміщеним (його математичним сподіванням є ), й відтак його також називають незміщеною дисперсією вибірки, а його СКП становить[7]

де є четвертим центральним моментом розподілу або сукупності, а є коефіцієнтом ексцесу.

Проте можливо використовувати й інші оцінювачі для , пропорційні , і належний вибір може завжди давати нижчу середньоквадратичну похибку. Якщо ми визначимо

тоді обчислюємо:

Це мінімізується, коли

Для гауссового розподілу, де , це означає, що СКП зводиться до мінімуму при діленні суми на . Мінімальний коефіцієнт ексцесу становить ,[a] що досягається розподілом Бернуллі з p = 1/2 (підкидання монети), й СКП зводиться до мінімуму при Отже, незалежно від коефіцієнту ексцесу, ми отримуємо «кращу» оцінку (в сенсі нижчої СКП), трохи зменшивши незміщений оцінювач. Це є простим прикладом стискального оцінювача[en]: оцінювач «стискають» у бік нуля (зменшують незміщений оцінювач).

Далі, хоч виправлена дисперсія вибірки і є найкращим незміщеним оцінювачем[en] (мінімальна середньоквадратична похибка серед незміщених оцінювачів) дисперсії для гауссових розподілів, якщо розподіл не є гауссовим, то навіть серед незміщених оцінювачів найкращим незміщеним оцінювачем дисперсії бути не може.

Гауссів розподіл[ред. | ред. код]

В наступній таблиці наведено декілька оцінювачів істинних параметрів сукупності, μ та σ2, для гауссового випадку.[8]

Істинне значення Оцінювач Середньоквадратична похибка
= незміщений оцінювач середнього значення сукупності,
= незміщений оцінювач дисперсії сукупності,
= зміщений оцінювач дисперсії сукупності,
= зміщений оцінювач дисперсії сукупності,

Інтерпретація[ред. | ред. код]

Нульова СКП, що означає, що оцінювач передбачує спостереження параметру з бездоганною точністю, є ідеальною (але зазвичай неможливою).

Значення СКП можна використовувати з метою порівнювання. Дві або більше статистичних моделей можна порівнювати, використовуючи їхні СКП — як міру того, наскільки добре вони пояснюють заданий набір спостережень: незміщений оцінювач (оцінений зі статистичної моделі) з найменшою дисперсією серед усіх незміщених оцінювачів є найкращим незміщеним оцінювачем[en], або англ. MVUE (Minimum Variance Unbiased Estimator).

Як методика лінійної регресії, так і методика дисперсійного аналізу оцінюють СКП як частину аналізу й використовують оцінену СКП, щоби визначати статистичну значущість досліджуваних чинників або предикторів. Метою планування експериментів є побудова експериментів таким чином, щоби при аналізі спостережень СКП була близькою до нуля відносно величини щонайменше одного з оцінюваних впливів експерименту.

В однофакторнім дисперсійнім аналізі СКП можливо обчислювати шляхом ділення суми квадратів похибок на ступінь вільності. Також, F-значення є відношенням середньоквадратичного впливу до СКП.

СКП також використовують у декількох методиках покрокової регресії[en] як частину визначання того, скільки предикторів з набору кандидатів включити до моделі для заданого набору спостережень.

Застосування[ред. | ред. код]

Функція втрат[ред. | ред. код]

Втрати квадрату похибки є однією з найширше використовуваних функцій втрат у статистиці[джерело?], хоча її широке використання більше випливає з математичної зручності, ніж з міркувань фактичних втрат у застосуваннях. Карл Фрідріх Гаусс, який запровадив використання середньоквадратичної похибки, усвідомлював її довільність і погоджувався з запереченнями проти неї на цих підставах.[3] Математичні переваги середньоквадратичної похибки особливо очевидні при її використанні для аналізу продуктивності лінійної регресії, оскільки це дозволяє розділити дисперсію в наборі даних на дисперсію, що пояснюється моделлю, та дисперсію, що пояснюється випадковістю.

Критика[ред. | ред. код]

Беззаперечне використання середньоквадратичної похибки критикував фахівець із теорії рішень Джеймс Бергер[en]. Середньоквадратична похибка — це мінус математичного сподівання однієї конкретної функції корисності, квадратичної, яка може не бути слушною функцією корисності для використання за заданої сукупності обставин. Проте існують деякі сценарії, за яких середньоквадратична похибка може слугувати добрим наближенням функції втрат, що зустрічається у застосуванні природним чином.[9]

Як і дисперсія, середньоквадратична похибка має недолік надавання великої ваги викидам.[10] Це є результатом піднесенням до квадрату кожного члену, через яке більші похибки заважують сильніше за менші. Ця властивість, небажана у багатьох застосуваннях, змусила дослідників використовувати такі альтернативи як середня абсолютна похибка[en], або такі, що ґрунтуються на медіані.

Див. також[ред. | ред. код]

Виноски[ред. | ред. код]

  1. Це можливо довести за допомогою нерівності Єнсена наступним чином. Четвертий центральний момент є верхньою межею для квадрату дисперсії, тож найменшим значенням для їхнього відношення є одиниця, відтак, найменшим значенням для коефіцієнта ексцесу є −2, отримуваним, наприклад, Бернуллі з p = 1/2.

Примітки[ред. | ред. код]

  1. а б List of Probability and Statistics Symbols. Math Vault (амер.). 26 квітня 2020. Архів оригіналу за 18 серпня 2020. Процитовано 12 вересня 2020. (англ.)
  2. а б Mean Squared Error (MSE). www.probabilitycourse.com. Архів оригіналу за 6 травня 2021. Процитовано 12 вересня 2020. (англ.)
  3. а б Lehmann, E. L.; Casella, George (1998). Theory of Point Estimation (вид. 2nd). New York: Springer. ISBN 978-0-387-98502-2. MR 1639875. (англ.)
  4. Wackerly, Dennis; Mendenhall, William; Scheaffer, Richard L. (2008). Mathematical Statistics with Applications (вид. 7). Belmont, CA, USA: Thomson Higher Education. ISBN 978-0-495-38508-0. (англ.)
  5. A modern introduction to probability and statistics : understanding why and how. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588. (англ.)
  6. Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill[en], 1960, page 288. (англ.)
  7. Mood, A.; Graybill, F.; Boes, D. (1974). Introduction to the Theory of Statistics (вид. 3rd). McGraw-Hill. с. 229. (англ.)
  8. DeGroot, Morris H. (1980). Probability and Statistics (вид. 2nd). Addison-Wesley. (англ.)
  9. Berger, James O. (1985). 2.4.2 Certain Standard Loss Functions. Statistical Decision Theory and Bayesian Analysis (вид. 2nd). New York: Springer-Verlag. с. 60. ISBN 978-0-387-96098-2. MR 0804611. (англ.)
  10. Bermejo, Sergio; Cabestany, Joan (2001). Oriented principal component analysis for large margin classifiers. Neural Networks. 14 (10): 1447—1461. doi:10.1016/S0893-6080(01)00106-X. PMID 11771723. (англ.)