Поправка Бесселя

Поправка Бесселя, названа на честь Фрідріха Бесселя, полягає у використанні $n-1$ замість $n$ у формулі для дисперсії вибірки та стандартного відхилення вибірки, де $n$ є числом спостережень у вибірці. Це виправляє зміщення в оцінці дисперсії популяції та частково виправляє зміщення в оцінці стандартного відхилення популяції.

Тобто, під час оцінювання дисперсії та стандартного відхилення популяції з певної вибірки коли математичне сподівання для популяції невідоме, дисперсія вибірки оцінюється як середнє квадратичне відхилення значень вибірки від її математичного сподівання (тобто із використанням множника ${\frac {1}{n}}$ , але таким чином ми отримуємо зміщену оцінку дисперсії усієї популяції, зазвичай отримана оцінка буде заниженою. Домножуючи дисперсію вибірки на ${\frac {n}{n-1}}$ (тотожно до використання ${\frac {1}{n-1}}$ замість ${\frac {1}{n}}$ ) виправляє це, і дає незміщену оцінку для дисперсії усієї популяції. Іноді множник ${\frac {n}{n-1}}$ називають поправкою Бесселя.

Інтуїтивно поправку Бесселя можна зрозуміти як кількість степенів вільності у векторі залишків (залишків, а не помилок, бо математичне очікування популяції невідоме):

(x_{1}-{\overline {x}},\,\dots ,\,x_{n}-{\overline {x}}),

де ${\overline {x}}$ є середнім значенням (математичним сподіванням) вибірки. Хоча маємо n незалежних елементів, наявні лише n − 1 незалежних залишків, оскільки в сумі вони дають 0.

Джерело зміщення[ред. | ред. код]

Розглянемо приклад. Припустимо середнє значення для всієї популяції становить 2050, але ми не знаємо цього і повинні оцінити його покладаючись на нашу маленьку вибірку, яку ми отримали випадковим чином:

2051,\quad 2053,\quad 2055,\quad 2050,\quad 2051\,

Один зі способів обчислити середнє значення для вибірки:

{\frac {1}{5}}\left(2051+2053+2055+2050+2051\right)=2052

Це може слугувати як спостережна оцінка для неспостережного середнього усієї популяції, яке дорівнює 2050. Тепер перед нами постає завдання оцінювання дисперсії. Це середнє значення квадратичних відхилень від 2050. Якби ми знали середнє значення для популяції, то ми могли зробити так:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2050)^{2}+(2053-2050)^{2}+(2055-2050)^{2}+(2050-2050)^{2}+(2051-2050)^{2}\right]\\=\;&{\frac {36}{5}}=7.2\end{aligned}}

Але наша оцінка для середнього значення усієї популяції це середнє значення для вибірки, 2052, а не 2050. Отже, ми робимо, що можемо:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2052)^{2}+(2053-2052)^{2}+(2055-2052)^{2}+(2050-2052)^{2}+(2051-2052)^{2}\right]\\=\;&{\frac {16}{5}}=3.2\end{aligned}}

Це значно менша оцінка. Отже постає питання: чи значення дисперсії отримане таким чином завжди менше ніж ми б отримали із використанням середнього значення для усієї популяції? Відповіддю є так окрім випадку коли середнє значення вибірки збігається із середнім значенням для популяції.

Ми шукаємо суму квадратів відстаней від середнього значення для усієї популяції, але отримуємо суму квадратів різниць із середнім значенням вибірки, яке, як ми побачимо, є числом, що мінімізує цю суму квадратів відстаней. Отже, якщо тільки вибірка не має такого ж самого середнього значення як і у популяції в цілому, ця оцінка завжди недооцінюватиме дисперсію популяції.

Щоб побачити чому так, ми використаємо просту алгебраїчну тотожність:

(a+b)^{2}=a^{2}+2ab+b^{2}\,

Де $a$ представляє відхилення від окремого значення до середнього значення вибірки, і $b$ представляє відхилення від середнього значення вибірки до середнього значення популяції. Ми просто розклали відхилення від (невідомого) середнього значення популяції на дві частини: відхилення від середнього значення вибірки, яке ми можемо обчислити, і додатково відхилення від середнього значення для популяції, яке ми не можемо обчислити. Тепер застосуємо цю тотожність до квадратів відхилення від середнього значення популяції:

{\begin{aligned}{[}2053-2050]^{2}&=[(2053-2052)+(2052-2050)]^{2}\\&=(2053-2052)^{2}+2(2053-2052)(2052-2050)+(2052-2050)^{2}\end{aligned}}

Тепер застосуємо це до всіх спостережень:

$\overbrace {(2051-2052)^{2}} ^{a^{2}}$	$\ +\$	$\overbrace {2(2051-2052)(2052-2050)} ^{2ab}$	$\ +\$	$\overbrace {(2052-2050)^{2}} ^{b^{2}}$
$(2053-2052)^{2}$	$\ +\$	$2(2053-2052)(2052-2050)$	$\ +\$	$(2052-2050)^{2}$
$(2055-2052)^{2}$	$\ +\$	$2(2055-2052)(2052-2050)$	$\ +\$	$(2052-2050)^{2}$
$(2050-2052)^{2}$	$\ +\$	$2(2050-2052)(2052-2050)$	$\ +\$	$(2052-2050)^{2}$
$(2051-2052)^{2}$	$\ +\$	$\underbrace {2(2051-2052)(2052-2050)} _{}$	$\ +\$	$(2052-2050)^{2}$
		Сума елементів цього стовпчика повинна дорівнювати 0

Сума елементів у середньому стовпчику повинна дорівнювати нулю, тому що сума відхилень від середнього значення вибірки повинна дорівнювати нулю. Коли середній стовпчик зник, ми бачимо, що

Сума елементів першого стовпчика (a²) є сумою квадратів відхилень від середнього значення вибірки;
Сума всіх елементів у двох стовпчиках, що залишились (a² і b²) дорівнює сумі квадратів відхилень від середнього значення популяції, бо саме ці квадратичні відхилення є лівими частинами кожної рівності. У випадку першої рівності це [2053 − 2050]²;
Сума всіх елементів повинна бути більшої ніж сума елементів першого стовпчика, оскільки всі елементи, що не зникли є додатними (окрім випадку коли середнє значення популяції дорівнює середньому значенню вибірки, у такому разі останній стовпчик буде нульовим).

Отже:

Сума квадратів відхилень від середнього значення популяції буде більшою ніж сума квадратів відхилень від середнього значення вибірки (окрім випадку коли середні значення однакові, тоді ці суми дорівнюють одна одній).

Саме через це сума квадратів відхилень від середнього значення вибірки є занадто малою, щоб дати незміщену оцінку дисперсії усієї популяції.

Термінологія[ред. | ред. код]

Ця поправка настільки поширена, що термін «дисперсія вибірки» і «стандартне відхилення вибірки» часто вживаються для позначення вже правильних оцінок (незміщеної дисперсії вибірки, менш зміщеного стандартного відхилення вибірки), використовуючи n − 1. Тут ми дотримуватимемось таких символів і визначень:

μ — це середнє значення популяції

{\overline {x}}\,

— це середнє значення вибірки

σ² — дисперсія популяції

s_n² — зміщена дисперсія вибірки (тобто без поправки Бесселя)

s² — незміщена дисперсія вибірки (тобто з поправкою Бесселя)

Стандартні відхилення тоді будуть квадратними корінями відповідних дисперсій. Оскільки квадратний корінь спричиняє зміщення, термінологія «невиправлена» і «виправлена» бажаніша для оцінок стандартного відхилення:

s_n — це невиправлене стандартне відхилення вибірки (тобто без поправки Бесселя)

s — це виправлене стандартне відхилення (тобто з поправкою Бесселя), менш зміщене, але все ж зміщене

Формула[ред. | ред. код]

Середнє значення вибірки задається так:

{\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

Зміщена дисперсія вибірки записується так:

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{n^{2}}}

і незміщена дисперсія вибірки:

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n-1}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{(n-1)n}}=\left({\frac {n}{n-1}}\right)\,s_{n}^{2}.

Доведення правильності[ред. | ред. код]

Клацніть [показати], щоб розгорнути

Тут ми використаємо тотожність $E[x^{2}]=\mu ^{2}+\sigma ^{2}$ , що випливає з означення стандартного відхилення і лінійності математичного сподівання.

Дуже корисним є спостереження того, що для будь-якого розподілу дисперсія рівна половині математичного сподівання $(x_{1}-x_{2})^{2}$ коли $x_{1},x_{2}$ незалежні проби з цього розподілу. Для доведення цього спостереження ми використаємо факт того, що $E[x_{1}x_{2}]=E[x_{1}]E[x_{2}]$ (що слідує з їх незалежності) і лінійність математичного сподівання:

E[(x_{1}-x_{2})^{2}]=E[x_{1}^{2}]-E[2x_{1}x_{2}]+E[x_{2}^{2}]=(\sigma ^{2}+\mu ^{2})-2\mu ^{2}+(\sigma ^{2}+\mu ^{2})=2\sigma ^{2}

Зараз, коли спостереження доведено, достатньо показати, що очікувана різниця в квадраті між двома пробами з вибірки $x_{1},\ldots ,x_{n}$ дорівнює $(n-1)/n$ помножене на очікувану різницю в квадраті двох проб з початкового розподілу. Щоб побачити це, зауважте, що коли ми вибираємо $x_{u}$ і $x_{v}$ використовуючи цілі u, v вибрані незалежно і рівномірно з 1 до n, частка $n/n^{2}=1/n$ з усіх двійок ми має u=v і різниця в квадраті такої пари рівна нулю, незалежно від початкового розподілу. $1-1/n$ разів, що залишились, значення $E[(x_{u}-x_{v})^{2}]$ — це очікувана різниця в квадраті між двома непов'язаними пробами з початкового розподілу. Отже, ділячи очікувану різницю в квадраті вибірки на $(1-1/n)$ , або тотожно множачи на $1/(1-1/n)=n/(n-1),$ отримуємо незміщену оцінку початкової очікуваної різниці в квадраті.