Стандартне відхилення

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Станда́ртне відхи́лення (англ. standard deviation) або середнє квадратичне відхилення, позначається як S або σ. — у теорії ймовірності і статистиці найпоширеніший показник розсіювання значень випадкової величини відносно її математичного сподівання. Вимірюється в одиницях виміру самої випадкової величини.

По суті, якщо взяти прикладні задачі, то стандартне відхилення — це найбільш використовуваний індикатор мінливості об'єкта, що показує, на скільки в середньому відхиляються індивідуальні значення ознаки x_i\,\! від їх середньої величини \overline{x}[1].

Використання[ред.ред. код]

Стандартне відхилення використовують під час розрахунку стандартної похибки середнього арифметичного, для побудови довірчих інтервалів, статистичної перевірки гіпотез, виміру лінійного взаємозв'язку між випадковими величинами.

Обчислення[ред.ред. код]

Середньоквадратичне відхилення — дорівнює кореню квадратному з дисперсії випадкової величини:

\sigma=\sqrt{\sigma^2}\,

Відповідно до формул з обчислення дисперсії:

 \quad
\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2},

при невеликій вибірці (n<=40—50)[1] вводиться поправка Бесселя:

s=\sqrt{\frac{n}{n-1}\sigma^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}

де:
s\,\! — стандартне відхилення, незміщена оцінка средньоквадратичного відхилення випадкової величини X відносно її математичного сподівання;
\sigma^2\,\! — дисперсія;
x_i\,\! — i-й елемент вибірки;
\bar{x}\,\! — середнє арифметичне вибірки: : \overline{x} = \frac{1}{N} \sum_{i=1}^N x_i.

n\,\! — обсяг (розмір) вибірки.

Слід звернути увагу на відмінність стандартного відхилення (у знаменнику n - 1) від кореня з дисперсії (у знаменнику n). Для малих обсягів вибірки оцінка дисперсії є дещо зміщеною на величину n/(n-1), для нескінченно великого обсягу вибірки різниця між вказаними величинами зникає.

Вибірка — лише частина генеральної сукупності. Генеральна сукупність — абсолютно всі можливі результати. Отримати результат, що не входить в генеральну сукупність - неможливо. Для випадку з киданням монети генеральною сукупністю є : решка, ребро, орел. А ось пара орел-решка — вже лише вибірка. Для генеральної сукупності математичне очікування збігається зі справжнім значенням оцінюваного параметра. А для вибірки — необов'язково. Математичне очікування вибірки має зміщення (зсув?) щодо дійсного значення параметра. Через це середньоквадратична помилка більша ніж дисперсія, оскільки дисперсія — математичне очікування квадрата відхилення від середнього значення, а середньоквадратичне відхилення — математичне очікування відхилення від справжнього значення. Різниця в тому, від чого шукаємо відхилення: коли дисперсія, то від середнього (і не важливо достеменне це середнє чи помилкове), а коли середньоквадратичне відхилення, то це відхилення від справжнього середнього значення.

Суть стандартного відхилення (приклади)[ред.ред. код]

Розглянемо наступний приклад, де є дві вибірки даних[2]:

  1. 1, 2, 3, 4, 5
  2. -235, -103, 3, 100, 250

З сукупностей очевидно, що вони різні. Якщо порахувати середнє арифметичне, то отримуємо в обох випадках 3. Проте,в другій вибірці дані більше розсіяні довкола центру, а в першому випадку більше сконцентровані в центрі. Таким чином говорять, що в другої вибірки велике стандартне відхилення, а в першої незначне. Якщо підставити і порахувати дані відхилення, то отримаємо σ1=1,6, а σ2=186. Різниця суттєва.

Здебільшого вибірки не відрізняються настільки, як це в попередньому випадку. Наприклад, при проведенні ряду вимірювань отримали дві вибірки[3]:

  • x1: 10, 15, 20, 25, 30, 40, 45, 50
  • x2: 10, 28, 28, 30, 30, 32, 32, 50

В обох випадку середні рівні 30, крім того у них однакові границі. Проте σ1=13,7, а σ2=10,1. Тобто, видно, що при однакових границях і ширині варіації дисперсія і стандартне відхилення виявляються неоднакові: на величини цих показників вплинув різний характер варіювання ознак об'єкта (іншими словами мінливість даних в вибірці).

Стандартне відхилення в ряді випадків виявляється кращим для використання ніж дисперсія, по тій причині, що виражається в тих же одиницях, що і середня арифметична величина.

Порівняння особливостей розподілу варіант у різних виборках лише за показниками нормованого відхилення (σ) недостатньо, а іноді неможливо (коли необхідність порівнювати варіаційні ряди де ознаки вимірювалися в різних одиницях вимірювання, наприклад, одна вибірка вага людини в кілограмах, а інша ріст людини в сантиметрах). Для таких порівнянь застосовується відносний показник, який позначається символом t і зветься нормованим відхиленням[4].

Правило 3-х сигм[ред.ред. код]

Графік нормального розподілу

Правило 3-х сигм (3\sigma\,\!) — практично всі значення нормально розподіленної випадкової величини лежать в інтервалі \left[\bar{x}-3\sigma;\bar{x}+3\sigma\right]. Точніше — не менш, ніж із 99,7% достовірністю, значення нормально розподіленої випадкової величини лежить у вказаному інтервалі (за умови що величина \bar{x} достеменно відома, а не отримана в результаті обробки вибірки). Якщо істинне значення величини невідоме, то слід користуватися не \sigma, а s. Таким чином правило 3-х сигм перетвориться в правило трьох s.

Див. також[ред.ред. код]

Посилання[ред.ред. код]