Середнє квадратичне відхилення середнього арифметичного

Матеріал з Вікіпедії — вільної енциклопедії.
(Перенаправлено з Стандартна похибка)
Перейти до навігації Перейти до пошуку
Для величини, що має вибірку із незміщеною нормально розподіленою похибкою, вищенаведене зображення показує частку вимірювань, які потраплять в інтервали величиною в 0, 1, 2, і 3 стандартних відхилень по обидві сторони від фактичного значення.

Стандартна похибка середнього в математичній статистиці — величина, що характеризує стандартне відхилення вибіркового середнього, розраховане по вибірці розміром із генеральної сукупності. Термін був вперше введений Удні Юлом[en] 1897 року[en]. Величина стандартної похибки залежить від дисперсії генеральної сукупності та об'єму вибірки .

Вибірковий розподіл вибіркового середнього утворюється шляхом повторювання експериментів і фіксування що разу отриманого середнього. Таким чином буде отримано розподіл різних середніх, і цей розподіл має своє власне середнє s дисперсію. Математично, дисперсія отриманого вибіркового розподілу дорівнює дисперсії сукупності поділеній на розмір вибірки. Це тому, що при збільшення розміру вибірки, вибіркове середнє скупчується ближче до середнього сукупності

Отже, співвідношення між стандартною похибкою і стандартним відхиленням буде таким, що для даного об'єму вибірки, стандартна похибка дорівнює стандартному відхиленню поділеному на квадратний корінь від величини вибірки. Іншими словами, стандартна похибка середнього є мірою дисперсії вибіркових середніх довкола середнього сукупності.

У регресійному аналізі, термін "стандартна похибка" відноситься або до квадратного кореня із скороченого критерію хі-квадрат[en] або стандартної похибки конкретного коефіцієнту регресії (як це використовується, наприклад, в довірчих інтервалах).

Стандартна похибка середнього[ред. | ред. код]

Стандартна похибка середнього обчислюється за формулою

де  — величина стандартного відхилення генеральної сукупності, та  — об'єм вибірки.

Оскільки дисперсія генеральної сукупності зазвичай невідома, то оцінка стандартної похибки обчислюється за формулою:

де  — стандартне відхилення випадкової величини на основі незміщеної оцінки її вибіркової дисперсії та  — об'єм вибірки.

Вибірка[ред. | ред. код]

Стандартна похибка і стандартне відхилення невеликих вибірок мають тенденцію до систематичного заниження оцінки по відношенню до стандартної похибки і стандартного відхилення сукупності: стандартна похибка середнього є зміщеною оцінкою для стандартної похибки сукупності. При n = 2 недооцінка значення становить близько 25%, а для n = 6 заниження оцінки становить лише 5%. Гурланд і Тріпані (1971) запропонували поправку і рівняння для врахування цього ефекту.[1] Сокал і Рольф (1981) запропонували рівняння коефіцієнту поправки для малих вибірок із об'ємом n < 20.[2]

Практичний результат: Аби зменшити невпевненість в оцінці середнього значення вдвічі необхідно збільшити кількість спостережень в чотири рази. Або, щоб зменшити стандартну похибку в десять разів, необхідно в сотню разів більше спостережень вибірки.

Доведення[ред. | ред. код]

Формулу можна отримати із розрахунку дисперсії для суми незалежних випадкових величин.[3]

  • Якщо це незалежних спостережень із сукупності, що має середнє і стандартне відхилення , тоді дисперсія загальної величини дорівнює
  • Дисперсія для (вибіркового середнього ) повинна бути
  • А стандартне відхилення величини повинно бути

Апроксимація Стьюдента при невідомому значенні σ[ред. | ред. код]

У багатьох практичних застосуваннях, справжнє значення σ не відоме. В результаті, нам необхідно використовувати розподіл, що враховує розподілення можливих значень σ'. Коли відомо що справжній розподіл, який лежить в основі, є Гаусовим, хоч і з не відомим σ, тоді результуючий оцінений розподіл відповідає t-розподілу Стьюдента. Стандартна похибка є стандартним відхиленням t-розподіла Стьюдента. T-розподіл в незначній мірі відрізняється від Гаусового розподілу, і значно залежить від розміру вибірки. Для невеликих вибірок оцінка стандартного відхилення сукупності як правило буде заниженою, і середнє значно відрізнятиметься від середнього сукупності, а t-розподіл Стьюдента для оцінки імовірностей цих подій матиме більш масивні бокові рукави в порівнянні із розподілом Гауса. Для оцінки стандартної похибки для t-розподілу Стьюдента достатнім буде використати вибіркове стандартне відхилення "s" замість σ, і це значення можна використати для розрахунку довірчих інтервалів.

Примітка: t-розподіл Стьюдента добре наближується за допомогою Гаусового розподілу, якщо об'єм вибірки є більшим за 100. Останній є значно простіший, і його можна використовувати для таких вибірок.

Застосування[ред. | ред. код]

Детальніша інформація: Довірчий інтервал

Прикладом використання стандартної похибки, є побудова довірчих інтервалів для невідомого середнього значення сукупності. Якщо вибірка є нормально розподіленою, тоді вибіркове середнє, стандартна похибка і квантилі нормального розподілу можливо застосувати для розрахунку довірчих інтервалів для істинного середнього сукупності. Для визначення верхньої і нижньої межі 95%-го довірчого інтервалу можна використати наступний вираз, де дорівнює вибірковому середньому, дорівнює стандартній похибці вибіркового середнього і 1.96[en] є 0.975 квантилем нормального розподілу:

Верхній 95% ліміт і
Нижній 95% ліміт

Зокрема, стандартна похибка для вибіркової статистики (такої як вибіркове середнє) є фактичним або оціненим стандартним відхиленням похибки, що визначається процесом, яким вона була породжена. Іншими словами, це є фактичне чи оцінене стандартне відхилення вибіркового розподілу вибіркової статистики.

Стандартна похибка є простою мірою невизначення величини (мірою невпевненості) і часто використовується з наступних міркувань:

Стандартна похибка середнього в порівнянні із стандартним відхиленням[ред. | ред. код]

В статистиці і технічній літературі, дані експериментів часто підсумовують за допомогою середнього і стандартного відхилення даних вибірки або середнього і стандартної похибки. Це як правило приводить до хибного уявлення про те, що ці оцінки взаємозамінні. Однак, середнє і стандартне відхилення відносяться до описової статистики, в той час як стандартна похибка середнього визначає опис випадкового процесу відбору вибірки. Стандартне відхилення вибіркових даних дозволяє описати варіацію в вимірюваннях, в той час як стандартна похибка середнього це ймовірнісне твердження про те як розмір вибірки може забезпечити кращу оцінку середнього значення сукупності, що відповідає центральній граничній теоремі, і надати її межі.[4]

Простими словами, стандартна похибка вибіркового середнього є оцінкою того як далеко вибіркове середнє скоріше за все буде знаходитися від середнього сукупності, в той час як стандартне відхилення для вибірки це степінь того, як окремі події в рамках вибірки відрізняються від вибіркового середнього. Якщо стандартне відхилення вибірки є скінченним, стандартна похибка середнього для вибірки буде прямувати до нуля при збільшенні об'єму вибірки, оскільки оцінка середнього сукупності буде покращуватися, а стандартне відхилення вибірки із збільшенням її об'єму буде буде краще наближати стандартне відхилення сукупності.

Корекція для скінченної сукупності[ред. | ред. код]

Щодо наведеної вище формули для стандартної похибки припускають, що об'єм вибірки набагато менший ніж об'єм сукупності, настільки що можна вважати що популяція фактично є нескінченного розміру. Це типовий випадок навіть у випадку скінченних сукупностей, оскільки в більшість часу, людей здебільшого цікавить управління процесом, який створив цю існуючу скінченну сукупність; відповідно до В. Едвардс Демінгу це називається аналітичним дослідженням[en]. Якщо метою є управління існуючою скінченною сукупністю, яка не змінюється із часом, тоді необхідно вводити поправку щодо розміру сукупності; це називається нумераційним дослідженням.

Коли частка вибірки є великою (приблизно 5% або більше) при нумераційному дослідженні, для оцінки стандартного відхилення потрібно вводити корекцію, помноживши на "поправку для скінченної сукупності":[5] [6]

що, для великих N буде:

аби врахувати додану точність, що буде отримана якщо вибірка становитиме більший процент від сукупності. Суть ПСК полягає в тому, що похибка стає нульовою коли об'єм вибірки n є рівним об'єму сукупності N.

Література[ред. | ред. код]

  • Hays, W. Statistics. Cengage Learning, 1994. (англ.)

Примітки[ред. | ред. код]

  1. Gurland, J; Tripathi RC (1971). A simple approximation for unbiased estimation of the standard deviation. American Statistician (American Statistical Association) 25 (4): 30–32. JSTOR 2682923. doi:10.2307/2682923. 
  2. Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (вид. 2nd). с. 53. ISBN 0-7167-1254-7. 
  3. Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 0-646-12621-0. 
  4. Barde, M. (2012). What to use to express the variability of data: Standard deviation or standard error of mean?. Perspect Clin Res. 3 (3): 113–116. doi:10.4103/2229-3485.100662. 
  5. Isserlis, L. (1918). On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society (Blackwell Publishing) 81 (1): 75–81. JSTOR 2340569. doi:10.2307/2340569.  (Equation 1)
  6. Bondy, Warren; Zlot, William (1976). The Standard Error of the Mean and the Difference Between Means for Finite Populations. The American Statistician (Taylor & Francis) 30: 96–97. JSTOR 2683803.  (Equation 2)