Статистична значущість

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Статистична значущість, p-рівень або p-значення результату в статистиці являє собою оцінку міри впевненості в його "істинності" (у розумінні "репрезентативності вибірки"). У статистиці величину називають статично значущою, якщо мала ймовірність чисто випадкового виникнення її або ще більш крайніх величин. Тут під крайністю розуміється ступінь відхилення від нульової гіпотези. Різниця називається «статистично значущою», якщо є дані, поява яких була б маловірогідна, якщо припустити, що ця різниця відсутня; цей вираз не означає, що дана різниця повинна бути велика, важлива, або значуща в загальному сенсі цього слова.

Рівень значущості тесту — це традиційне поняття перевірки гіпотез в частотній статистиці. Він визначається як вірогідність ухвалити рішення відхилити нульову гіпотезу, якщо насправді нульова гіпотеза вірна (рішення відоме як похибка першого роду). Процес рішення часто спирається на p-величину (читається «пі-величина»): якщо p-величина менше рівня значущості, то нульова гіпотеза відкидається. Чим менше p-величина, тим більше значущою називається тестова статистика. Чим менше p-величина, тим сильніше за підставу відкинути нульову гіпотезу.

Рівень значущості звичайно позначають грецькою буквою α (альфа). Популярними рівнями значущості є 10%, 5%, 1%, і 0.1%. Якщо тест видає p-значення менше α-рівня, то нульова гіпотеза відхиляється. Такі результати називають «статистично значущими». Наприклад, якщо хтось говорить, що «шанси того, що те, що трапилося є збігом, рівним одному з тисячі», то мають на увазі 0.1 % рівень значущості.

P-рівень (цей термін був уперше використаний у роботі Brownlee, 1960) — це показник, що знаходиться в оберненій залежності від надійності результату. Вищий p-рівень відповідає нижчому рівневі довіри до знайденої у вибірці залежності між змінними. Саме, p-рівень являє собою імовірність помилки, зв'язаної з поширенням результату, що він спостерігається, на всю популяцію. Наприклад, p-рівень = .05 (тобто 1/20) показує, що існує 5% імовірність того, що знайдений у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежність у популяції відсутня, а ви багаторазово проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати таку саме або сильнішу залежність між змінними. Відзначимо, що це не те саме, що стверджувати про реальну наявність залежності між змінними, котра в середньому може бути відтворена в 5% або 95% випадків; коли між змінними популяції існує залежність, імовірність повторення результатів дослідження, що показують наявність цієї залежності має назву статистична потужність плану. У багатьох дослідженнях p-рівень .05 розглядається як "припустима границя" рівня помилки.

Різні значення α-рівня мають свої переваги і недоліки. Менші α-рівні дають велику упевненість в тому, що вже встановлена альтернативна гіпотеза значуща, але при цьому є більший ризик не відкинути помилкову нульову гіпотезу (похибка другого роду), і таким чином менша статистична потужність. Вибір α-рівня неминуче вимагає компромісу між значущістю і потужністю, і, отже, між вірогідністю похибок першого і другого роду. У вітчизняних наукових роботах часто вживається неправильний термін "достовірність" замість терміну "статистична значущість"[джерело не вказано 220 днів].

Див. також[ред.ред. код]