Дисперсійний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Дисперсійний аналіз (англ. analysis of variance (ANOVA)) являє собою статистичний метод аналізу результатів, які залежать від якісних ознак.
Кожен фактор може бути дискретною чи неперервною випадковою змінною, яку розділяють на декілька сталих рівнів (градацій, інтервалів). Якщо кількість вимірювань (проб, даних) на всіх рівнях кожного з факторів однакова, то дисперсійний аналіз називають рівномірним, інакше – нерівномірним.
В основі дисперсійного аналізу є такий принцип (факт з математичної статистики): якщо на випадкову величину діють взаємно незалежні фактори A, B, …, то загальна дисперсія дорівнює сумі дисперсій, зумовлених дією окремо кожного з факторів:
\sigma^2 = \sigma_A^2 + \sigma_B^2 + \ldots

Задачі дисперсійного аналізу[ред.ред. код]

В будь-якому експерименті середні значення досліджуваних величин змінюються у зв’язку зі зміною основних факторів (кількісних та якісних), що визначають умови досліду, а також і випадкових факторів. Дослідження впливу тих чи інших факторів на мінливість середніх є задачею дисперсійного аналізу.
Дисперсійний аналіз використовує властивість адитивності дисперсії випадкової величини, що обумовлено дією незалежних факторів. В залежності від числа джерел дисперсії розрізняють однофакторний та багатофакторний дисперсійний аналіз.
Дисперсійний аналіз особливо ефективний при вивченні кількох факторів. При класичному методі вивчення змінюють тільки один фактор, а решту залишають постійними. При цьому для кожного фактору проводиться своя серія спостережень, що не використовується при вивченні інших факторів. Крім того, при такому методі досліджень не вдається визначити взаємодію факторів при одночасній їх зміні. При дисперсійному аналізі кожне спостереження служить для одночасної оцінки всіх факторів та їх взаємодії.
Дисперсійний аналіз полягає у виділенні й оцінюванні окремих факторів, що викликають зміну досліджуваної випадкової величини. При цьому проводиться розклад сумарної вибіркової дисперсії на складові, обумовлені незалежними факторами. Кожна з цих складових є оцінкою дисперсії генеральної сукупності. Щоб дати оцінку дієвості впливу даного фактору, необхідно оцінити значимість відповідної вибіркової дисперсії у порівнянні з дисперсією відтворення, обумовленою випадковими факторами. Перевірка значимості оцінок дисперсії проводять з допомогою критерію Фішера.
Коли розрахункове значення критерію Фішера виявиться меншим табличного, то вплив досліджуваного фактору немає підстав вважати значимим. Коли ж розрахункове значення критерію Фішера виявиться більшим табличного, то цей фактор впливає на зміни середніх. В подальшому ми вважаємо, що виконуються наступні припущення:

  1. Випадкові помилки спостережень мають нормальний розподіл.
  2. Фактори впливають тільки на зміну середніх значень, а дисперсія спостережень залишається постійною.

Фактори, що розглядаються в дисперсійному аналізі, бувають трьох родів:

  • з випадковими рівнями, коли вибір рівнів проходить з безмежної сукупності можливих рівнів та супроводжується рандомізацією і рівні вибираються випадковим чином;
  • з фіксованими рівнями;
  • змішаного типу — частина факторів розглядається на фіксованих рівнях, але рівні решти вибираються випадковим чином.

Дисперсійний аналіз застосовується в різних формах в залежності від структури об’єкту, що досліджується; вибір відповідної форми є однією з головних трудностей в практичному застосуванні аналізу.
Дисперсійний аналіз використовує властивість адитивності дисперсії випадкової величини, що обумовлено дією незалежних факторів. В залежності від числа джерел дисперсії розрізняють однофакторний та багатофакторний дисперсійний аналіз.

Однофакторний дисперсійний аналіз[ред.ред. код]

Розглядається дія одиничного фактору А (кількісного чи якісного), котрий приймає k різних значень (рівнів фактора). Найпростіші розрахунки виходять при рівній кількості дослідів на кожному рівні фактора А.

Вихідні дані для однофакторного дисперсійного аналізу з рівним числом паралельних дослідів
Номер досліду Рівні фактору A
{{a}_{1}} {{a}_{2}} ... {{a}_{k}}
1 {{y}_{11}} {{y}_{12}} ... {{y}_{1k}}
2 {{y}_{21}} {{y}_{22}} ... {{y}_{2k}}
... ... ... ... ...
n {{y}_{n1}} {{y}_{n2}} ... {{y}_{nk}}

Дисперсійний аналіз можна провести за наступним алгоритмом:

  1. Обчислити:
    1. суми за стовпцями: {{A}_{i}}=\sum\limits_{j=1}^{n}{{{y}_{ji}}};
    2. суму квадратів усіх дослідів: S{{S}_{1}}=\sum\limits_{i=1}^{k}{\sum\limits_{j=1}^{n}{y_{ij}^{2}}};
    3. суму квадратів сум за стовпцями, поділену на число дослідів в стовпці: S{{S}_{2}}=\frac{1}{n}\sum\limits_{i=1}^{k}{A_{i}^{2}};
    4. квадрат загальної суми, поділений на число всіх дослідів (коректуючий член): S{{S}_{3}}=\frac{1}{N}{{\left( \sum\limits_{i=1}^{k}{{{A}_{i}}} \right)}^{2}};
    5. суму квадратів для стовпчика: S{{S}_{A}}=S{{S}_{2}}-S{{S}_{3}};
    6. загальну суму квадратів, рівну різниці між сумою квадратів всіх дослідів та коректуючим членом: S{{S}_{zag}}=S{{S}_{1}}-S{{S}_{3}};
    7. залишкову суму квадратів для оцінки помилки експерименту: S{{S}_{zal}}=S{{S}_{1}}-S{{S}_{2}};
    8. дисперсію s_{A}^{2}: s_{pom}^{2}=\frac{S{{S}_{A}}}{k-1};
    9. дисперсію: s_{pom}^{2}: s_{pom}^{2}=\frac{S{{S}_{zal}}}{k\left( n-1 \right)};
  2. Результати розрахунків представити у вигляді таблиці дисперсного аналізу:
Вихідні дані для однофакторного дисперсійного аналізу з рівним числом паралельних дослідів
Джерело дисперсії Число ступенів вільності Сума квадратів Середній квадрат Математичне сподівання
середнього квадрату
A k-1 S{{S}_{A}} s_{A}^{2} n\sigma _{A}^{2}+\sigma _{pom}^{2}
Залишок k\left( n-1 \right) S{{S}_{zal}} s_{pom}^{2} \sigma _{pom}^{2}
Загальна сума kn-1 S{{S}_{zag}} \frac{S{{S}_{zag}}}{kn-1}

Якщо \frac{s_{A}^{2}}{s_{pom}^{2}}\le {{F}_{1-p}}, то вплив фактора A слід вважати незначним. При цьому загальна дисперсія s^{2} пов’язана тільки з фактором випадковості і може служити оцінкою для дисперсії відтворення. Така оцінка краща від s_{pom}^{2}, бо має більше число ступенів вільності. Якщо ж справедлива нерівність
\frac{s_{A}^{2}}{s_{pom}^{2}}>{{F}_{1-p}}\left( {{f}_{1}},{{f}_{2}} \right),
де {{f}_{1}}=k-1 та {{f}_{2}}=k\left( n-1 \right)=N-k, різниця між дисперсіями s_{A}^{2} та s_{pom}^{2} значна і, відповідно, значний вплив фактора A.

Двофакторний дисперсійний аналіз[ред.ред. код]

Див. також[ред.ред. код]

Посилання[ред.ред. код]