Регресійний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Регресі́йний ана́ліз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв'язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.

Мета регресійного аналізу[ред.ред. код]

  1. Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними).
  2. Прогнозування значення залежної змінної за допомогою незалежної.
  3. Визначення внеску окремих незалежних змінних у варіацію залежної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку і є передумова для застосування аналізу.

Алгоритм регресійного аналізу[ред.ред. код]

Нехай у точках xn незалежної змінної x отримані виміри Yn. Потрібно знайти залежність середнього значення величини \bar Yвід величини х, тобто \bar Y (x)=f(x|a), де a — вектор невідомих параметрів a_i. Функцію f(x|a) називають функцією регресії. Звичайно припускають, що f(x|a) є лінійною функцією параметрів а, тобто має вигляд:

f(x|a)=\sum_{i=1}^I a_i \varphi_i(x) (1),

де f_i(x) — задані функції.

У цьому випадку матрицю A_{ni}=f_i(x_n) називається регресійною матрицею.

Для визначення параметрів a_i звичайно використовують метод найменших квадратів, тобто оцінки a_i визначають із умови мінімуму функціонала:

\Phi= \sum_{n=1}^N \frac{(Y_n- \sum_{i}^{ } A_{ni}a_i)^2}{\sigma_n^2}

і з мінімуму функціонала:\Phi=\sum_{n,m} (Y_n- \sum_{i} A_{ni}a_i)(R^{-1})_{nm} (Y_m-\sum_{i} A_{mi}a_i) для корельованих вимірів з кореляційною матрицею R.

У якості функцій f_i(x) при невеликих I(I \ge 5) звичайно служать степеневі функції f_i(x)= x^i. Часто використовують ортогональні й нормовані поліноми на множині x_n:

\varphi_i(x)= \sum_{k=1}^i c_k^ix^k, \sum_{n} \varphi_i(x_n)\sigma_n^{-2}\varphi_j(x_n)=\delta_{ij}.

У цьому випадку легко знайти оцінку \tilde{a}_i:

\tilde{a}_i=\sum_{n} \varphi_i(x_n)Y_n.

Звідси випливає, що обчислення \tilde{a}_i не залежить від обчислення інших \tilde{a}_j.

Популярне використання в якості f_i(x) сплайнів B_i(x), які мають дві основні властивості:

  1. B_i(x) — поліном заданого степеня;
  2. B_i(x) відмінний від нуля в околі точки x_i.

При пошуку функції регресії у вигляді (1) природно виникає питання про кількість членів I у сумі (1). При малому значенні I не можна досягти гарного опису \bar Y(x), а при великому — великі статистичні помилки функції регресії.

Регресійний аналіз в Excel/Calc[ред.ред. код]

MS Excel має можливості для розрахунку коефіцієнту регресії. Для цього потрібно доінсталювати «Пакет аналізу» в надбудовах.

Див. також[ред.ред. код]


Статистика Це незавершена стаття із статистики.
Ви можете допомогти проекту, виправивши або дописавши її.