Регресійний аналіз

Регресі́йний ана́ліз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв'язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.

Регресійні моделі[ред. | ред. код]

До регресійної моделі відносяться наступні параметри і змінні:

Невідомі параметри, що позначаються як ${\boldsymbol {\beta }}$ , і які задають скаляри або вектор.
Незалежні змінні, $\mathbf {X}$ .
Залежна змінна, $Y$ .

У різних сферах застосування, може використовуватися різна термінологія замість понять залежних та незалежних змінних.

Регресійна модель співвідносить $Y$ до функції по $\mathbf {X}$ і ${\boldsymbol {\beta }}$ .

Y\approx f(\mathbf {X} ,{\boldsymbol {\beta }})

Наближення зазвичай формалізують як $\operatorname {E} (Y|\mathbf {X} )=f(\mathbf {X} ,{\boldsymbol {\beta }})$ . Для проведення регресійного аналізу необхідно визначити форму функції $f$ . Іноді форма функції основана на знаннях про взаємовідношення між $Y$ і $\mathbf {X}$ і не покладається на дані. Якщо таких знань немає, обирають гнучку або зручну форму для визначення $f$ .

Припустимо, що вектор невідомих параметрів ${\boldsymbol {\beta }}$ має довжину $k$ . Для здійснення регресійного аналізу необхідно надати інформацію про залежну змінну $Y$ :

Якщо спостерігали $N$ точок даних у формі $(Y,\mathbf {X} )$ , де $N<k$ , більшість класичних методів регресійного аналізу не можна виконати: оскільки система рівнянь, що визначає регресійну модель є недовизначеною, в ній не достатньо даних для відновлення ${\boldsymbol {\beta }}$ .
Якщо спостерігалося точно $N=k$ точок даних, а функція $f$ є лінійною, рівняння $Y=f(\mathbf {X} ,{\boldsymbol {\beta }})$ можна розв'язати точно, а не наближено. Задача спрошується до вирішення множини з $N$ рівнянь із $N$ невідомими (елементами ${\boldsymbol {\beta }})$ , які мають унікальне рішення за умови що $\mathbf {X}$ лінійно незалежні. Якщо $f$ не є лінійною, рішення може не існувати, або може існувати багато рішень.
Найбільш типовою ситуацією є випадок, де спостерігають $N>k$ точок даних. В такому випадку, існує достатньо інформації з даних, для того щоб оцінити унікальні значення ${\boldsymbol {\beta }}$ які в деякому розумінні підходять найкраще, а регресійна модель у застосування до даних може розглядатися як перевизначена система для ${\boldsymbol {\beta }}$ .

В останньому випадку, регресійний аналіз надає засоби для:

Знаходження рішення щодо невідомих параметрів ${\boldsymbol {\beta }}$ які будуть, наприклад, мінімізувати відстань між виміряними і прогнозованими значеннями залежної змінної $Y$ (що відомо як метод найменших квадратів).
При певних статистичних припущеннях, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри ${\boldsymbol {\beta }}$ і передбачені значення залежних змінних $Y$ .

Необхідна кількість незалежних вимірювань[ред. | ред. код]

Розглянемо регресійну модель, яка має три невідомі параметри, $\beta _{0}$ , $\beta _{1}$ , і $\beta _{2}$ . Припустимо, що експериментатор провів 10 вимірювань всі при точно однаковому значенні вектору незалежних змінних $\mathbf {X}$ (який містить незалежні змінні $X_{1}$ , $X_{2}$ , і $X_{3}$ ). У такому випадку, регресійний аналіз не дозволяє визначити унікальний набір оцінених значень для трьох невідомих параметрів; експериментатор не надав достатньо інформації. Найкраще що можна зробити це оцінити середнє значення стандартного відхилення залежної змінної $Y$ . Аналогічним чином, вимірювання при двох різних значеннях $\mathbf {X}$ дозволило б мати достатньо даних для регресії із двома невідомими, але не з трьома і більше невідомими.

Якщо експериментатор виконав вимірювання при трьох різних значеннях вектору незалежних змінних $\mathbf {X}$ , тоді регресійний аналіз поверне унікальний набір оцінок для трьох невідомих параметрів у ${\boldsymbol {\beta }}$ .

У випадку із загальною лінійною регресією, вищенаведене твердження є еквівалентним вимозі, що матриця $\mathbf {X} ^{\top }\mathbf {X}$ повинна бути невиродженою.

Коли кількість вимірювань, $N$ , є більшим ніж кількість невідомих параметрів, $k$ , а виміряні похибки $\epsilon _{i}$ мають нормальний розподіл тоді надлишок інформації, що міститься у $(N-k)$ вимірюваннях використовують щоб зробити статистичне передбачення щодо невідомих параметрів. Цей надлишок інформації називають степенями свободи регресії.

Задачі регресійного аналізу[ред. | ред. код]

Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними).
Прогнозування значення залежної змінної за допомогою незалежної.
Визначення внеску окремих незалежних змінних у варіацію залежної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку і є передумова для застосування аналізу.

Припущення[ред. | ред. код]

До класичних припущень^[en], що лежать в основі регресійного аналізу, відносяться:

Для здійснення прогнозування вибірка повинна бути репрезентативна для даної сукупності.
Похибка є випадковою величиною із нульовим умовним математичним сподіванням для описових змінних.
Незалежні змінні виміряні без похибки. (Примітка: Якщо це не так, замість цього можна використати техніки моделювання похибки величин^[en]).
Незалежні змінні є лінійно незалежними, (відсутність мультиколінеарності). Тобто, не можливо виразити будь-яку з цих змінних як лінійну комбінацію інших змінних.
Похибки є некореловані, тобто, коваріаційна матриця похибок є діагональною, а елементи на діагоналі матриці є дисперсією похибки.
Дисперсія похибки є сталою поміж спостережень (гомоскедастичність).

Виконання цих умов достатньо щоб оцінка найменших квадратів мала бажані властивості; зокрема, ці припущення означатимуть, що оцінки параметрів будуть незміщеними, конзистентними, і ефективними^[en] у класі лінійних незміщених оцінок. Варто відмітити, що фактичні дані вимірювань дуже рідко задовольняють припущенням. Таким чином, метод використовують навіть коли припущення не правдиві. Відхилення від даних припущень, іноді використовують як міру того, наскільки корисною є дана модель. Багато з цих припущень можуть бути пом'якшені при більш ширшому трактуванні. У результатах статистичного аналізу як правило наводять результати тестів вибіркових даних та методологію щодо відповідності і вживаності моделі.

Алгоритм регресійного аналізу[ред. | ред. код]

Нехай у точках x_n незалежної змінної x отримані виміри Y_n. Потрібно знайти залежність середнього значення величини ${\bar {Y}}$ від величини х, тобто ${\bar {Y}}(x)=f(x|a)$ , де a — вектор невідомих параметрів $a_{i}$ . Функцію $f(x|a)$ називають функцією регресії. Звичайно припускають, що $f(x|a)$ є лінійною функцією параметрів а, тобто має вигляд:

f(x|a)=\sum _{i=1}^{I}a_{i}\varphi _{i}(x)

(1),

де $f_{i}(x)$ — задані функції.

У цьому випадку матрицю $A_{ni}=f_{i}(x_{n})$ називається регресійною матрицею.

Для визначення параметрів $a_{i}$ звичайно використовують метод найменших квадратів, тобто оцінки $a_{i}$ визначають із умови мінімуму функціонала:

\Phi =\sum _{n=1}^{N}{\frac {(Y_{n}-\sum _{i}^{}A_{ni}a_{i})^{2}}{\sigma _{n}^{2}}}

і з мінімуму функціоналу: $\Phi =\sum _{n,m}(Y_{n}-\sum _{i}A_{ni}a_{i})(R^{-1})_{nm}(Y_{m}-\sum _{i}A_{mi}a_{i})$ для корельованих вимірів з кореляційною матрицею R.

Як функції $f_{i}(x)$ при невеликих $I(I\geq 5)$ звичайно служать степеневі функції $f_{i}(x)=x^{i}$ . Часто використовують ортогональні й нормовані поліноми на множині $x_{n}$ :

\varphi _{i}(x)=\sum _{k=1}^{i}c_{k}^{i}x^{k},\sum _{n}\varphi _{i}(x_{n})\sigma _{n}^{-2}\varphi _{j}(x_{n})=\delta _{ij}

.

У цьому випадку легко знайти оцінку ${\tilde {a}}_{i}$ :

{\tilde {a}}_{i}=\sum _{n}\varphi _{i}(x_{n})Y_{n}

.

Звідси випливає, що обчислення ${\tilde {a}}_{i}$ не залежить від обчислення інших ${\tilde {a}}_{j}$ .

Популярне використання як $f_{i}(x)$ сплайнів $B_{i}(x)$ , які мають дві основні властивості:

$B_{i}(x)$ — поліном заданого степеня;
$B_{i}(x)$ відмінний від нуля в околі точки $x_{i}$ .

При пошуку функції регресії у вигляді (1) природно виникає питання про кількість членів I у сумі (1). При малому значенні I не можна досягти гарного опису ${\bar {Y}}(x)$ , а при великому — великі статистичні помилки функції регресії.

Інтерполяція і екстраполяція[ред. | ред. код]

По середині, показана пряма, що є результатом інтерполяції - збалансована середина між точками над і під прямою. Пунктиром показано дві лінії екстремумів. Перша крива показує оцінені значення. Зовнішні криві показують передбачення нових вимірювань^[1].

Регресійні моделі передбачають значення змінної Y на основі заданих значень змінних X. Процедура підбору параметрів моделі з використанням передбачення на основі вибірки даних в межах діапазону її значень відомо як інтерполяція. Передбачення за межами діапазону значень даних відомо як екстраполяція. Виконання екстраполяції тісно залежить від регресійних припущень. Чим далі екстраполяція поширюються від даних, тим більшою буде відхилення моделі від реальних значень.

При виконанні екстраполяції, як правило рекомендують, передбачені значення слід супроводжувати довірчим інтервалом прогнозування, який задає міру невпевненості. Такі інтервали мають тенденцію значно розширюватися коли значення незалежної величини (або величин) виходять за межі діапазону, що покривали дані спостереження. З цієї та інших причин не можна бездумно використовувати дані екстраполяції.^[2]

Однак, такі інтервали не покривають усієї множини можливих помилок моделювання, що можуть виникнути: зокрема, припущення існування певної форми залежності між величинами Y і X. Якісно проведений регресійний аналіз буде мати також оцінку того, наскільки припущена форма залежності відповідає даним спостереження, але тільки в межах діапазону значень наявних незалежних змінних. Це означає, що будь-яка екстраполяція значно залежить від припущень щодо структурної форми регресійної залежності. Не слід обирати залежність лінійності за змінними і лінійність за параметрами лише з міркувань зручності розрахунків, для побудови моделі слід залучати всі доступні знання. Якщо відомо, що залежні змінні не можуть вийти за межі певного діапазону значень, це може стати корисним при виборі моделі – навіть якщо в отриманій вибірці не має значень близьких до таких меж. Вплив цього кроку на вибір правильної форми функції для регресії може бути досить важливим, якщо передбачається екстраполяція. Як мінімум, це може запевнити що будь-яка екстраполяція на основі підібраної моделі буде "реалістичною" (або відповідає тому, що відомо).