Регресійний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Регресі́йний ана́ліз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу не з'ясовує чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Регресійний аналіз використовується в тому випадку, якщо відношення між змінними можуть бути виражені кількісно у виді деякої комбінації цих змінних. Отримана комбінація використовується для передбачення значення, що може приймати цільова (залежна) змінна, яка обчислюється на заданому наборі значень вхідних (незалежних) змінних. У найпростішому випадку для цього використовуються стандартні статистичні методи, такі як лінійна регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для передбачення, оскільки можуть залежати від комплексу взаємозв'язків множин змінних. Таким чином, необхідні комплексні методи для передбачення майбутніх значень.

Регресійні моделі[ред.ред. код]

До регресійної моделі відносяться наступні параметри і змінні:

  • Невідомі параметри, що позначаються як , і які задають скаляри або вектор.
  • Незалежні змінні, .
  • Залежна змінна, .

У різних сферах застосування, може використовуватися різна термінологія замість понять залежних незалежних змінних.

Регресійна модель співвідносить до функції по і .

Наближення зазвичай формалізують як . Для проведення регресійного аналізу необхідно визначити форму функції . Іноді форма функції основана на знаннях про взаємовідношення між і і не покладається на дані. Якщо таких знань немає, обирають гнучку або зручну форму для визначення .

Припустимо, що вектор невідомих параметрів має довжину . Для здійснення регресійного аналізу необхідно надати інформацію про залежну змінну :

  • Якщо спостерігали точок даних у формі , де , більшість класичних методів регресійного аналізу не можна виконати: оскільки система рівнянь, що визначає регресійну модель є недовизначеною, в ній не достатньо даних для відновлення .
  • Якщо спостерігалося точно точок даних, а функція є лінійною, рівняння можна розв'язати точно, а не наближено. Задача спрошується до вирішення множини з рівнянь із невідомими (елементами , які мають унікальне рішення за умови що лінійно незалежні. Якщо не є лінійною, рішення може не існувати, або може існувати багато рішень.
  • Найбільш типовою ситуацією є випадок, де спостерігають точок даних. В такому випадку, існує достатньо інформації з даних, для того щоб оцінити унікальні значення які в деякому розумінні підходять найкраще, а регресійна модель у застосування до даних може розглядатися як перевизначена система для .

В останньому випадку, регресійний аналіз надає засоби для:

  1. Знаходження рішення щодо невідомих параметрів які будуть, наприклад, мінімізувати відстань між виміряними і прогнозованими значеннями залежної змінної (що відомо як метод найменших квадратів).
  2. При певних статистичних припущеннях, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри і передбачені значення залежних змінних .

Необхідна кількість незалежних вимірювань[ред.ред. код]

Розглянемо регресійну модель, яка має три невідомі параметри, , , і . Припустимо, що експериментатор провів 10 вимірювань всі при точно однаковому значенні вектору незалежних змінних (який містить незалежні змінні , , і ). У такому випадку, регресійний аналіз не дозволяє визначити унікальний набір оцінених значень для трьох невідомих параметрів; експериментатор не надав достатньо інформації. Найкраще що можна зробити це оцінити середнє значення стандартного відхилення залежної змінної . Аналогічним чином, вимірювання при двох різних значеннях дозволило б мати достатньо даних для регресії із двома невідомими, але не з трьома і більше невідомими.

Якщо експериментатор виконав вимірювання при трьох різних значеннях вектору незалежних змінних , тоді регресійний аналіз поверне унікальний набір оцінок для трьох невідомих параметрів у .

У випадку із загальною лінійною регресією, вищенаведене твердження є еквівалентним вимозі, що матриця повинна бути невиродженою.

Коли кількість вимірювань, , є більшим ніж кількість невідомих параметрів, , а виміряні похибки мають нормальний розподіл тоді надлишок інформації, що міститься у вимірюваннях використовують щоб зробити статистичне передбачення щодо невідомих параметрів. Цей надлишок інформації називають степенями свободи[en] регресії.

Задачі регресійного аналізу[ред.ред. код]

  1. Визначення ступеня детермінованості варіації критеріальної (залежної) змінної предикторами (незалежними змінними).
  2. Прогнозування значення залежної змінної за допомогою незалежної.
  3. Визначення внеску окремих незалежних змінних у варіацію залежної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку і є передумова для застосування аналізу.

Алгоритм регресійного аналізу[ред.ред. код]

Нехай у точках xn незалежної змінної x отримані виміри Yn. Потрібно знайти залежність середнього значення величини від величини х, тобто , де a — вектор невідомих параметрів . Функцію називають функцією регресії. Звичайно припускають, що є лінійною функцією параметрів а, тобто має вигляд:

(1),

де  — задані функції.

У цьому випадку матрицю називається регресійною матрицею.

Для визначення параметрів звичайно використовують метод найменших квадратів, тобто оцінки визначають із умови мінімуму функціонала:

і з мінімуму функціоналу: для корельованих вимірів з кореляційною матрицею R.

Як функції при невеликих звичайно служать степеневі функції . Часто використовують ортогональні й нормовані поліноми на множині :

.

У цьому випадку легко знайти оцінку :

.

Звідси випливає, що обчислення не залежить від обчислення інших .

Популярне використання як сплайнів , які мають дві основні властивості:

  1.  — поліном заданого степеня;
  2. відмінний від нуля в околі точки .

При пошуку функції регресії у вигляді (1) природно виникає питання про кількість членів I у сумі (1). При малому значенні I не можна досягти гарного опису , а при великому — великі статистичні помилки функції регресії.

Регресійний аналіз в Excel/Calc[ред.ред. код]

MS Excel має можливості для розрахунку коефіцієнту регресії. Для цього потрібно доінсталювати «Пакет аналізу» в надбудовах.

Див. також[ред.ред. код]