Лінійна регресія

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Приклад простої лінійної регресії з однією незалежною змінною

У статистиці лінійна регресія — це метод моделювання залежності між скаляром y та векторною (у загальному випадку) змінною X. У випадку, якщо змінна X також є скаляром, регресію називають простою.

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії як правило застосовується метод найменших квадратів, але також можуть бути використані інші методи. Так само метод найменших квадратів може бути використаний і для нелінійних моделей. Тому МНК та лінійна регресія хоч і є тісно пов'язаними, але не є синонімами.

Означення[ред.ред. код]

Загалом лінійна регресійна модель визначається у виді:

y = \beta_0 + \beta_1 x_1 + \ldots + \beta_K x_K + u,
де y\, — залежна пояснювана змінна, (x_1,x_2,\ldots,x_K) — незалежні пояснювальні змінні, u\, — випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних але математичне сподівання якої рівне нулю.

Відповідно згідно з цією моделлю математичне очікування залежної змінної є лінійною функцією незалежних змінних:

\mathbb E (y) = \beta_0 + \beta_1 x_1 + \ldots + \beta_K x_K + u.

Вектор параметрів (\beta_0,\beta_1, \ldots , \beta_K) є невідомим і задача лінійної регресії полягає у оцінці цих параметрів на основі деяких експериментальних значень y\, і (x_1,x_2,\ldots,x_K). Тобто для деяких n експериментів є відомі значення \{y_i,\, x_{i1}, \ldots, x_{ip}\}_{i=1}^n незалежних змінних і відповідне їм значення залежної змінної.

Згідно з визначенням моделі для кожного експериментального випадку залежність між змінними визначається формулами:

y_i = \beta_0 + \beta_1 x_{1,i} + \ldots + \beta_K x_{K,i} + u_{i},

або у матричних позначеннях y = X\beta + u, \,

де:
y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad X = \begin{pmatrix} x'_1 \\ x'_2 \\ \vdots \\ x'_n \end{pmatrix} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1K} \\ 1 & x_{21} & \cdots & x_{2K} \\ \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{nK} \end{pmatrix}, \quad \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_K \end{pmatrix}, \quad u = \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix}.

На основі цих даних потрібно оцінити значення параметрів (\beta_0,\beta_1, \ldots , \beta_K), а також розподіл випадкової величини u\,. Зважаючи на характеристики досліджуваних змінних можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії[ред.ред. код]

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

попередні дві властивості можна також записати в матричних позначеннях \mathbb V(u|X) = \sigma^2 I_n, де Inодинична матриця розмірності n.
  • Ранг матриці X рівний K+1.
  • Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

  • u_i | x_i \sim \mathcal N (0, \sigma^2).

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до безмежності:

  • \lim_{n \to \infty} \lambda_{-}(X'X) = \infty, де \lambda_{-} позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії[ред.ред. код]

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі часто не виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову:

\mathbb V(u|X) = \sigma^2 W, де W\, — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці W\, існує матриця N\,, така що W^{-1} = NN, то модель:

Ny = NX\beta + Nu, \,

вже буде класичною моделлю лінійної регресії.

Методи оцінювання[ред.ред. код]

В залежності від об'єктів, що досліджуються за допомогою лінійної регресії та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

\hat \beta = \underset{\beta} {\operatorname{arg\,min}} \, \sum_{i=1}^{n}\left|y_i - \beta_0 - \sum_{j=1}^{K} X_{ij}\beta_j\right|^2 = \underset{\beta} {\operatorname{arg\,min}} \, \big\|y - X \beta \big\|^2.

Метод найменших квадратів можна застосувати у будь-яких задачах, якщо лише ранг матриці X рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

\hat \beta = (X'X)^{-1} X'y.

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де \mathbb V(u|X) = \sigma^2 W, найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

\hat \beta = (X'W^{-1}X)^{-1} X'W^{-1}y.

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

\hat \beta = \underset{\beta} {\operatorname{arg\,min}} (y - X \beta)^'W^{-1}(y - X \beta).

Серед інших методів оцінювання:

  • Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:
\hat \beta = \underset{\beta} {\operatorname{arg\,min}} \, \sum_{i=1}^{n}\left|y_i - \beta_0 - \sum_{j=1}^{K} X_{ij}\beta_j\right|. Цей метод є найкращим в сенсі максимальної вірогідності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте він може мати більш ніж один розв'язок і для нього не існує простої формули визначення оцінки.
  • Метод максимальної вірогідності. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
  • Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також[ред.ред. код]

Література[ред.ред. код]

  • Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики: Учебник для вузов. — М.: ЮНИТИ, 1998. — 1022 с.
  • Карташов М.В. Імовірність, процеси, статистика - Київ, ВПЦ Київський університет, 2007.
  • С. Р. Рао, Линейные статистические методы и их применения / Пер. с англ. — М.: Наука,1968
  • Rao, C. Radhakrishna; Toutenburg, Shalabh, Heumann (2008). Linear Models and Generalizations (3rd ed.). Berlin: Springer. ISBN 978-3-540-74226-5.