Проста лінійна регресія

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Закон Оукена в макроекономіці є прикладом простої лінійної регресії. Тут ВВП (залежна змінна) вважається лінійно залежним від зміни рівня безробіття.

У статистиці, простою лінійною регресією є лінійна регресійна модель з однією незалежною змінною.[1][2][3][4] Тобто, її розглядають у двовимірному просторі вибірки, утвореному однією незалежною змінною та однією залежною змінною (зазвичай х і у — координати в декартовій системі координат). Модель призначена для знаходження лінійної функції (не вертикальною прямої) залежності, яка якомога точніше прогнозує значення залежної змінної як функції незалежної змінної. Прикметник простий вказує на залежність залежної змінної від одного предиктора.

Далі в статті вважатимемо, що використовується звичайна регресія отримана методом найменшого квадратичного відхилення. У цьому випадку, нахил (кутовий коефіцієнт прямої) цієї прямої дорівнює кореляції між y і x скоригований на коефіцієнти стандартних відхилень цих змінних. Точка перетину отриманої лінії проходить через центр мас (x, y) даного набору точок.

Допасування регресійної лінії[ред.ред. код]

Припустимо, що є n точок {(xi, yi), i = 1, …, n}. Функція, яка описує зв'язок х і y записується:

Завдання полягає в тому, щоб знайти рівняння прямої лінії

яка б забезпечувала «найкращий» допасування наявних точок даних. Тут під «найкращий» розуміємо в сенсі найменшого квадратичного відхилення: лінія, що мінімізує суму квадратів похибок лінійної регресійної моделі. Іншими словами, α (перетин з віссю y) і β (нахил) є розв'язком наступної задачі мінімізації:

Просто розкриваючи дужки у виразі отримуємо квадратичний вираз відносно α і β, можна показати, що значення α і β , які мінімізують цільову функцію Q[5] записуються формулами:

де rxy є коефіцієнт кореляції між x і y; а sx і sy — це стандартні відхилення x і y. Горизонтальна риска над величиною вказує середнє значення цієї величини. Наприклад:

Підставляючи вирази і в

маємо

Це показує, що rxy — нахил регресійної лінії для стандартизованих точок вибірки (і ця лінія проходить через початок координат).

Іноді корисно вираховувати rxy даних з інших причин, використовуючи формулу:

На коефіцієнт детермінації (R-квадрат) дорівнює коли маємо справу з лінійною моделлю з однією незалежною змінною. Докладніше в статті про коефіцієнт кореляції вибірки.

Чисельні властивості[ред.ред. код]

  1. Регресійна лінія проходить через центр мас точок, , якщо модель включає в себе вільний член (тобто, не пересунена в початок координат)
  2. Сума похибок дорівнює нулю, якщо модель включає в себе вільний член:
  1. Значення похибок і x некорельовані, тобто (не залежно від того чи присутній в моделі вільний член):

Виведення оцінок в простій регресії[ред.ред. код]

Знайдемо і які мінімізують суму квадратичних похибок (СКП):

Щоб знайти мінімум візмемо частинні похідні по і

Перед взяттям частинної похідно по , підставимо попередній результат для .

Тепер візьмемо похідну по :

І, нарешті, підставимо  у вираз для визначення 

Див. також[ред.ред. код]

References[ред.ред. код]

  1. What is Simple Linear Regression?. Pennsylvania State University. Процитовано 2016-10-17. 
  2. Seltman, Howard J. (2008-09-08). Experimental Design and Analysis. с. 227. 
  3. Statistical Sampling and Regression: Simple Linear Regression. Columbia University. Процитовано 2016-10-17. «When one independent variable is used in a regression, it is called a simple regression;(...)» 
  4. Lane, David M. Introduction to Statistics. с. 462. 
  5. Kenney, J. F. and Keeping, E. S. (1962) «Linear Regression and Correlation.»