Метод найменших квадратів: відмінності між версіями

[перевірена версія]

← Попереднє редагування Наступне редагування →

Вилучено вміст Додано вміст

Лінійно

Версія за 20:22, 11 лютого 2014

Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.

Мотиваційний приклад

У висліді досліду, отримали чотири $(x,y)$ точки даних: $(1,6),$ $(2,5),$ $(3,7)$ і $(4,10)$ (позначені червоним). Ми хочемо знайти лінію $y=\beta _{1}+\beta _{2}x$ , яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа $\beta _{1}$ і $\beta _{2}$ , які приблизно розв'язують надвизначену лінійну систему

{\begin{alignedat}{3}\beta _{1}+1\beta _{2}&&\;=\;&&6&\\\beta _{1}+2\beta _{2}&&\;=\;&&5&\\\beta _{1}+3\beta _{2}&&\;=\;&&7&\\\beta _{1}+4\beta _{2}&&\;=\;&&10&\\\end{alignedat}}

чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.

Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції

{\begin{aligned}S(\beta _{1},\beta _{2})=&\left[6-(\beta _{1}+1\beta _{2})\right]^{2}+\left[5-(\beta _{1}+2\beta _{2})\right]^{2}\\&+\left[7-(\beta _{1}+3\beta _{2})\right]^{2}+\left[10-(\beta _{1}+4\beta _{2})\right]^{2}.\end{aligned}}

Мінімум визначають через обчислення часткової похідної від $S(\beta _{1},\beta _{2})$ щодо $\beta _{1}$ і $\beta _{2}$ і прирівнюванням їх до нуля

{\frac {\partial S}{\partial \beta _{1}}}=0=8\beta _{1}+20\beta _{2}-56

{\frac {\partial S}{\partial \beta _{2}}}=0=20\beta _{1}+60\beta _{2}-154.

Це приводить нас до системи з двох рівнянь і двох невідомих, які звуться нормальними рівняннями. Якщо розв'язати, ми отримуємо

\beta _{1}=3.5

\beta _{2}=1.4

І рівняння $y=3.5+1.4x$ є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є $S(3.5,1.4)=1.1^{2}+(-1.3)^{2}+(-0.7)^{2}+0.9^{2}=4.2.$

Використання квадратичної моделі

Важливо, у методі лінійних найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель $y=\beta _{1}x^{2}$ . Ця модель все ще лінійна в сенсі параметру $\beta _{1}$ , отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:

{\begin{alignedat}{2}6&&\;=\beta _{1}(1)^{2}\\5&&\;=\beta _{1}(2)^{2}\\7&&\;=\beta _{1}(3)^{2}\\10&&\;=\beta _{1}(4)^{2}\\\end{alignedat}}

Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:

${\frac {\partial S}{\partial \beta _{1}}}=0=708\beta _{1}-498$

і розв'язані

$\beta _{1}=.703,$

що призводить до вислідної найпідхожої моделі $y=.703x^{2}$

Лінійний випадок

Одна незалежна змінна

Нехай маємо лінійну регресію зі скалярною змінною x:

y=x\beta _{1}+\beta _{0},

а також вибірку початкових даних $(y_{i},x_{i})$ розміру M. Тоді

\beta _{0}={\frac {1}{M}}\sum _{i}y_{i}-{\frac {\beta _{1}}{M}}\sum _{i}x_{i},\beta _{1}={\frac {M\sum _{i}x_{i}y_{i}-\sum _{i}x_{i}\sum _{i}y_{i}}{M\sum _{i}x_{i}^{2}-(\sum _{i}x_{i})^{2}}}

Множинна регресія (випадок багатьох незалежних змінних)

Для надлишково-визначеної системи m лінійних рівнянь з n невідомими $\beta _{j},\quad (m>n):$

\sum _{j=1}^{n}X_{ij}\beta _{j}=y_{i},\quad i={\overline {1,m}},\quad j={\overline {1,n}}

чи в матричній формі запису:

X{\boldsymbol {\beta }}=\mathbf {y} ,

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:

{\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,{\big \|}\mathbf {y} -X{\boldsymbol {\beta }}{\big \|}^{2}.

Такий розв'язок завжди існує і він є єдиним:

{\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }\mathbf {y}

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.

Виведення формули

Значення $S=\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}$ досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\ (j=1,2,\dots ,n)

де використано позначення $r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.$

Також виконуються рівності:

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.

Підставляючи вирази для залишків і їх похідних одержимо рівність:

{\frac {\partial S}{\partial \beta _{j}}}=-2\sum _{i=1}^{m}X_{ij}\left(y_{i}-\sum _{k=1}^{n}X_{ik}\beta _{k}\right)=0.

Дану рівність можна звести до вигляду:

\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\ (j=1,2,\dots ,n)\,

або в матричній формі:

(\mathbf {X} ^{\top }\mathbf {X} ){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\top }\mathbf {y} .

Числові методи для обчислення розв'язку

Якщо матриця $\ X^{\top }X$ є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького $X^{\top }X=R^{\top }R$ , де $R$ — верхня трикутна матриця.

R^{\top }R{\hat {\boldsymbol {\beta }}}=X^{\top }\mathbf {y} .

Розв'язок отримаємо в два кроки:

Отримаємо $\mathbf {z}$ з рівняння $R^{\top }\mathbf {z} =X^{\top }\mathbf {y} ,$
Підставимо і отримаємо ${\hat {\boldsymbol {\beta }}}$ з $R{\hat {\boldsymbol {\beta }}}=\mathbf {z} .$

В обох випадках використовуються властивості трикутної матриці.

Статистичні властивості

Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних $\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}$ будується модель:

y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,

або в матричній формі:

y=X\beta +\varepsilon ,\,

де:

y={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad X={\begin{pmatrix}x'_{1}\\x'_{2}\\\vdots \\x'_{n}\end{pmatrix}}={\begin{pmatrix}x_{11}&\cdots &x_{1p}\\x_{21}&\cdots &x_{2p}\\\vdots &\ddots &\vdots \\x_{n1}&\cdots &x_{np}\end{pmatrix}},\quad \beta ={\begin{pmatrix}\beta _{1}\\\vdots \\\beta _{p}\end{pmatrix}},\quad \varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.

В цих формулах $\beta$ — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а $\varepsilon$ — вектор випадкових змінних.

У класичній моделі множинної лінійної регресії приймаються такі умови:

$y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,$
$\operatorname {E} [\,\varepsilon _{i}]=0.$
$\operatorname {E} [\,\varepsilon _{i}\varepsilon _{j}]={\begin{cases}\sigma ^{2}&i=j\\0&i\neq j\end{cases}}$

тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

Ранг матриці X рівний p + 1, тобто між пояснюючими змінними відсутня лінійна залежність.

Для такої моделі оцінка ${\hat {\boldsymbol {\beta }}}$ одержана методом найменших квадратів володіє властивостями:

Незміщеність. Оцінка ${\hat {\boldsymbol {\beta }}}$ є незміщеною, тобто $\operatorname {E} [\,{\hat {\beta }}\,|X\,]=\beta .$ Справді:

\operatorname {E} [\,{\hat {\beta }}]=\operatorname {E} {\Big [}(X'X)^{-1}X'(X\beta +\varepsilon ){\Big ]}=\beta +\operatorname {E} {\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}=\beta +{\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}\operatorname {E} (\varepsilon )=\beta

Коваріаційна матриця оцінки ${\hat {\boldsymbol {\beta }}}$ рівна:

\operatorname {Var} [\,{\hat {\beta }}\,]=\sigma ^{2}(X'X)^{-1}.

Це випливає з того, що

\operatorname {Var} [\,Y\,]=\operatorname {Var} [\,\varepsilon \,]

і

\operatorname {E} [\,{\hat {\beta }}]=\operatorname {Var} [\,(X^{\top }X)^{-1}X^{\top }Y\,]=(X^{\top }X)^{-1}X^{\top }\operatorname {Var} [\,Y\,]X(X^{\top }X)^{-1}=

=\sigma ^{2}(X'X)^{-1}(X^{\top }X)^{-1}(X^{\top }X)=\sigma ^{2}(X'X)^{-1}

Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці $(X^{\top }X)$ до безмежності при збільшенні розміру вибірки.
Якщо додатково припустити нормальність змінних $\varepsilon ,$ то оцінка МНК має розподіл:

{\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X'X)^{-1}{\big )}

В математичному моделюванні

Нехай ми маємо вибірку початкових даних $f(x_{i})=y_{i}\ i={\overline {1..n}}$ . Функція $f$ — невідома.

Якщо ми знаємо приблизний вигляд функції $f(x)$ , то задамо її у вигляді функціоналу $F(x_{i},a_{0},\ldots ,a_{m})\approx y_{i}$ , де $a_{0},\ldots ,a_{m}$ — невідомі константи.

Нам потрібно мінімізувати відмінності між $F$ та $f$ . Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках $x_{i}$ і її мінімізують (тому метод так і називається):

I(a_{0},\ldots ,a_{m})=\sum _{i=0}^{n}(y_{i}-F(x_{i},a_{0},\ldots ,a_{m}))^{2}\to \min

Коефіцієнти $a_{j}$ в яких така міра мінімальна знаходять з системи:

{\begin{cases}\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{0}}}=0\\\ldots \\\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{m}}}=0\end{cases}}

Джерела

Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.
Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. - 432 с. ISBN 5-238-00305-6
Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.
Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall

Шаблон:Link GA

@@ Рядок 23: / Рядок 23: @@
 +\left[10-(\beta_1  +  4\beta_2)\right]^2.\end{align}</math>
-Мінімум визначають через обчислення [[часткова похідна|часткової похідної]] of <math>S(\beta_1, \beta_2)</math> щодо <math>\beta_1</math> і <math>\beta_2</math> і прирівнюванням їх до нуля
+Мінімум визначають через обчислення [[часткова похідна|часткової похідної]] від <math>S(\beta_1, \beta_2)</math> щодо <math>\beta_1</math> і <math>\beta_2</math> і прирівнюванням їх до нуля
 :<math>\frac{\partial S}{\partial \beta_1}=0=8\beta_1 + 20\beta_2 -56</math>