Метод найменших квадратів: відмінності між версіями

[неперевірена версія]

← Попереднє редагування Наступне редагування →

Вилучено вміст Додано вміст

Лінійно

Версія за 14:24, 8 січня 2012

Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.

Лінійний випадок

Одна незалежна змінна

Нехай маємо лінійну регресію зі скалярною змінною x:

y=x\beta _{1}+\beta _{0},

а також вибірку початкових даних $(y_{i},x_{i})$ розміру M. Тоді

\beta _{0}={\frac {1}{M}}\sum _{i}y_{i}-{\frac {\beta _{1}}{M}}\sum _{i}x_{i},\beta _{1}={\frac {M\sum _{i}x_{i}y_{i}-\sum _{i}x_{i}\sum _{i}y_{i}}{M\sum _{i}x_{i}^{2}-(\sum _{i}x_{i})^{2}}}

Множинна регресія (випадок багатьох незалежних змінних)

Для надлишково-визначеної системи m лінійних рівнянь з n невідомими $\beta _{j},\quad (m>n):$

\sum _{j=1}^{n}X_{ij}\beta _{j}=y_{i},\quad i={\overline {1,m}},\quad j={\overline {1,n}}

чи в матричній формі запису:

X{\boldsymbol {\beta }}=\mathbf {y} ,

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:

{\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,{\big \|}\mathbf {y} -X{\boldsymbol {\beta }}{\big \|}^{2}.

Такий розв'язок завжди існує і він є єдиним:

{\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }\mathbf {y}

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.

Виведення формули

Значення $S=\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}$ досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\ (j=1,2,\dots ,n)

де використано позначення $r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.$

Також виконуються рівності:

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.

Підставляючи вирази для залишків і їх похідних одержимо рівність:

{\frac {\partial S}{\partial \beta _{j}}}=-2\sum _{i=1}^{m}X_{ij}\left(y_{i}-\sum _{k=1}^{n}X_{ik}\beta _{k}\right)=0.

Дану рівність можна звести до вигляду:

\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\ (j=1,2,\dots ,n)\,

або в матричній формі:

(\mathbf {X} ^{\top }\mathbf {X} ){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\top }\mathbf {y} .

Числові методи для обчислення розв'язку

Якщо матриця $\ X^{\top }X$ є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького $X^{\top }X=R^{\top }R$ , де $R$ — верхня трикутна матриця.

R^{\top }R{\hat {\boldsymbol {\beta }}}=X^{\top }\mathbf {y} .

Розв'язок отримаємо в два кроки:

Отримаємо $\mathbf {z}$ з рівняння $R^{\top }\mathbf {z} =X^{\top }\mathbf {y} ,$
Підставимо і отримаємо ${\hat {\boldsymbol {\beta }}}$ з $R{\hat {\boldsymbol {\beta }}}=\mathbf {z} .$

В обох випадках використовуються властивості трикутної матриці.

Статистичні властивості

Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних $\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}$ будується модель:

y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,

або в матричній формі:

y=X\beta +\varepsilon ,\,

де:

y={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad X={\begin{pmatrix}x'_{1}\\x'_{2}\\\vdots \\x'_{n}\end{pmatrix}}={\begin{pmatrix}x_{11}&\cdots &x_{1p}\\x_{21}&\cdots &x_{2p}\\\vdots &\ddots &\vdots \\x_{n1}&\cdots &x_{np}\end{pmatrix}},\quad \beta ={\begin{pmatrix}\beta _{1}\\\vdots \\\beta _{p}\end{pmatrix}},\quad \varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.

В цих формулах $\beta$ — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а $\varepsilon$ — вектор випадкових змінних.

У класичній моделі множинної лінійної регресії приймаються такі умови:

$y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,$
$\operatorname {E} [\,\varepsilon _{i}]=0.$
$\operatorname {E} [\,\varepsilon _{i}\varepsilon _{j}]={\begin{cases}\sigma ^{2}&i=j\\0&i\neq j\end{cases}}$

тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

Ранг матриці X рівний p + 1, тобто між пояснюючими змінними відсутня лінійна залежність.

Для такої моделі оцінка ${\hat {\boldsymbol {\beta }}}$ одержана методом найменших квадратів володіє властивостями:

Незміщеність. Оцінка ${\hat {\boldsymbol {\beta }}}$ є незміщеною, тобто $\operatorname {E} [\,{\hat {\beta }}\,|X\,]=\beta .$ Справді:

\operatorname {E} [\,{\hat {\beta }}]=\operatorname {E} {\Big [}(X'X)^{-1}X'(X\beta +\varepsilon ){\Big ]}=\beta +\operatorname {E} {\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}=\beta +{\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}\operatorname {E} (\varepsilon )=\beta

Коваріаційна матриця оцінки ${\hat {\boldsymbol {\beta }}}$ рівна:

\operatorname {Var} [\,{\hat {\beta }}\,]=\sigma ^{2}(X'X)^{-1}.

Це випливає з того, що

\operatorname {Var} [\,Y\,]=\operatorname {Var} [\,\varepsilon \,]

і

\operatorname {E} [\,{\hat {\beta }}]=\operatorname {Var} [\,(X^{\top }X)^{-1}X^{\top }Y\,]=(X^{\top }X)^{-1}X^{\top }\operatorname {Var} [\,Y\,]X(X^{\top }X)^{-1}=

=\sigma ^{2}(X'X)^{-1}(X^{\top }X)^{-1}(X^{\top }X)=\sigma ^{2}(X'X)^{-1}

Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці $(X^{\top }X)$ до безмежності при збільшенні розміру вибірки.
Якщо додатково припустити нормальність змінних $\varepsilon ,$ то оцінка МНК має розподіл:

{\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X'X)^{-1}{\big )}

В математичному моделюванні

Нехай ми маємо вибірку початкових даних $f(x_{i})=y_{i}\ i={\overline {1..n}}$ . Функція $f$ — невідома.

Якщо ми знаємо приблизний вигляд функції $f(x)$ , то задамо її у вигляді функціоналу $F(x_{i},a_{0},\ldots ,a_{m})\approx y_{i}$ , де $a_{0},\ldots ,a_{m}$ — невідомі константи.

Нам потрібно мінімізувати відмінності між $F$ та $f$ . Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках $x_{i}$ і її мінімізують (тому метод так і називається):

I(a_{0},\ldots ,a_{m})=\sum _{i=0}^{n}(y_{i}-F(x_{i},a_{0},\ldots ,a_{m}))^{2}\to \min

Коефіцієнти $a_{j}$ в яких така міра мінімальна знаходять з системи:

{\begin{cases}\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{0}}}=0\\\ldots \\\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{m}}}=0\end{cases}}

Джерела

Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.
Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. - 432 с. ISBN 5-238-00305-6
Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.
Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall

Шаблон:Link GA

@@ Рядок 16: / Рядок 16: @@
 : <math> \beta_0 = \frac{1}{M} \sum_i y_i - \frac{\beta_1}{M}\sum_i x_i,   \beta_1 = \frac{M\sum_i x_iy_i - \sum_i x_i\sum_i y_i}{M\sum_i x_i^2 - (\sum_i x_i)^2}</math>
-=== Множинна регресія (випадок багатьох незалежних змін) ===
+=== Множинна регресія (випадок багатьох незалежних змінних) ===
 Для надлишково-визначеної системи ''m'' [[СЛАР|лінійних рівнянь]] з ''n'' невідомими <math>\beta_j, \quad (m > n) :</math>