Рядок 16:
Рядок 16:
: <math> \beta_0 = \frac{1}{M} \sum_i y_i - \frac{\beta_1}{M}\sum_i x_i, \beta_1 = \frac{M\sum_i x_iy_i - \sum_i x_i\sum_i y_i}{M\sum_i x_i^2 - (\sum_i x_i)^2}</math>
: <math> \beta_0 = \frac{1}{M} \sum_i y_i - \frac{\beta_1}{M}\sum_i x_i, \beta_1 = \frac{M\sum_i x_iy_i - \sum_i x_i\sum_i y_i}{M\sum_i x_i^2 - (\sum_i x_i)^2}</math>
=== Множинна регресія (випадок багатьох незалежних змін) ===
=== Множинна регресія (випадок багатьох незалежних змінних ) ===
Для надлишково-визначеної системи ''m'' [[СЛАР|лінійних рівнянь]] з ''n'' невідомими <math>\beta_j, \quad (m > n) :</math>
Для надлишково-визначеної системи ''m'' [[СЛАР|лінійних рівнянь]] з ''n'' невідомими <math>\beta_j, \quad (m > n) :</math>
Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі . На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь . Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії , що широко застосовується у математичній статистиці і економетриці .
Результат підгонки сукупності спостережень квадратичною функцією .
Лінійний випадок
Одна незалежна змінна
Нехай маємо лінійну регресію зі скалярною змінною x :
y
=
x
β
1
+
β
0
,
{\displaystyle y=x\beta _{1}+\beta _{0},}
а також вибірку початкових даних
(
y
i
,
x
i
)
{\displaystyle (y_{i},x_{i})}
розміру M .
Тоді
β
0
=
1
M
∑
i
y
i
−
β
1
M
∑
i
x
i
,
β
1
=
M
∑
i
x
i
y
i
−
∑
i
x
i
∑
i
y
i
M
∑
i
x
i
2
−
(
∑
i
x
i
)
2
{\displaystyle \beta _{0}={\frac {1}{M}}\sum _{i}y_{i}-{\frac {\beta _{1}}{M}}\sum _{i}x_{i},\beta _{1}={\frac {M\sum _{i}x_{i}y_{i}-\sum _{i}x_{i}\sum _{i}y_{i}}{M\sum _{i}x_{i}^{2}-(\sum _{i}x_{i})^{2}}}}
Множинна регресія (випадок багатьох незалежних змінних)
Для надлишково-визначеної системи m лінійних рівнянь з n невідомими
β
j
,
(
m
>
n
)
:
{\displaystyle \beta _{j},\quad (m>n):}
∑
j
=
1
n
X
i
j
β
j
=
y
i
,
i
=
1
,
m
¯
,
j
=
1
,
n
¯
{\displaystyle \sum _{j=1}^{n}X_{ij}\beta _{j}=y_{i},\quad i={\overline {1,m}},\quad j={\overline {1,n}}}
чи в матричній формі запису:
X
β
=
y
,
{\displaystyle X{\boldsymbol {\beta }}=\mathbf {y} ,}
зазвичай не існує точного розв'язку, і потрібно знайти такі β , які мінімізують наступну норму:
a
r
g
m
i
n
β
∑
i
=
1
m
|
y
i
−
∑
j
=
1
n
X
i
j
β
j
|
2
=
a
r
g
m
i
n
β
‖
y
−
X
β
‖
2
.
{\displaystyle {\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,{\big \|}\mathbf {y} -X{\boldsymbol {\beta }}{\big \|}^{2}.}
Такий розв'язок завжди існує і він є єдиним:
β
^
=
(
X
⊤
X
)
−
1
X
⊤
y
{\displaystyle {\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }\mathbf {y} }
хоч дана формула не є ефективною через необхідність знаходити обернену матрицю .
Виведення формули
Значення
S
=
∑
i
=
1
m
|
y
i
−
∑
j
=
1
n
X
i
j
β
j
|
2
{\displaystyle S=\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}}
досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:
∂
S
∂
β
j
=
2
∑
i
r
i
∂
r
i
∂
β
j
=
0
(
j
=
1
,
2
,
…
,
n
)
{\displaystyle {\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\ (j=1,2,\dots ,n)}
де використано позначення
r
i
=
y
i
−
∑
j
=
1
n
X
i
j
β
j
.
{\displaystyle r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.}
Також виконуються рівності:
∂
r
i
∂
β
j
=
−
X
i
j
.
{\displaystyle {\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.}
Підставляючи вирази для залишків і їх похідних одержимо рівність:
∂
S
∂
β
j
=
−
2
∑
i
=
1
m
X
i
j
(
y
i
−
∑
k
=
1
n
X
i
k
β
k
)
=
0.
{\displaystyle {\frac {\partial S}{\partial \beta _{j}}}=-2\sum _{i=1}^{m}X_{ij}\left(y_{i}-\sum _{k=1}^{n}X_{ik}\beta _{k}\right)=0.}
Дану рівність можна звести до вигляду:
∑
i
=
1
m
∑
k
=
1
n
X
i
j
X
i
k
β
^
k
=
∑
i
=
1
m
X
i
j
y
i
(
j
=
1
,
2
,
…
,
n
)
{\displaystyle \sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\ (j=1,2,\dots ,n)\,}
або в матричній формі:
(
X
⊤
X
)
β
^
=
X
⊤
y
.
{\displaystyle (\mathbf {X} ^{\top }\mathbf {X} ){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\top }\mathbf {y} .}
Числові методи для обчислення розв'язку
Якщо матриця
X
⊤
X
{\displaystyle \ X^{\top }X}
є невиродженою та додатноозначеною , тобто має повний ранг , тоді система може бути розв'язана за допомогою розкладу Холецького
X
⊤
X
=
R
⊤
R
{\displaystyle X^{\top }X=R^{\top }R}
, де
R
{\displaystyle R}
— верхня трикутна матриця .
R
⊤
R
β
^
=
X
⊤
y
.
{\displaystyle R^{\top }R{\hat {\boldsymbol {\beta }}}=X^{\top }\mathbf {y} .}
Розв'язок отримаємо в два кроки:
Отримаємо
z
{\displaystyle \mathbf {z} }
з рівняння
R
⊤
z
=
X
⊤
y
,
{\displaystyle R^{\top }\mathbf {z} =X^{\top }\mathbf {y} ,}
Підставимо і отримаємо
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
з
R
β
^
=
z
.
{\displaystyle R{\hat {\boldsymbol {\beta }}}=\mathbf {z} .}
В обох випадках використовуються властивості трикутної матриці.
Статистичні властивості
Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних
{
y
i
,
x
i
1
,
…
,
x
i
p
}
i
=
1
n
{\displaystyle \{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}}
будується модель:
y
i
=
β
0
β
1
x
i
1
+
⋯
+
β
p
x
i
p
+
ε
i
=
x
i
′
β
+
ε
i
,
i
=
1
,
…
,
n
,
{\displaystyle y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,}
або в матричній формі:
y
=
X
β
+
ε
,
{\displaystyle y=X\beta +\varepsilon ,\,}
де:
y
=
(
y
1
y
2
⋮
y
n
)
,
X
=
(
x
1
′
x
2
′
⋮
x
n
′
)
=
(
x
11
⋯
x
1
p
x
21
⋯
x
2
p
⋮
⋱
⋮
x
n
1
⋯
x
n
p
)
,
β
=
(
β
1
⋮
β
p
)
,
ε
=
(
ε
1
ε
2
⋮
ε
n
)
.
{\displaystyle y={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad X={\begin{pmatrix}x'_{1}\\x'_{2}\\\vdots \\x'_{n}\end{pmatrix}}={\begin{pmatrix}x_{11}&\cdots &x_{1p}\\x_{21}&\cdots &x_{2p}\\\vdots &\ddots &\vdots \\x_{n1}&\cdots &x_{np}\end{pmatrix}},\quad \beta ={\begin{pmatrix}\beta _{1}\\\vdots \\\beta _{p}\end{pmatrix}},\quad \varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.}
В цих формулах
β
{\displaystyle \beta }
— вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а
ε
{\displaystyle \varepsilon }
— вектор випадкових змінних.
У класичній моделі множинної лінійної регресії приймаються такі умови:
y
i
=
β
0
β
1
x
i
1
+
⋯
+
β
p
x
i
p
+
ε
i
=
x
i
′
β
+
ε
i
,
i
=
1
,
…
,
n
,
{\displaystyle y_{i}=\beta _{0}\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=x'_{i}\beta +\varepsilon _{i},\qquad i=1,\ldots ,n,}
E
[
ε
i
]
=
0.
{\displaystyle \operatorname {E} [\,\varepsilon _{i}]=0.}
E
[
ε
i
ε
j
]
=
{
σ
2
i
=
j
0
i
≠
j
{\displaystyle \operatorname {E} [\,\varepsilon _{i}\varepsilon _{j}]={\begin{cases}\sigma ^{2}&i=j\\0&i\neq j\end{cases}}}
тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.
Для такої моделі оцінка
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
одержана методом найменших квадратів володіє властивостями:
Незміщеність. Оцінка
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
є незміщеною , тобто
E
[
β
^
|
X
]
=
β
.
{\displaystyle \operatorname {E} [\,{\hat {\beta }}\,|X\,]=\beta .}
Справді:
E
[
β
^
]
=
E
[
(
X
′
X
)
−
1
X
′
(
X
β
+
ε
)
]
=
β
+
E
[
(
X
′
X
)
−
1
X
′
ε
]
=
β
+
[
(
X
′
X
)
−
1
X
′
ε
]
E
(
ε
)
=
β
{\displaystyle \operatorname {E} [\,{\hat {\beta }}]=\operatorname {E} {\Big [}(X'X)^{-1}X'(X\beta +\varepsilon ){\Big ]}=\beta +\operatorname {E} {\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}=\beta +{\Big [}(X'X)^{-1}X'\varepsilon {\Big ]}\operatorname {E} (\varepsilon )=\beta }
Коваріаційна матриця оцінки
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
рівна:
Var
[
β
^
]
=
σ
2
(
X
′
X
)
−
1
.
{\displaystyle \operatorname {Var} [\,{\hat {\beta }}\,]=\sigma ^{2}(X'X)^{-1}.}
Це випливає з того, що
Var
[
Y
]
=
Var
[
ε
]
{\displaystyle \operatorname {Var} [\,Y\,]=\operatorname {Var} [\,\varepsilon \,]}
і
E
[
β
^
]
=
Var
[
(
X
⊤
X
)
−
1
X
⊤
Y
]
=
(
X
⊤
X
)
−
1
X
⊤
Var
[
Y
]
X
(
X
⊤
X
)
−
1
=
{\displaystyle \operatorname {E} [\,{\hat {\beta }}]=\operatorname {Var} [\,(X^{\top }X)^{-1}X^{\top }Y\,]=(X^{\top }X)^{-1}X^{\top }\operatorname {Var} [\,Y\,]X(X^{\top }X)^{-1}=}
=
σ
2
(
X
′
X
)
−
1
(
X
⊤
X
)
−
1
(
X
⊤
X
)
=
σ
2
(
X
′
X
)
−
1
{\displaystyle =\sigma ^{2}(X'X)^{-1}(X^{\top }X)^{-1}(X^{\top }X)=\sigma ^{2}(X'X)^{-1}}
Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці
(
X
⊤
X
)
{\displaystyle (X^{\top }X)}
до безмежності при збільшенні розміру вибірки.
Якщо додатково припустити нормальність змінних
ε
,
{\displaystyle \varepsilon ,}
то оцінка МНК має розподіл:
β
^
∼
N
(
β
,
σ
2
(
X
′
X
)
−
1
)
{\displaystyle {\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X'X)^{-1}{\big )}}
В математичному моделюванні
Нехай ми маємо вибірку початкових даних
f
(
x
i
)
=
y
i
i
=
1..
n
¯
{\displaystyle f(x_{i})=y_{i}\ i={\overline {1..n}}}
. Функція
f
{\displaystyle f}
— невідома.
Якщо ми знаємо приблизний вигляд функції
f
(
x
)
{\displaystyle f(x)}
, то задамо її у вигляді функціоналу
F
(
x
i
,
a
0
,
…
,
a
m
)
≈
y
i
{\displaystyle F(x_{i},a_{0},\ldots ,a_{m})\approx y_{i}}
, де
a
0
,
…
,
a
m
{\displaystyle a_{0},\ldots ,a_{m}}
— невідомі константи.
Нам потрібно мінімізувати відмінності між
F
{\displaystyle F}
та
f
{\displaystyle f}
. Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках
x
i
{\displaystyle x_{i}}
і її мінімізують (тому метод так і називається):
I
(
a
0
,
…
,
a
m
)
=
∑
i
=
0
n
(
y
i
−
F
(
x
i
,
a
0
,
…
,
a
m
)
)
2
→
min
{\displaystyle I(a_{0},\ldots ,a_{m})=\sum _{i=0}^{n}(y_{i}-F(x_{i},a_{0},\ldots ,a_{m}))^{2}\to \min }
Коефіцієнти
a
j
{\displaystyle a_{j}}
в яких така міра мінімальна знаходять з системи:
{
δ
I
(
a
0
,
…
,
a
m
)
δ
a
0
=
0
…
δ
I
(
a
0
,
…
,
a
m
)
δ
a
m
=
0
{\displaystyle {\begin{cases}\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{0}}}=0\\\ldots \\\displaystyle {\frac {\delta I(a_{0},\ldots ,a_{m})}{\delta a_{m}}}=0\end{cases}}}
Джерела
Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов . — М.: Наука, 1986.
Прикладная статистика. Основы эконометрики: Учебник для вузов : В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики . — М.: ЮНИТИ- ДАНА, 2001. - 432 с. ISBN 5-238-00305-6
Björck, Åke (1996). Numerical methods for least squares problems . Philadelphia: SIAM. ISBN 0-89871-360-9 .
Greene, William H. (2002). Econometric analysis (5th ed.) . New Jersey: Prentice Hall
Шаблон:Link GA