Метод найменших квадратів: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Рядок 34: Рядок 34:


І рівняння <math>y=3.5+1.4x</math> є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є <math>S(3.5, 1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.</math>
І рівняння <math>y=3.5+1.4x</math> є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є <math>S(3.5, 1.4)=1.1^2+(-1.3)^2+(-0.7)^2+0.9^2=4.2.</math>

===Використання квадратичної моделі===
Важливо, у методі найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель <math>y=\beta_1 x^2</math>. Ця модель все ще лінійна в сенсі параметру <math>\beta_1</math>, отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:

:<math>\begin{alignat}{2}
6 &&\; = \beta_1 (1)^2 \\
5 &&\; = \beta_1 (2)^2 \\
7 &&\; = \beta_1 (3)^2 \\
10 &&\; = \beta_1 (4)^2 \\
\end{alignat}</math>

Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:

<math>\frac{\partial S}{\partial \beta_1} = 0 = 708 \beta_1 - 498</math>

і розв'язані

<math>\beta_1 = .703,</math>

що призводить до вислідної найпідхожої моделі <math>y = .703 x^2</math>


== Лінійний випадок ==
== Лінійний випадок ==

Версія за 13:16, 12 листопада 2013

Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.

Результат підгонки сукупності спостережень квадратичною функцією.

Мотиваційний приклад

Графік точок даних (червоним), лінія найменших квадратів (синім) і відстані (зеленим)

У висліді досліду, отримали чотири точки даних: і (позначені червоним). Ми хочемо знайти лінію , яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа і , які приблизно розв'язують надвизначену лінійну систему

чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.

Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції

Мінімум визначають через обчислення часткової похідної of щодо і і прирівнюванням їх до нуля

Це приводить нас до системи з двох рівнянь і двох невідомих, які звуться нормальними рівняннями. Якщо розв'язати, ми отримуємо

І рівняння є рівнянням лінії, яка підходить найбільше. Мінімальна сума квадратів похибок є

Використання квадратичної моделі

Важливо, у методі найменших квадратів ми не обмежені використанням лінії як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель . Ця модель все ще лінійна в сенсі параметру , отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:

Часткові похідні щодо параметрів (цього разу лише одного) знов обчислені і прирівняні до 0:

і розв'язані

що призводить до вислідної найпідхожої моделі

Лінійний випадок

Одна незалежна змінна

Нехай маємо лінійну регресію зі скалярною змінною x:

а також вибірку початкових даних розміру M. Тоді

Множинна регресія (випадок багатьох незалежних змінних)

Для надлишково-визначеної системи m лінійних рівнянь з n невідомими

чи в матричній формі запису:

зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:

Такий розв'язок завжди існує і він є єдиним:

хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.

Виведення формули

Значення досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:

де використано позначення

Також виконуються рівності:

Підставляючи вирази для залишків і їх похідних одержимо рівність:

Дану рівність можна звести до вигляду:

або в матричній формі:

Числові методи для обчислення розв'язку

Якщо матриця є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького , де — верхня трикутна матриця.

Розв'язок отримаємо в два кроки:

  1. Отримаємо з рівняння
  2. Підставимо і отримаємо з

В обох випадках використовуються властивості трикутної матриці.

Статистичні властивості

Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних будується модель:

або в матричній формі:

де:

В цих формулах — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а — вектор випадкових змінних.

У класичній моделі множинної лінійної регресії приймаються такі умови:

тобто випадкові змінні є гомоскедастичними і між ними відсутня будь-яка залежність.

Для такої моделі оцінка одержана методом найменших квадратів володіє властивостями:

  • Незміщеність. Оцінка є незміщеною, тобто Справді:
  • Коваріаційна матриця оцінки рівна:
Це випливає з того, що і
  • Ефективність. Згідно з теоремою Гауса — Маркова оцінка, що одержана МНК, є найкращою лінійною незміщеною оцінкою.
  • Змістовність. При доволі слабких обмеженнях на матрицю X метод найменших квадратів є змістовним, тобто при збільшенні розміру вибірки, оцінка за імовірністю прямує до точного значення параметру. Однією з достатніх умов є наприклад прямування найменшого власного значення матриці до безмежності при збільшенні розміру вибірки.
  • Якщо додатково припустити нормальність змінних то оцінка МНК має розподіл:

В математичному моделюванні

Нехай ми маємо вибірку початкових даних . Функція — невідома.

Якщо ми знаємо приблизний вигляд функції , то задамо її у вигляді функціоналу , де — невідомі константи.

Нам потрібно мінімізувати відмінності між та . Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках і її мінімізують (тому метод так і називається):

Коефіцієнти в яких така міра мінімальна знаходять з системи:

Джерела

  • Лоусон Ч., Хенсон Р. Численное решение задач методом наименьших квадратов. — М.: Наука, 1986.
  • Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. — Т. 2: Айвазян С А. Основы эконометрики. — М.: ЮНИТИ- ДАНА, 2001. - 432 с. ISBN 5-238-00305-6
  • Björck, Åke (1996). Numerical methods for least squares problems. Philadelphia: SIAM. ISBN 0-89871-360-9.
  • Greene, William H. (2002). Econometric analysis (5th ed.). New Jersey: Prentice Hall

Шаблон:Link GA