Метод максимальної вірогідності

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Метод максимальної вірогідності (також метод найбільшої вірогідності) у математичній статистиці — це метод оцінювання невідомого параметра шляхом максимізації функції вірогідності. Заснований на припущенні про те, що вся інформація про статистичну вибірку міститься у функції вірогідності. Метод максимальної вірогідності був проаналізований, рекомендований і значно популяризуваний Р. Фішером між 1912 і 1922 роками (хоча раніше він використовувався Гаусом, Лапласом і іншими). Оцінка максимальної вірогідності є популярним статистичним методом, який використовується для створення статистичної моделі на основі даних, і забезпечення оцінки параметрів моделі.

Метод максимальної вірогідності відповідає багатьом відомим методам оцінки в області статистики. Наприклад, припустимо, що ви зацікавлені зростом мешканців України. Припустимо, у вас дані стосовно росту деякої кількості людей, а не всього населення. Крім того передбачається, що зріст є нормально розподіленою величиною з невідомою дисперсією і середнім значенням. Вибіркові середнє значення і дисперсія зросту є максимально правдоподібними до середнього значення і дисперсії всього населення.

Для фіксованого набору даних і базової вірогідної моделі, використовуючи метод максимальної вірогідності, ми набудемо значень параметрів моделі, які роблять дані «ближчими» до реальних. Оцінка максимальної вірогідності дає унікальний і простий спосіб визначити рішення у разі нормального розподілу.

Застосування[ред.ред. код]

Метод оцінки максимальної вірогідності застосовується для широкого кола статистичних моделей, зокрема:

  • лінійні моделі і узагальнені лінійні моделі;
  • факторний аналіз;
  • моделювання структурних рівнянь;
  • багато ситуацій, в рамках перевірки гіпотези і довірчого інтервалу формування;
  • дискретні моделі вибору.

Метод застосовується в широких областях науки, зокрема:

  • системи зв'язку;
  • психометрія;
  • економетрика;
  • час затримки в акустичних і електромагнітних системах;
  • моделювання в ядерній фізиці і фізиці елементарних частинок;
  • обчислювальна філогенетика;
  • моделювання каналів в транспортних мережах.

Визначення[ред.ред. код]

Нехай маємо вибірку X_1,\ldots,X_n з розподілу \mathbb{P}_{\theta}, де \theta \in \Theta — невідомий параметр. Нехай f(\mathbf{x} \mid \theta):\Theta \to \mathbb{R}функція вірогідності, де \mathbf{x} \in \mathbb{R}. Точкова оцінка

\hat{\theta}_{\mathrm{M\Pi}} = \hat{\theta}_{\mathrm{M\Pi}} (X_1,\ldots, X_n) = \arg \max\limits_{\theta \in \Theta} f(X_1 ,\ldots, X_n \mid \theta )

називається оцінкою максимальної вірогідності параметра \theta. Таким чином, оцінка максимальної вірогідності — це така оцінка, яка максимізує функцію вірогідності при фіксованій реалізації вибірки.

Зауваження[ред.ред. код]

  • Оскільки функція x \to \ln x,\; x > 0, монотонно зростає на всій області визначення, максимум будь-якої функції f(\theta) є максимумом функції  \ln f(\theta), і навпаки. Таким чином,
\hat{\theta}_{\mathrm{M\Pi}} = \arg \max\limits_{\theta \in \Theta} L(X_1 ,\ldots, X_n \mid \theta ),

де L — логарифмічна функція вірогідності.

  • Оцінка максимальної вірогідності, взагалі кажучи, може бути зміщеною(див. приклади).

Приклади[ред.ред. код]

f(\mathbf{x} \mid \theta ) = 
\left\{
\begin{array}{ll}
\frac{1}{\theta^n}, & \mathbf{x} \in [0,\theta]^n \subset \mathbb{R}^n \\
0, & \mathbf{x} \not\in [0,\theta]^n 
\end{array}
\right..

Остання рівність може бути переписана у вигляді:

f(\mathbf{x} \mid \theta ) = 
\left\{
\begin{array}{ll}
\frac{1}{\theta^n}, & \theta \ge \max(x_1,\ldots,x_n) \\
0, & \theta < \max(x_1,\ldots,x_n) 
\end{array}
\right.,

де \mathbf{x} = (x_1,\ldots,x_n)^{\top}, звідки видно, що свого максимуму функція вірогідності досягає в точці \theta = \max(x_1,\ldots,x_n). Таким чином

\hat{\theta}_{\mathrm{M\Pi}} = \max(X_1,\ldots, X_n).
  • Нехай X_1,\ldots,X_n \sim \mathrm{N}(\mu,\sigma^2) — незалежна вибірка з нормального розподілу з відомим середнім і дисперсією. Побудуємо оцінку максимальної вірогідності \left(\hat{\mu}_{\mathrm{M\Pi}}, \widehat{\sigma^2}_{\mathrm{M\Pi}}\right)^{\top} для невідомого вектора параметрів \left(\mu,\sigma^2\right)^{\top}. Логарифмічна функція вірогідності приймає вигляд
L(\mathbf{x} \mid\mu, \sigma^2) = - \frac{n}{2} \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (X_i - \mu)^2.

Щоб знайти її максимум, прирівнюємо до нуля часткові похідні:


\left\{
\begin{matrix}
\displaystyle \frac{\partial}{\partial \mu} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\[10pt]
\displaystyle \frac{\partial}{\partial \sigma^2} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\
\end{matrix}
\right. \Rightarrow
\left\{
\begin{matrix}
\displaystyle \frac{ \sum\limits_{i=1}^n X_i - n \mu}{\sigma^2} = 0 \\[10pt]
\displaystyle -\frac{n}{2 \sigma^2} +\frac{\sum\limits_{i=1}^n (X_i - \mu)^2}{2 \left(\sigma^2\right)^2}  = 0 \\
\end{matrix}
\right.,

звідки

\hat{\mu}_{\mathrm{M\Pi}} = \bar{X}вибіркове середнє, а
\widehat{\sigma^2}_{\mathrm{M\Pi}} = S^2_nвибіркова дисперсія.