Достатня статистика

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Достатня статистика для параметра \theta \in \Theta,\; що визначає деяке сімейство F_\theta розподілів ймовірностістатистика T = \mathrm{T}(X),\; така, що умовна імовірність вибірки X = X_1, X_2, \ldots, X_n\; при даному значенні \mathrm{T}(X)\; не залежить від параметра \theta\;. Тобто виконується рівність:

\mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t,\theta) = \mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t), \,

Достатня статистика  \mathrm{T}(X),\; таким чином містить у собі всю інформацію про параметр \theta\;, що може бути одержана на основі вибірки X. Тому поняття достатньої статистики широко використовується в теорії оцінки параметрів.

Найпростішою достатньою статистикою є сама вибірка \mathrm{T}(X) = X,\; проте справді важливими є випадки коли величина достатньої статистики значно менша від величини вибірки, зокрема коли достатня статистика виражається лише кількома числами.

Достатня статистика S = \mathrm{S}(X)\; називається мінімальною достатньою, якщо для кожної достатньої статистики T існує невипадкова вимірна функція g, що S(X) = g(T(X)) майже напевно.

Теорема факторизації[ред.ред. код]

Теорема факторизації дає спосіб практичного знаходження достатньої статистики для розподілу ймовірності. Вона дає достатні і необхідні умови достатності статистики і твердження теореми іноді використовується в якості означення.

Нехай \mathrm{T}(X)\; — деяка статистика, а f_\theta(x) — умовна функція щільності чи функція ймовірностей (залежно від виду розподілу) для вектора спостережень X. Тоді \mathrm{T}(X)\; є достатньою статистикою для параметра \theta \in \Theta,\; якщо і тільки якщо існують такі вимірні функції h і g, що можна записати:

f_\theta(x)=h(x) \, g(\theta,\mathrm{T}(x))\,\!

Доведення[ред.ред. код]

Нижче подано доведення для часткового випадку коли розподіл ймовірностей є дискретним. Тоді f_\theta(x) = \mathbb{P}(X = x |\theta)функція ймовірностей. Нехай дана функція має факторизацію, як у твердженні теореми і \mathrm{T}(x) = t.

Тоді маємо:

\begin{align} \mathbb{P}(X = x |\mathrm{T}(X)=t,\theta) & = \frac{\mathbb{P}(X = x |\theta)}{\mathbb{P}(\mathrm{T}(X)=t |\theta)} & = \frac{h(x) \, g(\theta,\mathrm{T}(x))}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,\mathrm{T}(x))} \\ & = \frac{h(x) \, g(\theta,t)}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,t)} & = \frac{h(x) \,}{\sum _{x : \mathrm{T}(x) = t} h(x) \,}. \end{align}

Звідси бачимо, що умовна ймовірність вектора X при заданому значенні статистики \mathrm{T}(X)\; не залежить від параметра і відповідно \mathrm{T}(X)\; — достатня статистика.

Навпаки можемо записати:

\mathbb{P}(X = x|\theta) = \mathbb{P}(X = x|\mathrm{T}(X)=t,\theta) \cdot \mathbb{P}(\mathrm{T}(X)=t | \theta). \,

З попереднього маємо, що перший множник правої сторони не залежить від параметра  \theta\; і його можна взяти за функцію h(x) з твердження теореми. Другий множник є функцією від  \theta\; і \mathrm{T}(X),\; і його можна взяти за функцію g(\theta,\mathrm{T}(x)). Таким чином одержано необхідний розклад, що завершує доведення теореми.

Приклади[ред.ред. код]

Розподіл Бернуллі[ред.ред. код]

Нехай X_1, X_2, \ldots, X_n\; — послідовність випадкових величин, що рівні 1 з імовірністю p і рівні 0 з імовірністю 1 - p (тобто мають розподіл Бернуллі). Тоді

\mathbb{P}(x_1, \ldots x_n | p) =  p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{\mathrm{T}(x)}(1-p)^{n-\mathrm{T}(x)} \,\!

якщо взяти \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Тоді дана статистика є достатньою згідно з теоремою факторизації, якщо позначити

g(p,\mathrm{T}(x_1, \ldots x_n)) = p^{\mathrm{T}(x_1, \ldots x_n)}(1-p)^{n-\mathrm{T}(x_1, \ldots x_n)}\,
h(x_1, \ldots x_n) = 1

Розподіл Пуассона[ред.ред. код]

Нехай X_1, X_2, \ldots, X_n\; — послідовність випадкових величин з розподілом Пуассона. Тоді

\mathbb{P}(x_1, \ldots x_n |\lambda) =  {e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} =     e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{\mathrm{T}(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! }


де \mathrm{T}(X) = X_1 + \ldots + X_n.\,\!

Дана статистика є достатньою згідно з теоремою факторизації, якщо позначити

g(p,\mathrm{T}(x_1, \ldots x_n)) = e^{-n\lambda} \lambda^{\mathrm{T}(x)}\,
h(x_1, \ldots x_n) = {1 \over x_1 ! x_2 !\cdots x_n ! }

Рівномірний розподіл[ред.ред. код]

Нехай X_1, X_2, \ldots, X_n\; — послідовність рівномірно розподілених випадкових величин X_1, X_2, \ldots, X_n\; ~ U (a, b) . Для цього випадку

 \mathbb{P}(x_1, \ldots x_n |\lambda) = \left(b - a \right)^{-n} \mathbf{1}_{ \{ a \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, b \} }.

Звідси випливає, що статистика T(X) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)\, є достатньою.

Нормальний розподіл[ред.ред. код]

Для випадкових величин X_1, X_2, \ldots, X_n\; з нормальним розподілом \mathcal{N}(\mu,\,\sigma^2) достатньою статистикою буде \mathrm{T}(X) = \left(\sum_{i=1}^nX_i, \sum_{i=1}^nX_i^2\right)\,.

Властивості[ред.ред. код]

  • Для достатньої статистики T та бієктивного відображення \phi статистика \phi(T) теж є достатньою.
  • Якщо \delta(X) — статистична оцінка деякого параметра \theta,  \mathrm{T}(X),\; — деяка достатня статистика і  \delta_{1}(X) = \textrm{E}[\delta(X)|T(X)] то \delta_{1}(X) є кращою оцінкою параметра в сенсі середньоквадратичного відхилення, тобто виконується нерівність
\textrm{E}[(\delta_{1}(X)-\vartheta)^{2}]\leq\textrm{E}[(\delta(X)-\vartheta)^{2}]
причому рівність досягається лише коли \delta є вимірною функцією від T. (Теорема Рао — Блеквела)
  • З попереднього одержується, що оцінка може бути оптимальною в сенсі середньоквадратичного відхилення лише коли вона є вимірною функцією мінімальної достатньої статистики.
  • Якщо статистика T = \mathrm{T}(X),\; є достатньою і повною ( тобто з того, що E_{\theta}[g(T(X))] = 0, \, \forall \theta \in \Theta випливає, що P_\theta ( g(T(X)) = 0 ) = 1 \, \forall \theta \in \Theta
), то довільна вимірна функція від неї є оптимальною оцінкою свого математичного сподівання.

Див. також[ред.ред. код]

Джерела[ред.ред. код]