Розвідувальний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Розвідувальний аналіз займається попереднім експрес-аналізом даних шляхом їх перетворення та/або представлення у зручному вигляді: графічному, табличному, схем, діаграм і т.д.

Спостереження за однією змінною[ред.ред. код]

Пробіт-графік[ред.ред. код]

Будується таким чином: Нехай \mathfrak{F} - клас розподілів типу зсув-масштабу, з базовою функцією F_0(\cdot) . Спочатку по вибірці \xi : x_1, \cdot , x_n ,будується емпірична функція розподілу F(x) , а сама пробіт-функція:

 y = F_0^{-1}(F(x))

а) Якщо пробіт-функція майже пряма, то гіпотеза про те, що фунція спостерігається на даній величині типу зсув маштабу справедлива.

 H_0: F_\xi (\cdot) \in \mathfrak{F} ( В протилежному випадку гіпотеза несправедлива)

б) Якщо є кількість точок, що лежать осторонь усіх інших точок графіка, то спостерігаємо аномальне явище у вибірці.

 y = F_0^{-1} ( F(x) ) \approx F_0^{-1} ( F_\xi(x)) = \frac{x}{b} - \frac{a}{b}

Ймовірністний графік[ред.ред. код]

Ідея та ж сама, тільки зі спотвореною віссю y. Маємо множину \{ x \in \mathbb{R}, y \in [0,1] \} , яку розтягують за правилом

 (x,y) \to (x,F_0^{-1}(y))

Папір (декартова площина) де спотворюється масштаб називається імовірністним папером. Якщо в якості розподілу взяти нормальний розподіл, то такий папір називається нормальниим імовірністним папером.

Будуємо графік функції y= F_\xi(x) для спостереження величини \xi .


Спотворений масштаб - смуга на y , від 0 до 1. Розтягується на всю площину.

Отримуємо набір ймовірностей. Набір для класу розподілів

Висячі гістобари[ред.ред. код]

Висячі гістобари - це один з графіків розвідувального аналізу, для перевірки гіпотези відповідності вибірки нормальному розподілу.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Щоб побудувати графік висячих гістобар спочатку малють нормальний розподіл найбільш узгоджений з даною вибіркою, потім проводять процедуру групування. Посередині кожного інтервалу за графік розподілу підвішують прямокутник, довжина якого пропорційна відносній частоті потрапляння значень в інтервал.

Якщо основи цих гістобар несуттєво відхиляється від осі OX, то гіпотеза про нормальність вибірки приймається. Інакше відхиляється.

Підвішена коренеграма[ред.ред. код]

Для вибірки проводять групування, і для кожного інтервалу обчислюють величину

\sqrt{ \nu_e^{(i)} }  - \sqrt{ \nu_\tau^{(i)} },

де \nu_e^{(i)} - емпірична частота попадань в інтервал, а \nu_\tau^{(i)} - теоретична частота обчислена згідно з узгодженим з вибіркою розподілом.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Зображення "скринька з вусами"[ред.ред. код]

Зображення "стебло-листок"[ред.ред. код]

Випадок спостереження за двома змінними[ред.ред. код]

Діаграма розсіювання[ред.ред. код]

Всю площину розбивають на пікселі. І в залежності від того скільки значень потрапило всередину даного пікселя, кольору пікселя присвоюють яскравість чи насиченість.

Таблиця спряженості[ред.ред. код]

Будується для двох випадкових змінних що приймають скінченне число значень. В першому рядку записують можливі значення першої змінної, в першому стовпцю - другої. І на перетині i-того рядка, та j-того стовпця записують скільки разів перша змінна прийняла і-те значення, одночасно з тим, як друга змінна прийняла j-те.