Розвідувальний аналіз

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Розвідувальний аналіз займається попереднім експрес-аналізом даних шляхом їх перетворення та/або представлення у зручному вигляді: графічному, табличному, схем, діаграм і т.д.

Спостереження за однією змінною[ред.ред. код]

Пробіт-графік[ред.ред. код]

Будується таким чином: Нехай - клас розподілів типу зсув-масштабу, з базовою функцією . Спочатку по вибірці ,будується емпірична функція розподілу , а сама пробіт-функція:

а) Якщо пробіт-функція майже пряма, то гіпотеза про те, що фунція спостерігається на даній величині типу зсув маштабу справедлива.

( В протилежному випадку гіпотеза несправедлива)

б) Якщо є кількість точок, що лежать осторонь усіх інших точок графіка, то спостерігаємо аномальне явище у вибірці.

Ймовірнісний графік[ред.ред. код]

Ідея та ж сама, тільки зі спотвореною віссю y. Маємо множину , яку розтягують за правилом

Папір (декартова площина) де спотворюється масштаб називається імовірністним папером. Якщо в якості розподілу взяти нормальний розподіл, то такий папір називається нормальниим імовірністним папером.

Будуємо графік функції для спостереження величини .


Спотворений масштаб - смуга на , від 0 до 1. Розтягується на всю площину.

Отримуємо набір ймовірностей. Набір для класу розподілів

Звисні гістобари[ред.ред. код]

Звисні гістобари - це один з графіків розвідувального аналізу, для перевірки гіпотези відповідності вибірки нормальному розподілу.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Щоб побудувати графік висячих гістобар спочатку малють нормальний розподіл найбільш узгоджений з даною вибіркою, потім проводять процедуру групування. Посередині кожного інтервалу за графік розподілу підвішують прямокутник, довжина якого пропорційна відносній частоті потрапляння значень в інтервал.

Якщо основи цих гістобар несуттєво відхиляється від осі OX, то гіпотеза про нормальність вибірки приймається. Інакше відхиляється.

Підвішена коренеграма[ред.ред. код]

Для вибірки проводять групування, і для кожного інтервалу обчислюють величину

,

де - емпірична частота попадань в інтервал, а - теоретична частота обчислена згідно з узгодженим з вибіркою розподілом.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Зображення «скринька з вусами»[ред.ред. код]

Зображення «стебло-листок»[ред.ред. код]

Випадок спостереження за двома змінними[ред.ред. код]

Діаграма розсіювання[ред.ред. код]

Всю площину розбивають на пікселі. І в залежності від того скільки значень потрапило всередину даного пікселя, кольору пікселя присвоюють яскравість чи насиченість.

Таблиця спряженості[ред.ред. код]

Будується для двох випадкових змінних що приймають скінченне число значень. В першому рядку записують можливі значення першої змінної, в першому стовпцю - другої. І на перетині i-того рядка, та j-того стовпця записують скільки разів перша змінна прийняла і-те значення, одночасно з тим, як друга змінна прийняла j-те.


Сигма Це незавершена стаття з математики.
Ви можете допомогти проекту, виправивши або дописавши її.