Розвідувальний аналіз

Розвідувальний аналіз даних (англ. Exploratory data analysis, EDA) займається попереднім експрес-аналізом даних шляхом їх перетворення та/або представлення у зручному вигляді: графічному, табличному, схем, діаграм і т.д.

Спостереження за однією змінною

Пробіт-графік

Будується таким чином: Нехай ${\mathfrak {F}}$ - клас розподілів типу зсув-масштабу, з базовою функцією $F_{0}(\cdot )$ . Спочатку по вибірці $\xi :x_{1},\cdot ,x_{n}$ ,будується емпірична функція розподілу $F(x)$ , а сама пробіт-функція:

y=F_{0}^{-1}(F(x))

а) Якщо пробіт-функція майже пряма, то гіпотеза про те, що функція спостерігається на даній величині типу зсув масштабу справедлива.

H_{0}:F_{\xi }(\cdot )\in {\mathfrak {F}}

( В протилежному випадку гіпотеза несправедлива)

б) Якщо є кількість точок, що лежать осторонь усіх інших точок графіка, то спостерігаємо аномальне явище у вибірці.

y=F_{0}^{-1}(F(x))\approx F_{0}^{-1}(F_{\xi }(x))={\frac {x}{b}}-{\frac {a}{b}}

Ймовірнісний графік

Ідея та ж сама, тільки зі спотвореною віссю y. Маємо множину $\{x\in \mathbb {R} ,y\in [0,1]\}$ , яку розтягують за правилом

(x,y)\to (x,F_{0}^{-1}(y))

Папір (декартова площина), де спотворюється масштаб, називають імовірнісним папером. Якщо за розподіл взяти нормальний розподіл, то такий папір називається нормальним імовірнісним папером.

Будуємо графік функції $y=F_{\xi }(x)$ для спостереження величини $\xi$ .

Спотворений масштаб - смуга на $y$ , від 0 до 1. Розтягується на всю площину.

Отримуємо набір ймовірностей. Набір для класу розподілів

Звисні гістобари

Звисні гістобари - це один з графіків розвідувального аналізу, для перевірки гіпотези відповідності вибірки нормальному розподілу.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Щоб побудувати графік висячих гістобар спочатку малюють нормальний розподіл найбільш узгоджений з даною вибіркою, потім проводять процедуру групування. Посередині кожного інтервалу за графік розподілу підвішують прямокутник, довжина якого пропорційна відносній частоті потрапляння значень в інтервал.

Якщо основи цих гістобар несуттєво відхиляється від осі OX, то гіпотеза про нормальність вибірки приймається. Інакше відхиляється.

Підвішена коренеграма

Для вибірки проводять групування, і для кожного інтервалу обчислюють величину

{\sqrt {\nu _{e}^{(i)}}}-{\sqrt {\nu _{\tau }^{(i)}}}

,

де $\nu _{e}^{(i)}$ - емпірична частота попадань в інтервал, а $\nu _{\tau }^{(i)}$ - теоретична частота обчислена згідно з узгодженим з вибіркою розподілом.

Нормальним розподілом найбільш узгодженим з даною вибіркою називається нормальний розподіл параметри (медіана та дисперсія) якого побудовані на базі вибірки.

Зображення «скринька з вусами»

Докладніше: Діаграма "скринька з вусами"

Зображення «стебло-листок»

Докладніше: Діаграма «стовбур — листя»

Випадок спостереження за двома змінними

Діаграма розсіювання

Докладніше: Точкова діаграма

Всю площину розбивають на пікселі. І в залежності від того скільки значень потрапило всередину даного пікселя, кольору пікселя присвоюють яскравість чи насиченість.

Таблиця спряженості

Будується для двох випадкових змінних що приймають скінченне число значень. В першому рядку записують можливі значення першої змінної, в першому стовпцю - другої. І на перетині i-того рядка, та j-того стовпця записують скільки разів перша змінна прийняла і-те значення, одночасно з тим, як друга змінна прийняла j-те.

Це незавершена стаття з математики.
Ви можете допомогти проєкту, виправивши або дописавши її.

Посилання

Розвідувальний аналіз

Зміст

Спостереження за однією змінною

Пробіт-графік

Ймовірнісний графік

Звисні гістобари

Підвішена коренеграма

Зображення «скринька з вусами»

Зображення «стебло-листок»

Випадок спостереження за двома змінними

Діаграма розсіювання

Таблиця спряженості

Посилання

Навігаційне меню

Розвідувальний аналіз

Спостереження за однією змінною

Пробіт-графік

Ймовірнісний графік

Звисні гістобари

Підвішена коренеграма

Зображення «скринька з вусами»

Зображення «стебло-листок»

Випадок спостереження за двома змінними

Діаграма розсіювання

Таблиця спряженості

Посилання

Навігаційне меню

Пошук