Згруповані дані
Згруповані дані — це дані, що формуються шляхом агрегування окремих спостережень[en] змінної в групи, так що частотний розподіл цих груп служить зручним засобом для узагальнення або аналізу даних. Існує два основних типи групування: об'єднання даних[en] одновимірної змінної, коли замість окремих значень використовуються підрахунки у кошиках (групах); та групування багатовимірних змінних за деякими вимірами (головним чином за незалежними змінними), отримання розподілу вимірів, по яким не відбувається групування (надто за залежними змінними).
Групування даних має на меті їх стиснення без суттєвої втрати вибіркою інформативності, та полегшення подальшої роботи з даними.
Ідею згрупованих даних можна проілюструвати, розглянувши такий необроблений набір даних:
20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 | 11 | 16 | 21 | 17 | 11 | 34 | 14 | 15 | 21 | 18 | 17 |
Наведені вище дані можна згрупувати для побудови розподілу частоти будь-яким із кількох способів. Один із методів — використовувати інтервали як основу.
Найменше значення у наведених даних — 8, а найбільше — 34. Інтервал від 8 до 34 розбивається на менші підінтервали (які називаються інтервалами класів). Для кожного інтервалу класу підраховується кількість елементів даних, що потрапляють у цей інтервал. Це число називається частотою інтервалу цього класу. Результати представлені у вигляді таблиці частот:
Час (у секундах) | Частота |
---|---|
5 ≤ t <10 | 1 |
10 ≤ t <15 | 4 |
15 ≤ t <20 | 6 |
20 ≤ t <25 | 4 |
25 ≤ t <30 | 2 |
30 ≤ t <35 | 3 |
Ще один спосіб групування даних — це використання деяких якісних характеристик замість числових інтервалів. Наприклад, припустимо, що в наведеному вище прикладі, є три типи учнів: 1) нижче норми, якщо час реакції складає від 5 до 14 секунд, 2) нормальна, це між 15 і 24 сек, і 3) вище норми, якщо час становить 25 секунд або більше, потім згруповані дані мають такий вигляд:
Частота | |
---|---|
Нижче норми | 5 |
Звичайний | 10 |
Вище норми | 5 |
Ще одним прикладом групування даних є використання деяких часто використовуваних числових значень, які насправді є «іменами», які ми присвоюємо категоріям. Наприклад, давайте розглянемо віковий розподіл учнів у класі. Учням може бути 10 років, 11 років або 12 років. Це вікові групи 10, 11 та 12 років. Зверніть увагу, що школярі у віковій групі 10 мають вік від 10 років та 0 днів до 10 років та 364 днів, отже, їх середній вік становить 10,5 років, якщо дивитись на вік по неперервній шкалі. Згруповані дані виглядають так:
Вік | Частота |
---|---|
10 | 10 |
11 | 20 |
12 | 10 |
Оцінка середнього значення сукупності, , з якої дані можуть бути обчислені з згрупованих даних, як:
У цій формулі х відноситься до середньої точки інтервалів класу, і f є частотою класу. Слід зазначити, що результат цього буде відрізнятися від вибіркового середнього[en]. Середнє значення для згрупованих даних у наведеному вище прикладі, можна розрахувати таким чином:
Клас інтервалів | Частота (f) | Середнє значення (x) | f x |
---|---|---|---|
5 та вище, але нижче 10 | 1 | 7.5 | 7.5 |
10 ≤ t < 15 | 4 | 12.5 | 50 |
15 ≤ t < 20 | 6 | 17.5 | 105 |
20 ≤ t < 25 | 4 | 22.5 | 90 |
25 ≤ t < 30 | 2 | 27.5 | 55 |
30 ≤ t < 35 | 3 | 32.5 | 97.5 |
Разом | 20 | 405 |
Таким чином, середнє значення згрупованих даних є:
Середнє значення згрупованих даних у наведеному вище прикладі 4 може бути обчислено так:
Вікова група | Частота ( f ) | Середнє значення (x) | f x |
---|---|---|---|
10 | 10 | 10.5 | 105 |
11 | 20 | 11.5 | 230 |
12 | 10 | 12.5 | 125 |
Разом | 40 | 460 |
Таким чином, середнє значення згрупованих даних становить
- Newbold, P.; Carlson, W.; Thorne, B. (2009). Statistics for Business and Economics (вид. Seventh). Pearson Education. ISBN 978-0-13-507248-6.