Центральна тенденція
У статистиці, центральна тенденція (частіше міра центральної тенденції) — це центральне або типове значення для розподілу ймовірностей[1]. ЇЇ також можна назвати центром або місцем розподілу. У мовленні, міру центральної тенденції часто називають середнім значенням. Термін центральна тенденція бере свій початок від 1920-х рр.[2]
Найпоширенішими мірами центральної тенденції є середнє арифметичне, медіана та мода. Центральна тенденція може бути обчислена для будь-якої скінченої множини значень або для теоретичного розподілу, як, наприклад, для нормального розподілу. Час від часу, автори використовують центральну тенденцію, аби позначити «тенденцію кількісних даних, що групується навколо деякого центрального значення.»[2][3]
Центральна тенденція розподілу, як правило, різниться з його дисперсією; дисперсія і центральна тенденція часто характеризують властивості розподілів. Базуючись на дисперсії даних, аналітики можуть судити чи мають дані сильну або слабку центральну тенденцію.
Слід зазначити, що центральна тенденція не характеризує достатньою мірою випадкову величину, тому поряд з мірами центральної тенденції використовують інші міри, які характеризують розсіяння величини навколо центру, асиметрію розподілу тощо.
Наступне може бути застосованим до одновимірних даних. Залежно від обставин, перш ніж обчислювати центральну тенденцію може бути доцільним спочатку перетворити дані. Наприклад, це може бути піднесення значень у квадрат або взяття логарифма. Чи є ці перетворення доцільними і якими вони повинні бути, значною мірою залежать від даних, які аналізуються.
- Середнє арифметичне значення (або просто, середнє арифметичне) — це сума всіх значень, поділена на кількість елементів в наборі даних.
- Медіана — це середня величина, яка відокремлює вищу половину від нижньої в наборі даних. Медіана і мода є єдиними мірами центральної тенденції, які можуть бути використані для порядкових даних, в яких значення ранжуються по відношенню один до одного, але не вимірюються.
- Мода — це значення, яке найчастіше зустрічається в наборі даних. Це єдина міра центральної тенденції, яка може бути застосована для номінальних даних, які мають тільки сукупність числових даних.
- Середнє геометричне значення — це корінь n-го степеня від добутку значень набору даних, де n — це кількість елементів. Це вимірювання є дійсним тільки для тих даних, які вимірюються тільки по позитивній шкалі.
- Середнє гармонійне значення — це обернена величина середнього арифметичного, яка складається з обернених значень набору даних. Ця міра також дійсна тільки для даних, які вимірюються тільки по позитивній шкалі.
- Середнє арифметичне зважене — це середнє арифметичне значення, яке включає зважування для певних елементів даних.
- Усічене середнє значення[en] — це метод усереднення, який видаляє невеликий відсоток від найбільшого та найменшого значення перед обчисленням середнього значення.
- Інтерквантільне середнє[en] — усічене середнє, яке обчислюється на даних інтерквантільного розмаху.
- Середнє значення розмаху[en] — це середнє арифметичне максимального та мінімального значення в наборі даних.
- Midhinge[en] — середнє арифметичне двох квантилів.
- Trimean[en] — зважене середнє арифметичне медіани та двох квантилів.
- Винсоризоване середнє[en] — це арифметичне середнє в якому крайні значення замінюються значеннями, які є ближчими по значенню до медіани.
Будь-яка з перерахованих вище мір центральної тенденції може бути застосована до будь-якої координати багатовимірних даних, але результати не можуть бути незмінними стосовно повороту багатовимірного простору. Крім того, існує
- Геометрична медіана — зменшує суму відстаней до базових координат. Це та ж сама медіана, яка застосовується до одновимірних даних, але зовсім не те, що й взяти медіану для кожного виміру незалежно. Вона не залишається інваріантною для різних змін масштабу різних вимірів.
- Квадратичне середнє (часто називають середньоквадратичне) є корисним у техніці, але не часто використовується в статистиці. Це відбувається тому, що воно вважається не точним показником центру розподілу, особливо коли розподіл охоплює від'ємні значення.
Деякі міри центральної тенденції можна характеризувати як розв'язок до варіаційної задачі, в сенсі варіаційного аналізу, а саме зменшення відхилень від центру. Тобто, враховуючи міру статистичної дисперсії, з'являється питання щодо міри центральної тенденції, яка зменшує відхилення: таким чином, що такі відхилення від центру є мінімальними серед усіх варіантів із центру. Грубо кажучи, «дисперсія передує параметр зсуву розподілу». У тому сенсі й Lp простір, аналогія є такою:
Lp | дисперсія | центральна тенденція |
---|---|---|
L1 | середнє абсолютне відхилення | медіана |
L2 | середньоквадратичне відхилення | середнє значення |
L∞ | максимальне відхилення | середнє значення вибірки |
Таким чином, середньоквадратичне відхилення щодо середнього значення є меншим, ніж стандартне відхилення у будь-якій точці, та максимальне відхилення щодо середнього значення вибірки є меншим, ніж максимальне відхилення у будь-якій точці. Унікальність цієї характеристики випливає з опуклої оптимізації. Дійсно, для заданого (фіксованого) набору даних х, функція
є дисперсією сталої величини С відносно норми L2. Оскільки функція ƒ2 це строго опукла коерцитивна функція, то точка мінімуму існує і вона єдина.
Слід зазначити, що медіана, взагалі кажучи, не є сталою, і фактично будь-яка точка між двома центральними точками дискретного розподілу мінімізує середнє абсолютне відхилення. Дисперсія в нормі L1, задається
не строго опуклою, в той час, як строга опуклість необхідна аби забезпечити єдиність мінімального значення. Не зважаючи на це, точка мінімуму є єдиною для норми L∞.
Для одномодального розподілу відомі такі норми та вони є точними:[4]
де μ — це середнє значення, ν — медіана, θ — мода, а σ — стандартне відхилення.
Для кожного розподілу маємо,[5][6]
- ↑ Weisberg H.F (1992) Central Tendency and Variability, Sage University Paper Series on Quantitative Applications in the Social Sciences, ISBN 0-8039-4007-6 p.2
- ↑ а б Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP ISBN 978-0-19-954145-4 (entry for «central tendency»)
- ↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP for International Statistical Institute. ISBN 0-19-920613-9 (entry for «central tendency»)
- ↑ Johnson NL, Rogers CA (1951) «The moment problem for unimodal distributions». Annals of Mathematical Statistics, 22 (3) 433—439
- ↑ Hotelling H, Solomons LM (1932) The limits of a measure of skewness. Annals Math Stat 3, 141—114
- ↑ Garver (1932) Concerning the limits of a mesuare of skewness. Ann Math Stats 3(4) 141—142