Категорійна змінна

Матеріал з Вікіпедії — вільної енциклопедії.
(Перенаправлено з Нечислова змінна)
Перейти до: навігація, пошук

У статистиці категорі́йна змі́нна (англ. categorical variable) — це змінна[en], яка може набувати одного з обмеженого та, зазвичай, фіксованого числа можливих значень, відносячи таким чином кожен індивідуалізований об'єкт до певної групи, або «категорії».[1] В інформатиці та деяких галузях математики категорійні змінні називають переліками або переліковими типами[en]. Зазвичай (хоча й не в цій статті) кожне з можливих значень категорійної змінної називають рі́внем (англ. level). Розподіл ймовірності, пов'язаний із випадковою категорійною змінною, називають категорійним розподілом.

Категорі́йні да́ні (англ. categorical data) — це тип статистичних даних[en], який складається з категорійних змінних, або з даних, які було перетворено на такий вигляд, наприклад, таких, як згруповані дані. Конкретніше, категорійні дані можуть походити як зі спостережень якісних даних[en], в яких спостереження підсумовуються як кількості або перехресні табулювання, так і з кількісних даних, в яких спостереження можуть бути безпосередньо спостережуваними кількостями подій, які трапляються, або можуть бути кількостями значень, що трапляються в межах заданих інтервалів, так і з них обох. Часто чисто категорійні дані підсумовуються у вигляді таблиці спряженості. Проте, зокрема, при розгляді аналізу даних, є звичним застосовувати термін «категорійні дані» до наборів даних, які, містячи деякі категорійні змінні, можуть також містити й не категорійні змінні.

Категорійна змінна, що може набувати рівно двох значень, називається двійковою змінною[en], або дихотомі́чною змі́нною (англ. dichotomous variable); важливим окремим випадком є змінна Бернуллі[en]. Категорійні змінні з понад двома можливими значеннями називаються політомі́чними змі́нними (англ. polytomous variable); змінні часто вважаються політомічними, якщо не вказано інше. Дискретизація[en] розглядає неперервні дані так, якби вони були би категорійними. Дихотомізація[en] розглядає неперервні дані або політомічні змінні так, якби вони були би двійковими змінними. Регресійний аналіз часто розглядає категорійне членство як кількісну фіктивну змінну[en].

Приклади категорійних змінних[ред.ред. код]

Приклади значень, які може бути представлено в категорійній змінній:

Позначення[ред.ред. код]

Для простоти у статистичній обробці категорійним змінним можуть призначатися числові індекси, наприклад, від 1 до K для K-позиційної категорійної змінної (тобто, для змінної, яка може виражати рівно K можливих значень). В цілому, однак, ці числа є довільними, і не мають ніякої значущості поза простим забезпеченням зручної мітки для певного значення. Іншими словами, значення в категорійній змінній існують на номінальній шкалі: кожне з них представляє логічно окреме поняття, вони не можуть обов'язково бути змістовно впорядкованими, і ними не можна іншим чином маніпулювати так, як можна було би маніпулювати числами. Натомість, чинними операціями є еквівалентність, входження до множини, та інші операції, пов'язані з множинами.

В результаті центральна тенденція набору категорійних змінних задається його модою; ані середнє значення, ані медіану визначити неможливо. Наприклад, маючи множину людей, ми можемо розглядати набір категорійних змінних, які відповідають їхнім прізвищам. Ми можемо розглядати такі операції, як еквівалентність (чи мають дві людини одне й те саме прізвище), входження до множини (чи має особа прізвище із заданого переліку), підрахунок (скільки людей мають задане прізвище), або знаходження моди (яке з прізвищ трапляється найчастіше). Проте, ми не можемо змістовно обчислити «суму» Ковальчук + Яковенко, або запитати, чи є Ковальчук «меншим» або «більшим», ніж Яковенко. В результаті, ми не в змозі змістовно запитати, що в множині прізвищ є «середнім прізвищем» (середнє значення), або «прізвищем, найближчим до середини» (медіаною).

Зверніть увагу, що при цьому ігнорується поняття абеткового порядку[en], яке є характеристикою, властивою не прізвищам як таким, а способові, яким ми будуємо мітки. Наприклад, якщо ми запишемо прізвища латинкою, і розглядатимемо латинський порядок літер, ми можемо отримати відмінний результат при обчисленні «Ковальчук < Яковенко», ніж якби ми писати ці прізвища звичною кирилицею; а якщо ми запишемо прізвища китайськими символами, ми не зможемо змістовно обчислити «Ковальчук < Яковенко» взагалі, оскільки для цих символів послідовне впорядкування не визначено. Проте якщо ми розглядатимемо прізвища як написані, наприклад, кирилицею, і визначимо впорядкування відповідно до стандартного абеткового порядку, то ми дієво перетворимо їх на порядкові змінні[en], визначені на порядковій шкалі.

Число можливих значень[ред.ред. код]

Категорійні випадкові змінні, як правило, описуються статистично категорійним розподілом, який дозволяє довільний K-позиційній категорійний змінній бути вираженою окремими ймовірностями, вказаними для кожного з K можливих виходів. Такі полі-категорійні категорійні змінні часто аналізують із застосуванням поліноміального розподілу, який підраховує частоту кожного можливого поєднання кількостей траплянь різних категорій. Регресійний аналіз категорійних виходів здійснюється шляхом поліноміальної логістичної регресії[en], поліноміального пробіту[en], або пов'язаного з ним типу дискретного вибору моделі.

Категорійні змінні, які мають лише два можливих виходи (наприклад, «так» і «ні», або «успіх» і «невдача»), відомі як двійкові змінні (або змінні Бернуллі). Через їх важливість, ці змінні часто розглядають як окрему категорію, з окремим розподілом (розподілом Бернуллі) та окремими регресійними моделями (логістична регресія, пробіт-регресія[en] тощо). В результаті, термін «категорійна змінна» часто відводять для випадків з 3 або більше виходами, які іноді позначують терміном багатопозиційна змінна (англ. multi-way variable), на противагу до двійкової змінної.

Також можна розглядати такі категорійні змінні, в яких кількість категорій не фіксується заздалегідь. Як приклад, для категорійної змінної, яка описує певне слово, ми можемо не знати заздалегідь розміру словника, і ми хотіли би дозволити можливість зустрічання слів, яких ми ще не бачили. Стандартні статистичні моделі, як ті, що залучають категорійний розподіл та поліноміальну логістичну регресію[en], передбачають, що число категорій є відомим завчасно, і зміна числа категорій на льоту є мудрованою. В таких випадках мусять застосовуватися передовіші методики. Прикладом є процес Діріхле[en], який припадає на галузь непараметричної статистики[en]. В такому випадку логічно передбачається, що існує нескінченне число категорій, але в будь-який момент часу більшість з них (фактично, всі, крім скінченного числа) ніколи не було бачено. Всі формули виражаються в термінах числа вже фактично побачених категорій, замість (нескінченного) загального числа потенційних категорій, які можуть існувати, і створюються методи для послідовного уточнення статистичних розподілів, включно з додаванням «нових» категорій.

Категорійні змінні та регресія[ред.ред. код]

Категорійні змінні являють собою якісний[en] метод маркування даних (наприклад, являють собою категорії, або входження до груп). Вони можуть включатися як незалежні змінні до регресійного аналізу, або як залежні змінні до логістичної регресії чи пробіт-регресії[en], але мусять бути перетворені на кількісні дані для уможливлення аналізу даних. Це робиться за рахунок застосування систем кодування. Аналіз проводиться таким чином, що кодуються лише g - 1 груп (де g є числом груп). Це зводить до мінімуму надмірність, у той же час представляючи повний набір даних, оскільки від кодування всіх g груп не було би отримано жодної додаткової інформації: наприклад, при кодуванні статі (де g = 2: чоловіча та жіноча), якщо ми кодуємо лише жінок, всі решта обов'язково будуть чоловіками. В загальному випадку не кодують ту групу, яка становить найменший інтерес.[2]

Існують три основні системи кодування, які зазвичай застосовуються в аналізі категорійних змінних у регресії: фіктивне кодування (англ. dummy coding), впли́вове кодування (англ. effects coding) та контрастове кодування (англ. contrast coding). Рівняння регресії набуває вигляду Y = bX + a, де b є градієнтом, і задає вагу, емпірично призначену пояснювальникові, X є пояснювальною змінною, а a є Y-відтином[en], і ці значення набувають різного сенсу в залежності від системи кодування, яка застосовується. Вибір системи кодування не впливає на статистики F та R2. Проте кожен вибирає систему кодування на основі порівняння, яке його цікавить, оскільки інтерпретації значень b різнитимуться.[2]

Фіктивне кодування[ред.ред. код]

Фіктивне кодування (англ. dummy coding) застосовується тоді, коли мається на увазі контрольна[en], або порівняльна група. Внаслідок цього дані однієї групи аналізують відносно порівняльної групи: a представляє середнє значення порівняльної групи, а b є різницею між середнім значенням експериментальної групи[en] та середнім значенням контрольної групи. Передбачається, що для визначення придатної контрольної групи має бути виконано три критерії: ця група повинна бути міцно усталеною (наприклад, не повинна бути категорією «інші»), повинні бути логічні підстави для обрання цієї групи як порівняльної (наприклад, передбачається, що ця група має найвищий бал за залежною змінною), і, нарешті, розмір вибірки цієї групи повинен бути істотним, а не малим, у порівнянні з іншими групами.[3]

У фіктивному кодуванні еталонній групі призначається значення 0 для кожної кодової змінної, групі, яка становить інтерес для порівняння з еталонною, призначається значення 1 для встановленої для неї кодової змінної, а всім іншим групам для цієї конкретної кодової змінної призначається 0.[2]

Значення b повинні інтерпретуватися так, що експериментальна група порівнюється з контрольною. Тому встановлення від'ємного значення b спричинить те, що експериментальна група матиме нижчі бали за залежною змінною, ніж контрольна група. Щоби проілюструвати це, припустімо, що ми вимірюємо оптимізм серед кількох національностей, і ми вирішили, що французи слугуватимуть придатною контрольною групою. Якщо ми порівнюємо їх з італійцями, і спостерігаємо від'ємне значення b, це підкаже, що італійці в середньому отримують нижчі бали за оптимізмом.

Наступна таблиця є прикладом фіктивного кодування з французами як контрольною групою, і C1, C2 та C3 відповідно як кодами для італійців, німців та інших (ані французів, ані італійців, ані німців):

Національність C1 C2 C3
Французи 0 0 0
Італійці 1 0 0
Німці 0 1 0
Інші 0 0 1

Впли́вове кодування[ред.ред. код]

У системі впли́вового кодування (англ. effects coding) дані аналізуються шляхом порівняння однієї групи з усіма іншими групами. На відміну від фіктивного кодування, контрольна група відсутня. Натомість, порівняння здійснюється за поєднанням середніх значень усіх груп (тепер a є генеральним середнім[en]). Таким чином, дані розглядаються не по відношенню до іншої групи, а скоріше по відношенню до генерального середнього.[2]

Впли́вове кодування може бути або зваженим, або незваженим. Зважене впли́вове кодування є просто підрахунком зваженого генерального середнього, який бере таким чином до уваги розмір вибірки кожної зі змінних. Це є найдоречнішим у ситуаціях, коли вибірка є репрезентативною для досліджуваної генеральної сукупності. Незважене впли́вове кодування є найдоречнішим у ситуаціях, коли відмінності в розмірах вибірки є результатом випадкових чинників. Для кожного з них інтерпретація b є різною: у незваженому впли́вовому кодуванні b є різницею між середнім значенням експериментальної групи та генеральним середнім, тоді як у зваженій ситуації воно є середнім експериментальної групи мінус зважене генеральне середнє.[2]

У впли́вовому кодуванні ми кодуємо групу, яка становить інтерес, через 1, так само, як ми робили би це для фіктивного кодування. Принциповою відмінністю є те, що ми встановлюємо код -1 для тієї групи, яка становить найменший інтерес. Оскільки ми продовжуємо використовувати схему кодування g - 1, то групою, яка насправді не продукуватиме даних, буде -1, отже, це засвідчує той факт, що та група цікавить нас найменше. Всім іншим групам призначається код 0.

Значення b повинні інтерпретуватися таким чином, що експериментальна група порівнюється з поєднанням середніх значень усіх груп (або зваженим генеральним середнім у випадку зваженого впли́вового кодування). Тому встановлення від'ємного b спричинятиме те, що кодована група матиме нижчий бал, ніж середнє значення всіх груп за залежною змінною. Використовуючи наш попередній приклад балів оптимізму серед національностей, якщо розгляданою групою є італійці, то спостереження від'ємного значення b означатиме, що вони отримують нижчий бал оптимізму.

Наступна таблиця є прикладом впли́вового кодування, в якому групою, що становить найменший інтерес, є Інші.

Національність C1 C2 C3
Французи 0 0 1
Італійці 1 0 0
Німці 0 1 0
Інші −1 −1 −1

Контрастове кодування[ред.ред. код]

Контрастова система кодування (англ. contrast coding) дозволяє дослідникові безпосередньо ставити конкретні питання. Замість того, щоби система кодування диктувала здійснювані порівняння (тобто, порівняння з контрольною групою, як у фіктивному кодуванні, або з усіма групами, як у впли́вовому), можна розробити унікальне порівняння, яке живить конкретні дослідницькі питання. Ця пристосована гіпотеза задвичай ґрунтується на попередній теорії та/або дослідженні. Пропоновані гіпотези зазвичай є такими: по-перше, є центральна гіпотеза, яка постулює велику відмінність між двома наборами груп; друга гіпотеза припускає, що відмінності між групами в межах кожного з наборів є малими. За допомогою своїх апріорі сфокусованих гіпотез контрастове кодування може приводити до збільшення потужності статистичної перевірки у порівнянні з менш спрямованими попередніми системами кодування.[2]

Деякі відмінності проявляються при порівнянні наших апріорних коефіцієнтів між дисперсійним аналізом та регресію. На відміну від застосування в дисперсійному аналізі, в якому дослідник на власний розсуд вирішує, чи обирати ортогональні значення коефіцієнтів, чи не ортогональні, у регресії важливо, щоби значення коефіцієнтів, які призначаються в контрастовому кодуванні, були ортогональними. Крім того, в регресії значення коефіцієнтів мусять бути або в дробовому, або в десятковому вигляді. Вони не можуть набувати інтервальних значень.

Побудову контрастових кодів обмежено трьома правилами:

  1. Сума контрастових коефіцієнтів за кожною кодовою змінною мусить дорівнювати нулеві.
  2. Різниця між сумою додатних коефіцієнтів та сумою від'ємних коефіцієнтів повинна дорівнювати 1.
  3. Кодові змінні повинні бути ортогональними.[2]

Порушення правила 2 продукує точні значення R2 та F, указуючи, що ми досягли би тих самих висновків про те, чи існує значна різниця, чи ні; проте, ми більше не можемо інтерпретувати значення b як середню різницю.

Щоби проілюструвати побудову контрастових кодів, розгляньмо наступну таблицю. Коефіцієнти було обрано так, щоби проілюструвати наші апріорні гіпотези: Гіпотеза 1: Французи та італійці отримуватимуть вищі бали за оптимізм, ніж німці (французи = +0.33, італійці = +0.33, німці = -0.66). Це ілюструється за допомогою призначення однакових коефіцієнтів категоріям французів та італійців, і відмінного коефіцієнту німцям. Призначені знаки показують напрямок взаємовідносин (отже, надання німцям від'ємного знаку показує, що їхні гіпотетичні бали оптимізму є нижчими). Гіпотеза 2: Очікується, що французи та італійці відрізняються за своїми балами оптимізму (французи = +0.50, італійці = -0.50, німці = 0). Тут призначення нульового значення німцям показує, що вони не включаються до аналізу цієї гіпотези. Знов-таки, призначені знаки показують пропоноване взаємовідношення.

Національність C1 C2
Французи +0.33 +0.50
Італійці +0.33 −0.50
Німці −0.66 0

Безглузде кодування[ред.ред. код]

Безглузде кодування (англ. nonsense coding) трапляється тоді, коли замість призначуваних «0», «1» та «-1», бачених у попередніх системах кодування, застосовують випадкові значення. Незважаючи на те, що воно виробляє правильні середні значення для змінних, застосування безглуздого кодування не радиться, оскільки воно вестиме до неінтерпретовних статистичних результатів.[2]

Взаємодії[ред.ред. код]

Взаємодія може виникати при розгляді взаємозв'язку між трьома або більше змінними, і описує ситуацію, в якій одночасний вплив двох змінних на третю не є адитивним. Взаємодії з категорійними змінними можуть виникати двома шляхами: або як взаємодії між категорійними та категорійними змінними, або як взаємодії між категорійними та неперервними змінними.

Взаємодії між категорійними та категорійними змінними[ред.ред. код]

Цей тип взаємодії виникає тоді, коли ми маємо дві категорійні змінні. Для дослідження цього типу взаємодії здійснюють кодування із застосуванням системи, що найвідповідніше спрямовується на гіпотезу дослідника. Добуток кодів видає взаємодію. Потім можна обчислити значення b, і визначити, чи є взаємодія значною.[2]

Взаємодії між категорійними та неперервними змінними[ред.ред. код]

Аналіз простих градієнтів (англ. simple slopes analysis) є поширеною при застосуванні в регресії ретроспективною перевіркою[en], аналогічною до простого впли́вового аналізу в дисперсійному аналізі, яка використовується для аналізу взаємодій. У цій перевірці ми розглядаємо прості градієнти однієї незалежної змінної при певних значеннях іншої незалежної змінної. Така перевірка не обмежується застосуванням із неперервними змінними, і може застосовуватися також тоді, коли незалежна змінна є категорійною. Ми не можемо просто вибирати значення для зондування взаємодії, як ми робили би це у випадку неперервної змінної, через номінальну природу даних (наприклад, у неперервному випадку можливо аналізувати дані на високому, середньому та низькому рівнях, призначаючи 1 стандартне відхилення вище середнього значення, на середньому значенні, і на одне стандартне відхилення нижче середнього значення відповідно). В нашому категорійному випадку для вивчення простих градієнтів ми будемо застосовувати рівняння простої регресії для кожної з груп. Існує поширена практика стандартизування[en] або центрування змінних, щоби робити дані інтерпретовнішими в аналізі простих градієнтів; проте категорійні змінні ніколи не повинні ані стандартизуватися, ані центруватися. Ця перевірка може застосовуватися з усіма системами кодування.[2]

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (вид. 2nd). New York: Freeman[en]. ISBN 978-0-7167-4773-4.  (англ.)
  2. а б в г д е ж и к л Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). New York, NY: Routledge.  (англ.)
  3. Hardy, Melissa (1993). Regression with dummy variables. Newbury Park, CA: Sage.  (англ.)

Література[ред.ред. код]