Багатовимірне шкалювання

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Багатовимірне шкалювання (БШ)це ряд пов’язаних між собою статистичних технік, що часто використовують в інформаційній візуалізації для дослідження схожості та відмінності у даних. БШ є особливим видом розміщення. БШ будується як матриця подібних елементів, після чого підписується розміщення кожного елементу у N-вимірному просторі, де через N позначають пріоритетність. Для достатньо малих N результат розміщень може бути представлений як графік чи візуалізований у 3D. БШ потрапляє в таксономію залежно від значення вхідних матриць.

Типи[ред.ред. код]

Класичне багатовимірне шкалювання[ред.ред. код]

Також відоме як Аналіз Нормальних Координат, масштабування Торгенса або Торгенса-Гувера. Вхідна матриця містить значення відмінностей між парами елементів і видає координовану матрицю, конфігурація якої мінімізує функцію втрат.

Метричне багатовимірне шкалювання[ред.ред. код]

Множина класичних БШ, що узагальнює оптимізаційну процедуру до ряду втрачених функцій та вхідних матриць з відомими відстанями та вагами і т. і. Корисна втрачена функція називається стресовою, яку часто мінімізують використовуючи процедуру, що називається стрес мажорування.

Неметричне багатовимірне шкалювання[ред.ред. код]

На відміну від метричного багатовимірного шкалювання Неметричне багатовимірне шкалювання здійснює пошук як непараметричних монотонних зв’язків між відмінностями в поелементній матриці та відмінності в евклідових відстанях між елементами так і розміщення кожного елементу у маловимірному просторі. Зв’язки зазвичай встановлюють використовуючи ізотонічну регресію. Дослідження Найменшого вимру Луїза Гатмена є прикладом неметричної БШ процедури.

Узагальнене БШ[ред.ред. код]

Розширене метричне БШ, в якому цільовий вимір є випадково згладженим неевклідовим виміром. У випадку, якщо відмінними є відстані на поверхні, цільовим простором є інша поверхня. Узагальнене БШ дозволяє знайти мінімально-спотворене проникнення однієї поверхні в іншу.

Деталі[ред.ред. код]

Дані що аналізуються збираються за однією ознакою (кольором, стороною, родом), для якої визначена функція відстані δi,j := Відстань між i-им та j-им об’єктами. Ця відстань вноситься в матрицю відмінностей

\Delta := 
\begin{pmatrix}
\delta_{1,1} & \delta_{1,2} & \cdots & \delta_{1,I} \\
\delta_{2,1} & \delta_{2,2} & \cdots & \delta_{2,I} \\
\vdots & \vdots & & \vdots \\
\delta_{I,1} & \delta_{I,2} & \cdots & \delta_{I,I}
\end{pmatrix}.

Ціль БШ маючи Δ знайти вектори I x_1,\ldots,x_I \in \mathbb{R}^N так щоб

\|x_i - x_j\| \approx \delta_{i,j} для всіх i,j\in I,

де \|\cdot\| є Нормою у векторному просторі. В класичному БШ цією нормою є Евклідова відстань, але в ширшому розумінні це може бути метрична функція або функція випадкової відстані.[1]

Іншими словами, БШ дозволяє шукати вкладення з I об’єктів у RN при дотриманні відстаней. Якщо вимір N вибраний як 2 або 3 ми можемо побудувати вектор XI для отримання візуалізації схожостей між I-ми об’єктами. Варто зазначити, що вектор x_i не є унікальним: за допомогою евклідових відстаней він може бути випадково перекладений, переміщений, відображений, оскільки такі зміни не впливають на попарні відстані.

Існують різноманітні підходи до визначення векторів xi. Зазвичай БШ формулюється як оптимізаційна проблема, де (x_1,\ldots,x_I) розглядається як деяка функція витрат, наприклад:

 \min_{x_1,\ldots,x_I} \sum_{i<j} ( \|x_i - x_j\| - \delta_{i,j} )^2. \, .

Розв’язок може бути знайдений через числові оптимізаційні методи. Для конкретно вибраної функції витрат мінімізація може бути вибраною аналітично в межах матриці власного розкладу (спектрального розкладу).

Методика[ред.ред. код]

Нижче наведені кроки для здійснення БШ дослідження:

1. Формулювання проблеми – як змінні ви хочете порівняти?Скільки? Порівняння більше, ніж 20 змінних завжди дуже громіздке. Менше ніж 8 (4 пари) не дасть обґрунтованого результату. Яка ціль дослідження для якого проводиться даний аналіз?

2. Пошук вхідних даних – респондентам задають ряд питань. Для кожної пари продуктів респондентів просять навести подібності (зазвичай за семизначною шкалою Лікерта, від дуже схожих до дуже різних). Перше питання наприклад могло б бути про Кока-колу/Пепсі, наступне - Кока-кола/Пиво, далі -Пепсі/Доктор Пепер, наступне – Доктор Пепер/Пиво. Кількість питань є функцією від кількості брендів може бути обчислено як Q = N (N - 1) / 2, де Q- кількість питань, N- кількість брендів. Такий підхід посилається на «даних про сприйняття: прямий метод». Існує два інших підходи. «Дані про сприйняття: похідний метод», є методом в якому продукцію ділять за характеристиками, як оцінюють за семантичною шкалою відмінностей. Ще один метод – «Метод даних за вподобаннями», якому респондентів просять надати перевагу якомусь товару, а не схожості між товарами.

3. Робота з БШ статистичними програмами - процедура БШ доступна в більшості статистичних програм. Існує вибір між метричним БШ (який дозволяє працювати з інтервалами чи даними про співвідношення рівня), і неметричним БШ (який працює з порядковими даними).

4. Вибір кількості вимірів – Дослідник має вибрати кількість вимірів, які він хоче створити. Чим більше вимірів тим краща статистична схожість, проте важче інтерпретувати дані.

5. Відображення результатів та обґрунтування вимірів – статистична програма відобразить результати. Відображення буде здійснено по кожному продукту (зазвичай у двовимірному просторі). Наближення продуктів один до одного буде свідчити про те, наскільки вони схожі, або бажані, залежно від методу, що був застосований. Результати мають бути прокоментовані та інтерпретовані дослідником, що означає суб’єктивність у судженні та складність у роботі.

6. Тестування результатів на надійність та валідність – пошук R-квадрату для визначення частки варіації шкальованих даних, які спричинені БШ процедурою. R-квадрат з значенням 0,6 розглядається як мінімальний прийнятний рівень; R-квадрат з значенням 0,8 – хороший рівень для метричного БШ; R-квадрат з значенням 0,9 – хороший рівень для неметричного БШ. Інші можливі тести – тест Краскелса (Kruskal’s Stress Test), тест розбиття даних, тест стабільності даних (виключення одного бренду) чи повторна перевірка надійності.

7. Всесторонній виклад результатів – з графічним відображенням мають зазначатися як мінімум метод виміру відстані (індекс Соренсона, індекс Жаккарда) та надійність (в т. ч. критичне значення). Також дуже інформативно надавати алгоритм, який визначений у програмі, яку було використано, якщо вам було надано конфігурацію чи початковий довільний вибір, оцінка розмірності, результати тесту Монте-Карло, кількість ітерацій, оцінка стабільності та пропорцій відмінності кожної шкали (R-квадрат).

Застосування[ред.ред. код]

Застосування включає наукову візуалізацію та глибокий аналіз даних в сфер когнітивних наук, інформаційних наук, психофізики, психометрики, маркетингу та екології. Нові застосування виникли з використанням незалежних безпровідних вузлів, які займають простір чи площу. БШ може застосовуватися як реальний підхід покращення використання часу для моніторингу та управління таким парком. Більше того, БШ активно використовується у геостатистиці для моделювання просторової мінливості у графічних моделях, представляючи їх у вигляд точок у маловимірному просторі[2].

Маркетинг[ред.ред. код]

У маркетингу БШ методику застосовують для опитування вподобань та сприйняття респондентів та презентацій візуальної сітки, яку ще називають картою сприйняття.

Порівняння та переваги[ред.ред. код]

Потенційних покупців просять порівняти пари продуктів та скласти судження про їх подібність. Тоді як інші методи (такі, як факторний аналіз, дискримінантний аналіз, і спільний аналіз) отримують основні дані від відповідей про характеристики продукту, визначені дослідником, БШ отримує основні дані від суджень респондентів про подібність продукції. Це є важливою перевагою. Воно не залежить від суджень дослідників. Воно не вимагає список характеристик, які потрібно надати респондентам. Дані походять від суджень респондентів по парах продукції. Завдяки цим перевагам, БШ є найбільш поширеною технікою, що використовується для побудови карт сприйняття.

Посилання[ред.ред. код]

  1. Kruskal, J. B., and Wish, M. (1978), Multidimensional Scaling, Sage University Paper series on Quantitative Application in the Social Sciences, 07-011. Beverly Hills and London: Sage Publications.
  2. Honarkhah, M and Caers, J, 2010, Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling, Mathematical Geosciences, 42: 487–517

Зовнішні посилання[ред.ред. код]