Метод k-медіан

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Ме́тод -медіа́н[1][2] — застосовувана в статистиці і машинному навчанні варіація методу -середніх для задач кластеризації, де для визначення центроїда кластера замість середнього обчислюється медіана. Такий підхід відповідає мінімізації похибки за всіма кластерами в метриці з 1-нормою, замість метрики з 2-нормою, використовуваною в стандартному методі -середніх.

Задача визначення -медіан полягає в пошуку таких центрів, що сформовані за ними кластери будуть «найкомпактнішими». Формально, для заданих точок даних , центри слід вибрати так, щоб мінімізувати суму відстаней від кожної до найближчого .

Метод іноді працює краще, ніж метод -середніх, де мінімізується сума квадратів відстаней. Критерій суми відстаней широко використовується для транспортної задачі[3].

Ще альтернатива — метод -медоїдів[en], у якому шукають оптимальний медоїд, а не медіану кластера (медоїд є однією з точок даних, тоді як медіани такими бути не мусять).

Див. також[ред. | ред. код]

Посилання[ред. | ред. код]

  1. A. K. Jain and R. C. Dubes, Algorithms for Clustering Data: Prentice-Hall, 1981.
  2. P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization, " in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368—374.
  3. Архівована копія. Архів оригіналу за 3 квітня 2022. Процитовано 14 березня 2022.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)