Задача класифікації
Задача класифіка́ції — формалізована задача, яка містить множину об'єктів (ситуацій), поділених певним чином на класи. Задана скінченна множина об'єктів, для яких відомо, до яких класів вони належать. Ця множина називається вибіркою. До якого класу належать інші об'єкти невідомо. Необхідно побудувати такий алгоритм, який буде здатний класифікувати довільний об'єкт з вихідної множини.
Класифікувати об'єкт — означає, вказати номер (чи назву) класу, до якого належить цей об'єкт.
Класифікація об'єкта — номер або найменування класу, що видається алгоритмом класифікації в результаті його застосування до цього об'єкта.
В математичній статистиці задачі класифікації називаються також задачами дискретного аналізу. В машинному навчанні завдання класифікації вирішується, як правило, за допомогою методів штучної нейронної мережі при постановці експеримента у вигляді навчання з учителем.
Існують також інші способи постановки експерименту — навчання без вчителя, але вони використовуються для вирішення іншого завдання — кластеризації або таксономії. У цих завданнях поділ об'єктів навчальної вибірки на класи не задається, і потрібно класифікувати об'єкти тільки на основі їх подібності. У деяких прикладних областях, і навіть у самій математичній статистиці, через близькість завдань часто не відрізняють завдання кластеризації від завдання класифікації.
Деякі алгоритми для вирішення задач класифікації комбінують навчання з учителем і навчання без вчителя, наприклад, одна з версій нейронних мереж Кохонена — Мережі векторного квантування, яких навчають способом навчання з учителем.
Нехай — множина описів об'єктів, —множина номерів (чи назв) класів. Існує невідома цільова залежність- відображення , значення якої відомі лише на елементах скінченної навчальної вибірки . Потрібно побудувати алгоритм , здатний класифікувати довільний об'єкт .
Загальнішим є імовірнісне формулювання завдання. Припускається, що множина пар «об'єкт, клас» є ймовірнісним простором з невідомою ймовірнісною мірою . Є скінченна навчальна вибірка спостережень , згенерована згідно з ймовірнісною мірою . Необхідно побудувати алгоритм , здатний класифікувати довільний об'єкт .
Характеристикою називається відображення , де — множина допустимих значень характеристики. Якщо задані характеристики , то вектор називається характеристичним описом об'єкта . Характеристики можна ототожнювати із самими об'єктами. При цьому множину називають простором характеристик.
Залежно від множини характеристики поділяються на такі типи:
- Бінарні характеристики: ;
- Номінальні характеристики: — скінченна множина;
- Порядкові характеристики: — скінченна впорядкована множина;
- Кількісні характеристики: — множина дійсних чисел.
Часто зустрічаються прикладні задачі з різнотипними характеристиками, для їх вирішення підходять далеко не всі методи.
- Характеристичний опис — найпоширеніший випадок. Кожен об'єкт описується набором своїх характеристик, які називаються ознаками. Ознаки можуть бути числовими або нечисловими.
- Матриця відстаней між об'єктами. Кожен об'єкт описується відстанями до всіх інших об'єктів навчальної вибірки. З цим типом вхідних даних працюють деякі методи, зокрема, метод найближчих сусідів, метод потенційних функцій.
- Часовий ряд або сигнал є послідовність вимірів у часі. Кожен вимір може представлятися числом, вектором, а в загальному випадку — характеристичним описом досліджуваного об'єкта в цей час часу.
- Зображення або відеоряд.
- Зустрічаються і складніші випадки, коли вхідні дані представляються у вигляді графів, текстів, результатів запитів до бази даних, і т. д. Як правило, вони приводяться до першого або другого випадку шляхом попередньої обробки даних та вилучення характеристик.
Класифікацію сигналів та зображень називають також розпізнаванням образів.
- Двокласова класифікація. Найпростіший в технічному відношенні випадок, який служить основою для вирішення складніших завдань.
- Багатокласова класифікація. Коли число класів досягає багатьох тисяч (наприклад, при розпізнаванні ієрогліфів або злитого мовлення), завдання класифікації стає істотно важчим.
- Непересічні класи.
- Пересічні класи. Об'єкт може належати одночасно до декількох класів.
- Нечіткі класи. Потрібно визначати ступінь належності об'єкта кожному з класів, звичайно це дійсне число від 0 до 1.
- www.MachineLearning.ru — професійний вікі-ресурс, присвячений машинному навчання та інтелектуального аналізу даних
- Костянтин Воронцов. Курс лекцій Математичні методи навчання за прецедентами [Архівовано 23 вересня 2015 у Wayback Machine.], МФТІ, 2004–2008
- Юрій Ліфшиц. Автоматична класифікація текстів [Архівовано 13 січня 2020 у Wayback Machine.] (Слайди) — лекція № 6 з курсу «Алгоритми для Інтернету» [Архівовано 15 жовтня 2008 у Wayback Machine.]
- kNN і Потенційна енергія [Архівовано 19 січня 2012 у Wayback Machine.] (аплет), Е. М. Міркес і університет Лейстера
- Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
- Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
- Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
- Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ CD). [Архівовано 7 грудня 2011 у Wayback Machine.] -СПб: Питер, 2009. ISBN 978-5-49807-257-9
- Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
- Шаблон:Книга:The Elements of Statistical Learning
- Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.