Ознака (машинне навчання)

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

В машинному навчанні та розпізнаванні образів озна́ка (англ. feature) — це окрема властивість спостережуваного явища, яку можливо виміряти.[1] Вибір інформативних, розрізнювальних і незалежних ознак є ключовим кроком алгоритмів розпізнавання образів, класифікації та регресії. Ознаки є зазвичай числовими, але в синтаксичному розпізнаванні образів[en] використовуються й структуровані ознаки, такі як стрічки та графи. Поняття «ознака» пов'язане з поняттям описової змінної, що використовується в таких статистичних методиках як лінійна регресія.

Початковий набір сирих ознак може бути надлишковим і занадто великим, щоби впоруватися із ним. Тому підготовчий крок багатьох застосувань машинного навчання та розпізнавання образів складається з вибирання підмножини ознак, або з побудови нового зменшеного набору ознак для полегшення навчання і для покращення узагальнення та інтерпретовності.

Виділяння та вибирання ознак є поєднаннями мистецтва та науки; розробка систем, які це роблять, відома як проектування ознак. Вона вимагає експериментування з багатьма можливостями, та поєднання автоматизованих методик з інтуїцією та знаннями експерта предметної галузі[en]. Автоматизація цього процесу є навчанням ознак, коли машина не лише використовує ознаки для навчання, але й навчається самих ознак.

Класифікація[ред.ред. код]

Набір числових ознак може бути зручно описано вектором ознак. Приклад досягнення двобічної класифікації за вектором ознак (пов'язаним з перцептроном) складається з обчислення скалярного добутку вектора ознак та вектора вагових коефіцієнтів, порівняння результатів із порогом, і ухвалення рішення про клас на основі цього порівняння.

Алгоритми класифікації за вектором ознак включають класифікацію найближчих сусідів, нейронні мережі та статистичні методики, такі як баєсові підходи.

Приклади[ред.ред. код]

Детальніші відомості з цієї теми Ви можете знайти в статті Ознака (комп'ютерний зір)[en].

В розпізнаванні символів ознаки можуть включати гістограми, що підраховують кількість чорних пікселів уздовж горизонтальних та вертикальних напрямків, кількість внутрішніх отворів, напрямок штрихів та багато іншого.

В розпізнаванні мовлення ознаки записів фонем можуть включати рівні шуму, тривалість звуків, відносну потужність, збіг з фільтрами та багато іншого.

В алгоритмах виявлення спаму ознаки можуть включати наявність або відсутність певних заголовків електронного листа, структуру електронного листа, мову, частоту певних термінів, граматичну правильність тексту.

В комп'ютерному баченні існує велика кількість можливих ознак[en], таких як контури та об'єкти.

Примітки[ред.ред. код]

  1. Bishop, Christopher (2006). Pattern recognition and machine learning. Berlin: Springer. ISBN 0-387-31073-8.  (англ.)

Див. також[ред.ред. код]