Виділяння ознак

В машинному навчанні, розпізнаванні образів та в обробці зображень виділя́ння озна́к (англ. feature extraction) починається з первинного набору даних вимірювань, і будує похідні значення (ознаки), покликані бути інформативними та ненадлишковими, полегшувати наступні кроки навчання та узагальнення, і в деяких випадках вести до кращих тлумачень людьми. Виділяння ознак пов'язане зі зниженням розмірності.

Коли вхідні дані алгоритму є занадто великими, щоби їх можливо було обробити, і підозрюються на надлишковість (наприклад, одні й ті самі вимірювання як у метрах, так і в футах, або повторюваності в зображеннях, представлених пікселями), тоді їх може бути перетворено на скорочений набір ознак (що також називають вектором ознак). Визначення підмножини початкових ознак називають обиранням ознак.^[1] Очікується, що обрані ознаки містять доречну інформацію з вхідних даних, так що бажане завдання може бути виконано із застосуванням цього скороченого представлення замість повних первинних даних.

Загальне[ред. | ред. код]

Виділяння ознак включає зниження числа ресурсів, необхідних для опису великого набору даних. При виконанні аналізу складних даних одна з головних проблем випливає з кількості залучених змінних. Аналіз із великою кількістю змінних в загальному випадку вимагає великої кількості пам'яті та обчислювальних потужностей, а також він може спричинювати перенавчання алгоритмів класифікації тренувальних зразків, і поганого узагальнювання на нові зразки. Виділяння ознак є загальним терміном для позначення методів побудови таких поєднань змінних, щоби обходити ці проблеми, зберігаючи достатню точність опису даних. Багато практиків машинного навчання вважають, що належно оптимізоване виділяння ознак є запорукою ефективної побудови моделі.^[2]

Результати може бути покращено шляхом застосування сконструйованих наборів залежних від конкретного застосування ознак, що зазвичай будує експерт. Один з таких процесів називають конструюванням ознак. Або ж застосовують загальні методики зниження розмірності, такі як:

Обробка зображень[ред. | ред. код]

Докладніше: Виділяння ознак (комп'ютерне бачення)

Однією з дуже важливих областей застосування є обробка зображень, у якій застосовують алгоритми для виявляння та виокремлювання різних бажаних частин або фігур (ознак) оцифрованого зображення або потоку відео. Це особливо важливо в області оптичного розпізнавання символів.

Низькорівнева[ред. | ред. код]

Кривина[ред. | ред. код]

Напрямок контурів, зміна яскравості, самокореляція.

Рух зображення[ред. | ред. код]

Виявляння руху. На основі областей, різничний підхід. Оптичний потік.

На основі фігур[ред. | ред. код]

Порогова класифікація
Виділяння плям^[en]
Порівнювання з шаблоном^[en]
Перетворення Гафа
- Прямих
- Кіл/еліпсів
- Довільних форм (узагальнене перетворення Хафа)
- Працює з будь-якою ознакою, яку можливо параметризувати (змінні класу, виявлення кластерів тощо)
Узагальнене перетворення Гафа

Гнучкі методи[ред. | ред. код]

Параметризовані фігури, що піддаються деформації
Активні контури (змії)