Масштабування ознак

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Масштабування ознак — метод нормалізації діапазону незалежних змінних або ознак даних. В опрацьовуванні даних він також відомий як нормалізація даних і зазвичай виконується під час попереднього опрацьовування.

Мотивація

[ред. | ред. код]

Через те, що діапазони значень сирих даних значно різняться, у деяких алгоритмах машинного навчання цільові функції не працюватимуть правильно без нормалізації[en]. Наприклад, багато класифікаторів обчислюють евклідову відстань між двома точками. Якщо одна з ознак має великий діапазон значень, то відстань сильно залежатиме саме від цієї ознаки. Тому, діапазони всіх ознак треба нормалізувати так, аби внесок у результатну відстань кожної ознаки був приблизно пропорційним.

Інша причина застосування масштабування ознак полягає в тому, що градієнтний спуск збігається набагато швидше з використанням масштабування ознак, ніж без нього[1].

Також важливо застосовувати масштабування ознак, якщо регуляризація використовується як частина функції втрат (таким чином, коефіцієнти штрафуються належним чином).

Примітки

[ред. | ред. код]
  1. Ioffe, Sergey; Christian Szegedy (2015). Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. arXiv:1502.03167 [cs.LG].