Ядрові методи: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][перевірена версія]
Вилучено вміст Додано вміст
оформлення
Мітки: Редагування з мобільного пристрою Редагування через мобільну версію
актуалізовано частковий переклад en:Kernel method
Рядок 1: Рядок 1:
{{Машинне навчання}}
{{Машинне навчання}}
В [[Машинне навчання|машинному навчанні]] '''ядрові методи''' ({{lang-en|kernel methods}}) — це клас алгоритмів для [[розпізнавання образів]], найвідомішим представником якого є [[метод опорних векторів]] ({{lang-en|support vector machine, SVM}}). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів відношень (наприклад, [[Кластерний аналіз|кластерів]], [[ранжування]], [[Метод головних компонент|головних компонент]], [[Кореляція|кореляцій]], [[Статистична класифікація|класифікацій]]) у наборах даних. Для багатьох алгоритмів, які розв'язують ці задачі, дані в сирому представленні має бути явним чином перетворено на представлення у вигляді [[Вектор ознак|векторів ознак]] через визначене користувачем ''відображення ознак'' ({{lang-en|feature map}}): на противагу цьому ядрові методи вимагають лише вказаного користувачем ''ядра'' ({{lang-en|kernel}}), тобто, {{нп|Функція подібності|функції подібності||Similarity measure}} над парами точок даних у сирому представленні.
'''Ядрові методи'''

У інформатиці ядрові методи становлять клас алгоритмів для розпізнавання образів, найвідомішим елементом яких є [[метод опорних векторів]] (SVM). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів зв'язків (наприклад, кластерів, ренкінгів, основних компонент, кореляцій, класифікацій) між загальними типами даних (наприклад, послідовності, текстові документи, множини точок, вектори, образи, і т. д.).
Ядрові методи завдячують своєю назвою застосуванню {{нп|Додатно визначене ядро|ядрових функцій||Positive-definite kernel}}, які дозволяють їм діяти в ''неявному'' просторі ознак високої вимірності навіть без обчислення координат даних у цьому просторі, натомість просто обчислюючи {{нп|внутрішній добуток|||Inner product}} зображень всіх пар даних у цьому просторі ознак. Ця операція часто є обчислювально менш витратною, ніж явне обчислення координат. Цей підхід називають '''ядровим трюком''' ({{lang-en|kernel trick}}). Ядрові функції було представлено для даних послідовностей, {{нп|Графове ядро|графів||Graph kernel}}, текстів, зображень, як і для векторів.
Підхід до вирішення проблем за допомогою ядрових методів полягає у зіставленні даних у просторі функцій високої розмірності, де кожна координата відповідає одній ознаці одиниці даних та перетворює набір даних у набір точок у евклідовому просторі. У цьому просторі для знаходження зв'язків між даними може бути використана значна кількість методів. Оскільки зіставлення може бути досить загальним (наприклад, не обов'язково лінійним), знайдені таким чином зв'язки можуть мати дуже загальний характер.

Ядрові методи зобов'язані своїм ім'ям використанню функцій ядра, що дозволяють їм працювати в просторі [[Ознака (розпізнавання образів)|ознак]], ніколи не обчислюючи координати даних в цьому просторі, а, скоріше, просто визначаючи скалярні добутки між зображеннями всіх пар даних у просторі функцій. Ця операція часто простіша для обчислення, ніж точне обчислення координат. Цей підхід називається ядровим трюком. Ядрові функції були введені для представлення послідовностей даних, графіків, тексту, зображень, а також векторів.
Алгоритми, що здатні працювати з ядрами, включають в себе: метод опорних векторів (SVM), гауссівські процеси, лінійний дискримінантний аналіз Фішера (LDA), метод головних компонент (PCA), канонічний кореляційний аналіз, гребеневу регресію, спектральну кластеризацію, лінійні адаптивні фільтри та багатьох інших.
До алгоритмів, здатних працювати з ядрами, належать {{нп|ядровий перцептрон|||Kernel perceptron}}, метод опорних векторів ({{lang-en|support vector machines, SVM}}), [[Гауссівський процес|ґаусові процеси]], [[метод головних компонент]] ({{lang-en|principal components analysis, PCA}}), {{нп|канонічно-кореляційний аналіз|||Canonical correlation analysis}}, {{нп|гребенева регресія|||Ridge regression}}, {{нп|спектральне кластерування|||Spectral clustering}}, [[Адаптивний фільтр|лінійні адаптивні фільтри]] та багато інших. Будь-яку {{нп|Лінійна модель|лінійну модель||Linear model}} може бути перетворено на нелінійну шляхом застосування до неї ядрового трюку: заміни її ознак (провісників) ядровою функцією.

Через особливості культури наукового співтовариства, що розробляло цей підхід починаючи з середини 1990-х років, більшість ядрових алгоритмів заснована на опуклій оптимізації чи власних векторах, є обчислювально ефективною і статистично обґрунтованою. Як правило, їх статистичні властивості аналізуються за допомогою статистичної теорії навчання (наприклад, за допомогою складності Радемахера).
Більшість ядрових алгоритмів ґрунтуються на {{нп|Опукла оптимізація|опуклій оптимізації||Convex optimization}} або [[Власний вектор|власних векторах]], і є статистично обґрунтованими. Як правило, їхні статистичні властивості аналізують за допомогою {{нп|Статистична теорія навчання|статистичної теорії навчання||Statistical learning theory}} (наприклад, за допомогою {{нп|Складність Радемахера|складності Радемахера||Rademacher complexity}}).


== Застосування ==
== Застосування ==


Наразі основними сферами застосування є геостатистика,<ref>Honarkhah, M and Caers, J, 2010, ''[http://dx.doi.org/10.1007/s11004-010-9276-7 Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling]'', Mathematical Geosciences, 42: 487—517</ref> крігінг, зважування зворотних відстаней, біоінформатика, хемоінформатика, витяг інформації, класифікація документів та розпізнавання почерків.
Сфери застосування ядрових методів є різноманітними, до них належать [[геостатистика]],<ref>{{cite journal | last1 = Honarkhah | first1 = M. | last2 = Caers | first2 = J. | date = 2010 | doi = 10.1007/s11004-010-9276-7 | title = Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling |journal={{нп|Mathematical Geosciences}} | volume = 42 | pages = 487–517 }} {{ref-en}}</ref> [[крігінг]], {{нп|зважування зворотних відстаней|||Inverse distance weighting}}, {{нп|об'ємна відбудова|||3D reconstruction}}, [[біоінформатика]], [[хемоінформатика]], {{нп|витягування інформації|||Information extraction}} та [[розпізнавання рукописного введення]].


== Див. також ==
== Див. також ==
* {{нп|Ядрові методи для отримування векторних результатів|||Kernel methods for vector output}}
* [[Ядро Фішера]]


== Примітки ==
== Примітки ==
Рядок 18: Рядок 19:


== Література ==
== Література ==
* [[John Shawe-Taylor|J. Shawe-Taylor]] and [[Nello Cristianini|N. Cristianini]]. ''Kernel Methods for Pattern Analysis.'' Cambridge University Press, 2004.
* {{cite book | authorlink1 = Джон Шоуї-Тейлор | first1 = J. | last1 = Shawe-Taylor | authorlink2 = Нелло Хрістіаніні | first2 = N. | last2 = Cristianini | title = Kernel Methods for Pattern Analysis | publisher = Cambridge University Press | date = 2004 }} {{ref-en}}
* W. Liu, J. Principe and S. Haykin. ''Kernel Adaptive Filtering: A Comprehensive Introduction.'' Wiley, 2010.
* {{cite book | first1 = W. | last1 = Liu | first2 = J. | last2 = Principe | first3 = S. | last3 = Haykin | title = Kernel Adaptive Filtering: A Comprehensive Introduction | publisher = Wiley | date = 2010 }} {{ref-en}}


== Посилання ==
== Посилання ==
* [http://www.kernel-machines.org Kernel-Machines Org]&nbsp;— community website
* [http://www.kernel-machines.org Kernel-Machines Org]&nbsp;— веб-сайт спільноти {{ref-en}}
* [http://www.support-vector-machines.org www.support-vector-machines.org] ''(Literature, Review, Software, Links related to Support Vector Machines&nbsp;— Academic Site)''
* [http://www.support-vector-machines.org www.support-vector-machines.org] ''(література, огляд, програмне забезпечення, посилання пов'язані з методом опорних векторів&nbsp;— академічний сайт)'' {{ref-en}}
* [http://onlineprediction.net/?n=Main.KernelMethods onlineprediction.net Kernel Methods Article]
* [http://onlineprediction.net/?n=Main.KernelMethods Стаття Kernel Methods на onlineprediction.net] {{ref-en}}




{{Алгоритми-доробити}}
{{ШІ-доробити}}
{{Перекласти|en|Kernel method}}


[[Категорія:Інформатика]]
[[Категорія:Машинне навчання]]
[[Категорія:Методологія науки]]
[[Категорія:Геостатистика]]
[[Категорія:Алгоритми класифікації]]

Версія за 20:01, 13 жовтня 2016

В машинному навчанні ядрові методи (англ. kernel methods) — це клас алгоритмів для розпізнавання образів, найвідомішим представником якого є метод опорних векторів (англ. support vector machine, SVM). Загальна задача розпізнавання образів полягає у знаходженні та вивченні основних типів відношень (наприклад, кластерів, ранжування, головних компонент, кореляцій, класифікацій) у наборах даних. Для багатьох алгоритмів, які розв'язують ці задачі, дані в сирому представленні має бути явним чином перетворено на представлення у вигляді векторів ознак через визначене користувачем відображення ознак (англ. feature map): на противагу цьому ядрові методи вимагають лише вказаного користувачем ядра (англ. kernel), тобто, функції подібності над парами точок даних у сирому представленні.

Ядрові методи завдячують своєю назвою застосуванню ядрових функцій[en], які дозволяють їм діяти в неявному просторі ознак високої вимірності навіть без обчислення координат даних у цьому просторі, натомість просто обчислюючи внутрішній добуток зображень всіх пар даних у цьому просторі ознак. Ця операція часто є обчислювально менш витратною, ніж явне обчислення координат. Цей підхід називають ядровим трюком (англ. kernel trick). Ядрові функції було представлено для даних послідовностей, графів[en], текстів, зображень, як і для векторів.

До алгоритмів, здатних працювати з ядрами, належать ядровий перцептрон[en], метод опорних векторів (англ. support vector machines, SVM), ґаусові процеси, метод головних компонент (англ. principal components analysis, PCA), канонічно-кореляційний аналіз, гребенева регресія, спектральне кластерування, лінійні адаптивні фільтри та багато інших. Будь-яку лінійну модель[en] може бути перетворено на нелінійну шляхом застосування до неї ядрового трюку: заміни її ознак (провісників) ядровою функцією.

Більшість ядрових алгоритмів ґрунтуються на опуклій оптимізації або власних векторах, і є статистично обґрунтованими. Як правило, їхні статистичні властивості аналізують за допомогою статистичної теорії навчання[en] (наприклад, за допомогою складності Радемахера[en]).

Застосування

Сфери застосування ядрових методів є різноманітними, до них належать геостатистика,[1] крігінг, зважування зворотних відстаней[en], об'ємна відбудова, біоінформатика, хемоінформатика, витягування інформації та розпізнавання рукописного введення.

Див. також

Примітки

  1. Honarkhah, M.; Caers, J. (2010). Stochastic Simulation of Patterns Using Distance-Based Pattern Modeling. Mathematical Geosciences[en]. 42: 487—517. doi:10.1007/s11004-010-9276-7. (англ.)

Література

  • Shawe-Taylor, J.; Cristianini, N. (2004). Kernel Methods for Pattern Analysis. Cambridge University Press. (англ.)
  • Liu, W.; Principe, J.; Haykin, S. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. Wiley. (англ.)

Посилання