Напівавтоматичне навчання

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
CC-logo.svg

Ця стаття містить текст, перекладений зі статті «Semi-supervised learning» англійської Вікіпедії.
Перекладено з англійської Вікіпедії станом на 2 травня 2016 року.

Icono de traducción.svg

Напівавтоматичне навчання або часткове навчання (англ. Semi-supervised learning) – спосіб машинного навчання, різновидність навчання з учителем, яке також використовує немарковані дані для тренування — зазвичай невелику кількість помаркованих даних та велику кількість немаркованих даних. Напівавтоматичне навчання займає проміжну позицію між навчанням без учителя (без залучення будь-яких помаркованих даних для тренування) та навчанням з учителем (із залученням лише помаркованих даних). Багато дослідників машинного навчання виявили, що немарковані дані, при використанні в поєднанні з з невеликою кількістю помаркованих даних, можуть значно поліпшити точність навчання. Задання помаркованих даних для задачі навчання часто вимагає кваліфікованої людини (наприклад, для транскрибування аудіо файлу) або фізичного експерименту (наприклад, для визначення 3D структури білка або виявлення наявності нафти в певному регіоні). Тому затрати на маркування даних можуть зробити процес навчання з використанням лише помаркованих даних нездійсненним, в той час як процес задання немаркованих даних не є дуже затратним. У таких ситуаціях, напівавтоматичне навчання може мати велике практичне значення. Таке навчання також представляє інтерес у сфері машинного навчання та як модель для людського навчання.

Задача навчання[ред.ред. код]

Як і в рамках навчання з учителем, нам дається множина з незалежних однаково розподілених прикладів з відповідними позначками . Крім того, нам дано непомаркованих прикладів . Мета напівавтоматичного навчання полягає у тому, щоб використати цю комбіновану інформацію для перевершення продуктивності класифікації, яку можна отримати або шляхом відкидання немаркованих даних і використання навчання з учителем, або шляхом відкидання міток і використання навчання без учителя.

Напівавтоматичне навчання може належати до трансдуктивного навчання[en] або індуктивного навчання. Метою трансдуктивнго навчання є виведення правильних міток тільки для немаркованих даних . Метою індукції є виведення правильного відображення з в .

Ми можемо уявляти задачу навчання як іспит, а помарковані дані — як декілька прикладів, які вчитель вирішив у класі. Учитель також надає набір невирішених задач. У постановці трансдуктивного навчання, ці невирішені задачі є іспитом, який забирають додому, і ви хочете добре його скласти загалом. У постановці індуктивного навчання, ці практичні задачі є подібними до тих, з якими ви стикнетесь на іспиті у класі. Необов'язково (і, згідно з принципом Вапника, нерозсудливо) проводити трансдуктивне навчання шляхом логічного виведення правила класифікації для всіх вхідних даних. Однак, на практиці, алгоритми, формально призначені для трансдукції або індукції, часто використовуються як взаємнозамінні.

Припущення, які використовуються у напівавтоматичному навчанні.[ред.ред. код]

Для того, щоб використовувати немарковані дані, потрібно присвоїти деяку структуру для основного розподілу даних. Алгоритми напівавтоматичного навчання використовують принаймні одне з таких припущень. [1]

Припущення плавності[ред.ред. код]

Точки, які лежать близько одна від одної помарковані однаково з більшою імовірністю. Таке саме припущення здебільшого використовується і в навчанні з учителем і дає перевагу у використанні геометрично простих рішень. У випадку напівавтоматичного навчання, припущення плавності додатково дає перевагу для розмежування в регіонах з низькою щільністю, де є менше точок, які розташовані близько одна від одної, але різних класів.

Припущення кластеризованості[ред.ред. код]

Дані, як правило, утворюють дискретні кластери, і точки з одного кластеру помарковані однаково з більшою імовірністю (хоча дані, які використовують однакові мітки, можуть бути розташовані у декількох різних кластерах). Це особливий випадок припущення плавності, який призводить до навчання ознак використовуючи алгоритми кластеризації.

Припущення многовидності (різноманітності)[ред.ред. код]

Дані зібрані приблизно у многовиді з набагато меншою розмірністю, ніж вхідний простір. У цьому випадку ми можемо спробувати вивчити многовид використовуючи як помарковані так і немарковані дані для того, щоб уникнути прокляття розмірності[en]. Тоді навчання може протікати з використанням відстаней і щільностей, визначених на многовиді.

Припущення многовидності має практичне застосування, коли багатовимірні дані генеруються певним процесом, який важко безпосередньо змоделювати, але який має тільки декілька ступенів відхилення. Наприклад, людський голос контролюється декількома голосовими зв'язками,[2] а зображення різних виразів обличчя контролюються декількома м'язами. У цих випадках нам зручніше використовувати відстані та плавності в природному просторі проблеми генерування, ніж у просторі всіх можливих акустичних хвиль або зображень, відповідно.

Історія[ред.ред. код]

Евристичний підхід самонавчання (також відомий як самомаркування) історично найстаріший підхід до напівавтоматичного навчання,[1] з прикладами програм, починаючи з 1960-х років (див., наприклад, Scudder (1965)[3]).

Структуру трансдуктивного навчання було офіційно представлено Володимиром Вапником у 1970-х роках.[4] Зацікавленість у сфері індуктивного навчання з використанням генеративних моделей також з'явилась у 1970-і роки. Ймовірно майже правильне навчання[en] у напрямку напівавтоматичного вивчення гаусової суміші було продемонстровано Ратсабі та Венкатешем у 1995-у році.[5]

Напівавтоматичне навчання останнім часом стає все більш популярним і практично актуальним у зв'язку з цілою низкою задач, для яких доступна величезна кількість немаркованих даних — наприклад, текст вебсторінок, білкові послідовності або зображення. Для перегляду останніх праць див. дослідницьку статтю, написану Чжу (2008).[6]

Підходи до напівавтоматичого навчання[ред.ред. код]

Генеративні моделі[ред.ред. код]

Генеративні підходи до статистичного вивчення в першу чергу прагнуть оцінити , розподіл точок даних кожного класу. Імовірність така, що дана точка має мітку , буде пропорційною до за теоремою Баєса. Напівавтоматичне навчання з використанням генеративних підходів можна розглядати або як розширення навчання з учителем (класифікація та інформація про ), або як розширення навчання без учителя (кластеризація та деякі мітки).

Генеративні моделі припускають, що розподіли приймають певну форму , параметризовану вектором . Якщо ці припущення є неправильними, то немарковані дані можуть фактично знизити точність рішення у порівнянні з тим, яке було б отримано тільки з помаркованих даних.[7] Проте, якщо ці припущення правильні, то немарковані дані обов'язково підвищать результативність.[5]

Немарковані дані розподілені відповідно до суміші індивідуально-класових розподілів. Для того, щоб розподіл суміші з немаркованих даних підлягав вивченню, ці дані мають бути упізнаваними, тобто різні параметри повинні призводити до різних підсумкових розподілів. Розподіли гаусової суміші є упізнаваними та зазвичай використовуються у генеративних моделях.

Параметризований спільний розподіл можна записати у вигляді за допомогою ланцюгового правила. Кожен вектор пов'язаний з функцією . Потім параметр вибирається на основі підгонки як до помаркованих там і до немаркованих даних, урівноважених за допомогою :

[8]

Поділ низької щільності[ред.ред. код]

Це ще один важливий клас методів, який намагається розмежувати регіони, у яких є декілька точок з даними (помаркованими чи немаркованими). Одним з найбільш часто використовуваних алгоритмів є трансдуктивний метод опорних векторів, або ТМОВ (який, незважаючи на назву, може також бути використаним для індуктивного навчання). У той час як метод опорних векторів для навчання з учителем шукає рішення крайової з максимальною маржею у помаркованих даних, метою ТМОВ є позначення немаркованих даних таким чином, що рішення крайової має максимальну маржу у порівнянні з усіма даними. На додаток до стандартної петлі втрати для помаркованих даних, функція втрат вводиться і для немаркованих даних, позначивши . ТМОВ потім вибирає з гільбертового простору відтворюваного ядра шляхом мінімізації регуляризованого емпіричного ризику:

Точне рішення є нерозв'язним через неопуклий член , тому дослідження зосереджені на пошуку корисних наближень.[8]

Інші підходи, які здійснюють розподіл низької щільності, включають в себе моделі гаусового процесу, впорядкування інформації, та мінімізацію ентропії (з яких ТМОВ є окремим випадком).

Методи на основі графів[ред.ред. код]

Методи на основі графів для напівавтоматичного навчання використовують дані, представлені за допомогою графа, з вузлом для кожного помаркованого або немаркованого прикладу. Граф може бути побудований з використанням знань в предметній області або на основі подібності прикладів. Два загальні підходи включають з'єднання кожної точки даних з її найближчими сусідами або з прикладами на відстані в межах . Вага ребра між й встановлюється рівною .

В рамках регуляризації многовидності [9] [10] граф служить як представник многовидності. Вираз додається до стандартної задачі регуляризації Тихонова[en] для забезпечення гладкості рішення щодо многовидності (у власному просторі задачі), а також навколишнього вхідного простору. Завданням мінімізації стає:

[8]

де — це гільбертів простір відтворюваного ядра, а — многовид з даними. Параметри регуляризації та контролюють гладкість у довколишніх та внутрішніх просторах відповідно. Граф використовується для апроксимації внутрішнього регуляризуючого члена. Визначивши матрицю Кірхгофа , де та вектор , отримуємо:

Евристичні підходи[ред.ред. код]

Деякі з методів напівавтоматичного навчання не пристосовані для використання одночасно як помаркованих так і немаркованих даних, але натомість можуть залучати немарковані дані для навчання з учителем. Наприклад, помарковані та немарковані приклади можуть інформувати про спосіб представлення, метрику, або ядра даних на першому кроці без учителя. Тоді навчання з учителем опрацьовує лише помарковані приклади.

Самонавчання — метод-обгортка напівавтоматичного навчання. [11] Спочатку навчання з учителем опрацьовує лише помарковані дані. Цей класифікатор потім застосовується до немаркованих даних, щоб згенерувати більше помаркованих прикладів для навчання з учителем. Загалом, можна бути певним, що лише мітки класифікатора додаються на кожному кроці. [12]

Спільне навчання є розширенням самонавчання, при якому декілька класифікаторів опрацьовують різні (в ідеалі, непересічні) множини ознак і генерують помарковані приклади один для другого. [13]

Напівавтоматичне навчання в людському сприйнятті[ред.ред. код]

Людські відповіді на формальні задачі напівавтоматичного навчання принесли різні висновки щодо ступеня впливу немаркованих даних (короткий виклад див. [14]). Багато задач природного навчання можна також розглядати як приклади напівавтоматичного навчання. Більшість принципів людського навчання передбачає невелику кількість прямих інструкцій (наприклад, маркування об'єктів батьками у дитинстві) у сукупності з величезною кількістю немаркованих прикладів (наприклад, спостерігання за об'єктами не називаючи або не рахуючи їх, або принаймні не описуючи їх).

Немовлята чутливі до структури немаркованих даних, таких як зображення собак і котів, або чоловічих і жіночих облич. [15] Нещодавні дослідження виявили, що немовлята та діти враховують не лише доступні немарковані приклади, а й процес відбору з них, в результаті якого виникають помарковані приклади. [16][17]

Див. також[ред.ред. код]

Джерела[ред.ред. код]

  1. а б Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9. 
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines. IEEE Transaction on Information Theory, 11:363–371 (1965). Cited in Chapelle et al. 2006, page 3.
  4. Vapnik, V. and Chervonenkis, A. Theory of Pattern Recognition [in Russian]. Nauka, Moscow (1974). Cited in Chapelle et al. 2006, page 3.
  5. а б Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information. In Proceedings of the Eighth Annual Conference on Computational Learning Theory, pages 412-417 (1995). Cited in Chapelle et al. 2006, page 4.
  6. Zhu, Xiaojin. Semi-supervised learning literature survey. Computer Sciences, University of Wisconsin-Madison (2008).
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers. In: Chapelle et al. (2006).
  8. а б в Zhu, Xiaojin. Semi-Supervised Learning University of Wisconsin-Madison.
  9. M. Belkin, P. Niyogi (2004). Semi-supervised Learning on Riemannian Manifolds. Machine Learning 56 (Special Issue on Clustering). с. 209–239. doi:10.1023/b:mach.0000033120.25363.1e. 
  10. M. Belkin, P. Niyogi, V. Sindhwani. On Manifold Regularization. AISTATS 2005.
  11. Triguero, Isaac; García, Salvador; Herrera, Francisco (2013-11-26). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems (en) 42 (2). с. 245–284. ISSN 0219-1377. doi:10.1007/s10115-013-0706-y. 
  12. Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (2015-12-29). Self-Trained LMT for Semisupervised Learning. Computational Intelligence and Neuroscience (en) 2016. с. 1–13. doi:10.1155/2016/3057481. 
  13. Didaci, Luca; Fumera, Giorgio; Roli, Fabio (2012-11-07). У Gimel’farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji. Analysis of Co-training Algorithm with Very Small Training Sets. Lecture Notes in Computer Science (en). Springer Berlin Heidelberg. с. 719–726. ISBN 9783642341656. 
  14. Zhu, Xiaojin; Goldberg, Andrew B. (2009). Introduction to semi-supervised learning. Morgan & Claypool. ISBN 9781598295481. 
  15. Younger B. A., Fearing D. D. (1999). Parsing Items into Separate Categories: Developmental Change in Infant Categorization. Child Development 70. с. 291–303. doi:10.1111/1467-8624.00022. 
  16. Xu, F. and Tenenbaum, J. B. (2007). Sensitivity to sampling in Bayesian word learning. Developmental Science. Developmental Science 10. с. 288–297. doi:10.1111/j.1467-7687.2007.00590.x. 
  17. Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). Infants consider both the sample and the sampling process in inductive generalization. Proc Natl Acad Sci U S A. 107 (20). с. 9066–71. doi:10.1073/pnas.1003095107. 

Посилання[ред.ред. код]

  • [1] Вільно доступна реалізація MATLAB графа на основі алгоритмів напівавтоматичного навчання лапласівського методу опорних векторів та лапласівської регуляризації методом найменших квадратів
  • [2] Модуль KEEL для напівавтоматичного навчання.
  • [3] Програмне забезпечення для напівавтоматичного навчання
  • [4] Алгоритми напівавтоматичного навчання в scikit-learn .