Обирання ознак

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

В машинному навчанні та статистиці обира́ння озна́к, відоме також як обира́ння змі́нних, обира́ння атрибу́тів та обира́ння підмножини́ змі́нних (англ. feature selection, variable selection, attribute selection, variable subset selection) — це процес обирання підмножини доречних ознак (змінних, провісників) для використання в побудові моделі. Методики обирання ознак використовуються з трьома цілями:

  • спрощення моделей, щоби зробити їх легшими для інтерпретування дослідниками/користувачами,[1]
  • скорочення тривалостей тренування,
  • покращення узагальнення шляхом зниження перенавчання[2] (формально, зниження дисперсії[1]).

Центральною передумовою при застосуванні методики обирання ознак є те, що дані містять багато ознак, які є або надлишковими, або недоречними, і тому можуть бути усунуті без спричинення значної втрати інформації.[2] Надлишкові та недоречні ознаки є двома різними поняттями, оскільки одна доречна ознака може бути надлишковою в присутності іншої доречної ознаки, з якою вона сильно корелює.[3]

Методики обирання ознак слід відрізняти від виділяння ознак. Виділяння ознак створює нові ознаки з функцій від первинних ознак, тоді як обирання ознак повертає підмножину ознак. Методики обирання ознак часто використовуються в тих областях, де є багато ознак, і порівняно мало зразків (або точок даних). Споконвічні випадки застосування обирання ознак включають аналіз писаних текстів та даних ДНК-мікрочипів, де є багато тисяч ознак, і лише від декількох десятків до сотень зразків.

Введення[ред.ред. код]

Алгоритм обирання ознак може розглядатися як поєднання методики пошуку для пропонування нових підмножин ознак разом із мірою оцінки, яка встановлює бали різним підмножинам ознак. Найпростішим алгоритмом є перевіряти кожну можливу підмножину ознак, шукаючи таку, яка мінімізує рівень похибки. Це є вичерпним пошуком цим простором, і є обчислювально непіддатливим для всіх множин ознак, крім найменших. Вибір оцінювальної метрики сильно впливає на алгоритм, і саме ці оцінювальні метрики відрізняють три основні категорії алгоритмів пошуку ознак: обгорткові, фільтрові та вбудовані методи.[3]

Обгорткові методи для встановлення балів підмножинам ознак використовують передбачувальну модель. Кожна нова підмножина використовується для тренування моделі, яка перевіряється на притриманій множині. Підрахунок кількості помилок, зроблених на цій притриманій множині (рівень похибки моделі) дає бал цієї підмножини. Оскільки обгорткові методи тренують нову модель для кожної підмножини, вони є дуже обчислювально напруженими, але зазвичай пропонують множину ознак із найкращою продуктивністю для того окремого типу моделі.

Фільтрові методи для встановлення балів підмножинам ознак замість рівня похибки використовують міру-заступницю. Ця міра обирається такою, щоби вона була швидкою, але все ще схоплювала корисність множини ознак. Поширені міри включають взаємну інформацію,[3] поточкову взаємну інформацію,[4] коефіцієнт кореляції Пірсона, внутрішньо/міжкласову відстань або бали критеріїв значущості для кожної комбінації клас/ознака.[4][5] Фльтри зазвичай є менш напруженими обчислювально за обгортки, але вони пропонують набір ознак, що не налаштовано на конкретний тип передбачувальної моделі. Цей брак налаштування означає, що набір ознак від фільтра є загальнішим за набір від обгортки, зазвичай даючи нижчу передбачувальну продуктивність за обгортку. Проте набір ознак не містить припущень передбачувальної моделі, і тому є кориснішим для розкриття взаємозв'язків між ознаками. Багато фільтрів пропонують ранжування ознак замість явної найкращої підмножини ознак, і точка відсікання в рангу обирається за допомогою перехресної перевірки. Фільтрові методи також застосовувалися як передобробний етап для обгорткових методів, роблячи можливим застосування обгорток до більших задач.

Вбудовані методи є всеосяжною групою методик, що виконують обирання ознак як частину процесу побудови моделі. Примірником цього підходу є метод побудови лінійних моделей LASSO[en], який штрафує коефіцієнти регресії штрафом L1, скорочуючи багато з них до нуля. Будь-які ознаки, що мають ненульові коефіцієнти регресії, є «обраними» алгоритмом LASSO. Покращення LASSO включають Bolasso, яке бутстрепує[en] вибірки,[6] та FeaLect, яке встановлює бали всім ознакам на основі комбінаторного аналізу коефіцієнтів регресії.[7] Одним з інших популярних підходів є алгоритм рекурсивного усунення ознак (англ. Recursive Feature Elimination), зазвичай застосовуваний з методом опорних векторів для повторної побудови моделі та усунення ознак з низькими ваговими коефіцієнтами. Ці методи тяжіють до знаходження між фільтрами та обгортками з погляду обчислювальної складності.

У традиційній статистиці найпопулярнішим видом обирання ознак є поетапна регресія[en], яка є обгортковою методикою. Це жадібний алгоритм, що під час кожного раунду додає найкращу ознаку (або видаляє найгіршу). Головним питанням у керуванні є вирішування, коли зупинити алгоритм. У машинному навчанні це зазвичай здійснюється за допомогою перехресної перевірки. У статистиці деякі критерії є оптимізованими. Це призводить до проблеми, притаманної вкладеності. Було досліджено надійніші методи, такі як гілки і межі, та кусково-лінійна мережа.

Обирання підмножин[ред.ред. код]

Обирання підмножини оцінює на придатність підмножину ознак як групу. Алгоритми обирання підмножин можна розділити на обгорткові, фільтрові та вбудовані. Обгорткові використовують пошуковий алгоритм для пошуку простором можливих ознак, і оцінки кожної підмножини запуском моделі на ній. Обгортки можуть бути обчислювально витратними, і мати ризик перенавчитися моделі. Фільтри є схожими на обгортки в підході до пошуку, але замість оцінки проти моделі здійснюється оцінка простішого фільтру. Вбудовані методики є вбудованими в модель, і особливими для моделі.

Багато популярних підходів до пошуку використовують жадібний підйом схилом, що ітеративно оцінює кандидата-підмножину ознак, а потім змінює цю підмножину й оцінює, чи є нова підмножина покращенням відносно старої. Оцінка підмножин вимагає оцінкової метрики[en], що реалізує градацію підмножин ознак. Вичерпний пошук в загальному випадку є непрактичним, тому на певній визначеній реалізатором (або оператором) точці зупинки підмножина ознак із найвищим знайденим до цієї точки балом обирається задовільною підмножиною ознак. Критерій зупинки залежить від алгоритму; можливі критерії включають: бал підмножини перевищує поріг, було перевищено максимальний допустимий час виконання програми тощо.

Альтернативні методики на основі пошуку ґрунтуються на націленому пошуку найкращої проекції[en], який знаходить низькорозмірні проекції даних, що мають високий бал: тоді обираються ознаки, що мають найбільші проекції в низькорозмірному просторі.

До пошукових підходів входять:

Двома популярними фільтровими метриками для задач класифікації є кореляція та взаємна інформація, хоча жодна з них не є справжньою метрикою[en], або «мірою відстані», в математичному сенсі, оскільки вони не підкоряються нерівності трикутника, і відтак не обчислюють жодної дійсної «відстані» — їх слід було би швидше розглядати як «бали». Ці бали обчислюються між ознаками-кандидатами (або наборами ознак) та бажаною вихідною категорією. Проте існують і справжні метрики, що є простою функцією взаємної інформації;[15] див. тут.

До інших доступних фільтрових метрик входять:

  • Віддільність класів (англ. class separability)
  • Обирання ознак на основі узгодженості (англ. consistency-based feature selection)
  • Обирання ознак на основі кореляції (англ. correlation-based feature selection)

Критерій оптимальності[ред.ред. код]

Обирання критерію оптимальності є складним, оскільки в завдання обирання ознак є кілька цілей. Багато поширених із них включають міру точності, штрафовану кількістю обраних ознак (наприклад, баєсів інформаційний критерій). Найстарішими є статистика Cp Меллоуза[en] та інформаційний критерій Акаіке (ІКА, англ. AIC). Вони додають змінні, якщо t-статистика є більшою .

Іншими критеріями є баєсів інформаційний критерій (БІК, англ. BIC), що використовує , принцип мінімальної довжини опису (МДО, англ. MDL), що асимптотично використовує , Бонферроні[en] / КРР (англ. RIC), який використовує , обирання ознак максимальної залежності (англ. maximum dependency feature selection) та ряд нових критеріїв, обґрунтованих рівнем виявлення хиб[en] (англ. false discovery rate, FDR), який використовує щось близьке до .

Навчання структури[ред.ред. код]

Фільтрове обирання ознак є окремим випадком загальнішої парадигми, що називається навчанням структури[en]. Обирання ознак знаходить доречний набір ознак для окремої цільової змінної, тоді як навчання структури знаходить взаємозв'язки між усіма змінними, зазвичай виражаючи ці взаємозв'язки як граф. Найпоширеніші алгоритми навчання структури виходять із того, що дані було породжено баєсовою мережею, і тому структурою є орієнтована графічна модель. Оптимальним розв'язком задачі фільтрового обирання ознак є марковське покриття цільового вузла, і в баєсовій мережі існує єдине марковське покриття для кожного вузла.[16]

Обирання ознак мінімальної-надлишковості-максимальної-доречності (mRMR)[ред.ред. код]

Пен та ін.[17] запропонували метод обирання ознак, що може використовувати для обирання ознак або взаємну інформацію, кореляцію, або відстань/бали схожості. Мета полягає у штрафуванні доречності (англ. relevancy) ознаки її надлишковістю (англ. redundancy) в присутності інших обраних ознак. Доречність набору ознак S для класу c визначається усередненим значенням усіх значень взаємної інформації між окремою ознакою fi та класом c таким чином:

.

Надлишковістю всіх ознак у множині S є усереднене значення всіх значень взаємної інформації між ознакою fi та ознакою fj:

Критерій мінімальної-надлишковості-максимальної-доречності (англ. minimum-redundancy-maximum-relevance, mRMR) є поєднанням двох наведених вище мір, і визначається наступним чином:

Припустімо, що є n ознак повної множини. Нехай xi буде індикаторною функцією членства ознаки fi в множині, такою, що xi=1 показує наявність, а xi=0 показує відсутність ознаки fi в глобально оптимальній множині ознак. Нехай , а . Наведене вище може бути записано як задачу оптимізації:

Алгоритм mRMR є наближенням теоретично оптимального максимально-залежнісного алгоритму обирання ознак, який максимізує взаємну інформацію між спільним розподілом обраних ознак та змінною класифікації. Оскільки mRMR наближує задачу комбінаторної оцінки рядом набагато менших задач, кожна з яких включає лише дві змінні, він таким чином використовує попарні спільні ймовірності, що є надійнішими. В деяких ситуаціях цей алгоритм може недооцінювати корисність ознак, оскільки він не має способу вимірювати взаємодії між ознаками, що можуть збільшувати доречність. Це може призводити до поганої продуктивності,[18] коли ознаки є марними поодинці, але корисними у поєднанні (патологічний випадок трапляється, коли клас є функцією парності[en] ознак). У цілому алгоритм є ефективнішим (у термінах кількості потрібної інформації) за теоретично оптимальне максимально-залежнісне обирання, хоча й виробляє набір ознак із невеликою попарною надлишковістю.

mRMR є примірником більшого класу фільтрових методів, які шукають компроміс між доречністю та надлишковістю відмінними шляхами.[18][19]

Глобальні оптимізаційні формулювання[ред.ред. код]

mRMR є типовим прикладом приростової жадібної стратегії обирання ознак: щойно ознаку було обрано, її не може бути виключено на пізнішому етапі. І хоча mRMR може бути оптимізовано застосуванням рухливого пошуку (англ. floating search) для скорочування деяких ознак, його також може бути переформульовано як задачу глобальної оптимізації квадратичного програмування (англ. quadratic programming feature selection, QPFS) таким чином:[20]

де є вектором доречності ознак, за припущення, що загалом є n ознак, є матрицею попарної надлишковості ознак, а представляє відносні ваги ознак. QPFS розв'язується за допомогою квадратичного програмування. Нещодавно було показано, що QPFS має схильність до ознак із меншою ентропією,[21] тому що воно ставить член самонадлишковості ознаки на діагональ H.

Інше глобальне формулювання для обирання ознак на основі взаємної інформації ґрунтується на умовній доречності:[21]

де , а .

Перевага SPECCMI полягає в тому, що воно може розв'язуватися просто знаходженням домінантного власного вектора Q, і тому є дуже масштабовуваним. Також SPECCMI обробляє взаємодії ознак другого порядку.

Для даних із високою розмірністю та малою вибіркою (наприклад, розмірність > 105, а кількість зразків < 103) корисним є LASSO[en] критерію незалежності Гільберта-Шмідта (англ. Hilbert-Schmidt Independence Criterion Lasso, HSIC Lasso).[22] Задача оптимізації HSIC Lasso задається як

де є мірою незалежності на ядрові основі, що називається (емпіричним) критерієм незалежності Гільберта-Шмідта (англ. Hilbert-Schmidt independence criterion, HSIC), позначає слід, є регуляризаційним параметром, та є входом та виходом центрованих матриць Ґрама, та є матрицями Ґрама, та є ядровими функціями, є центрувальною матрицею, є m-вимірною одиничною матрицею (m — кількість зразків), є m-вимірним вектором з усіма одиницями, а є -нормою. HSIC завжди набуває невід'ємного значення, і є нулем тоді й лише тоді, коли дві випадкові змінні є статистично незалежними при використанні універсального відтворювального ядра, такого як Ґаусове.

HSIC Lasso може бути записано як

де є нормою Фробеніуса. Ця задача оптимізації є задачею LASSO[en], і відтак її може бути ефективно розв'язувано передовим розв'язувачем LASSO, таким як подвійний метод розширеного Лагранжіана[en].

Кореляційний вибір ознак[ред.ред. код]

Міра кореляційного обирання ознак (англ. Correlation Feature Selection, CFS) оцінює підможину ознак на основі наступної гіпотези: «Добрі підмножини ознак містять ознаки, високо корельовані з класифікацією, але некорельовані між собою».[23][24] Наступне рівняння задає якість підмножини ознак S, що складається із k ознак:

Тут є усередненим значенням усіх кореляцій ознака-класифікація, а є усередненим значенням усіх кореляцій ознака-ознака. Критерій CFS визначається наступним чином:

Змінні та позначаються як кореляції, але вони не обов'язково є коефіцієнтами кореляції Пірсона або ρ Спірмена. Дисертація доктора Марка Голла (англ. Mark Hall) не використовує жодного з цих, але використовує три відмінні міри пов'язаності, мінімальну довжину опису (англ. minimum description length, MDL), симетричну невизначеність та relief[en].

Нехай xi буде індикаторною функцією членства ознаки fi; тоді наведене вище може бути переписано як задача оптимізації:

Комбінаторні задачі вище є, фактично, задачами змішаного двійкового лінійного програмування, які може бути розв'язувано застосуванням алгоритмів гілок та меж.[25]

Регуляризовані дерева[ред.ред. код]

Надлишковими показуються ознаки з дерева або ансамблю[en] дерев ухвалення рішень. Для обирання підмножини ознак може застосовуватися нещодавній метод, названий регуляризованим деревом.[26] Регуляризовані дерева здійснюють штрафування, використовуючи змінну, подібно до змінних, вибраних на попередніх вузлах дерева, для розділення поточного вузла. Регуляризовані дерева потребують побудови лише однієї моделі дерева (або однієї моделі ансамблю дерев), і, отже, є обчислювально ефективними.

Регуляризовані дерева природно обробляють числові та категорійні ознаки, взаємодії та нелінійності. Вони є інваріантними відносно масштабів (одиниць виміру) атрибутів та нечутливими до викидів, і, таким чином, вимагають незначної попередньої обробки даних, такої як нормалізація[en]. Одним із типів регуляризованих дерев є регуляризований випадковий ліс (РВЛ, англ. Regularized random forest, RRF).[27] Регуляризований РВЛ є розширеним РВЛ, який керується балами важливості зі звичайного випадкового лісу.

Огляд метаевристичних методів[ред.ред. код]

Метаевристика є загальним описом алгоритму, присвяченого розв'язанню складних (зазвичай, NP-складних) задач оптимізації, для яких не існує класичних методів розв'язання. Взагалі, метаевристика є стохастичним алгоритмом, який веде до досягнення глобального оптимуму. Існує багато метаевристик, від простого локального пошуку, і до алгоритму складного глобального пошуку.

Головні принципи[ред.ред. код]

Методи обирання ознак зазвичай представляються трьома класами на основі того, як вони поєднують алгоритм обирання та побудову моделі.

Фільтровий метод[ред.ред. код]

Фільтровий метод обирання ознак

Методи фільтрового типу обирають змінні незалежно від моделі. Вони ґрунтуються лише на загальних ознаках, таких як кореляція з передбачуваною змінною. Фільтрові методи придушують найменш цікаві змінні. Інші змінні будуть частиною моделі класифікації або регресії, що застосовується для класифікування або передбачення даних. Ці методи є особливо ефективними з точки зору обчислювального часу, та стійкими до перенавчання.[28]

Проте фільтрові методи схильні обирати надлишкові змінні, оскільки вони не беруть до уваги взаємовідношення між змінними. Тому вони в основному використовуються як методи попередньої обробки.

Обгортковий метод[ред.ред. код]

Обгортковий метод обирання ознак

Обгорткові методи оцінюють підмножини змінних, що дозволяє, на відміну від фільтрових підходів, виявляти можливі взаємодії між змінними.[29]

Двома головними недоліками цих методів є:

  • Підвищення ризику перенавчання при недостатній кількості спостережень.
  • Значний обчислювальний час при великій кількості змінних.

Вбудований метод[ред.ред. код]

Вбудований метод обирання ознак

Нещодавно було запропоновано вбудовані методи для зниження класифікації навчання. Вони намагаються поєднувати переваги обох попередніх методів. Алгоритм навчання отримує перевагу від свого власного алгоритму обирання змінних. Тому йому потрібно знати наперед, які варіанти вибору є добрими, що обмежує їхнє використання.[30]

Застосування метаевристик обирання ознак[ред.ред. код]

Це огляд застосувань метаевристик обирання ознак, що останнім часом використовувалися в літературі. Цей огляд було реалізовано Дж. Геммон (англ. J. Hammon) в її дисертації.[28]

Застосування Алгоритм Підхід класифікатор Оцінна функція[en] Посилання
ОНП Обирання ознак за схожістю Фільтр r2 Phuong 2005 [29]
ОНП Генетичний алгоритм Обгортка Дерево рішень Точність класифікації (10-кратна) Shah 2004 [31]
ОНП Підйом схилом Фільтр + обгортка Наївний баєсів Predicted residual sum of squares Long 2007 [32]
ОНП Імітація відпалу Наївний баєсів Точність класифікації (5-кратна) Ustunkar 2011 [33]
Мовна сегментація Мурашиний алгоритм Обгортка Штучна нейронна мережа СКП[en] Al-ani 2005 [джерело?]
Маркетинг Імітація відпалу Обгортка Регресія ІКА, r2 Meiri 2006 [34]
Економіка Імітація відпалу, генетичний алгоритм Обгортка Регресія БІК Kapetanios 2005 [35]
Спектральна маса Генетичний алгоритм Обгортка Множинна лінійна регресія, частинні найменші квадрати[en] Коренева середньоквадратична похибка[en] передбачення Broadhurst 2007 [36]
Спам Двійковий МРЧ + мутація[en] Обгортка Дерево рішень Зважені витрати Zhang 2014 [37]
Мікрочипи Табу-пошук + МРЧ Обгортка Метод опорних векторів, k найближчих сусідів Евклідова відстань Chuang 2009 [38]
Мікрочипи МРЧ + генетичний алгоритм Обгортка Метод опорних векторів Точність класифікації (10-кратна) Alba 2007 [39]
Мікрочипи Генетичний алгоритм + ітеративний локальний пошук[en] Вбудований Метод опорних векторів Точність класифікації (10-кратна) Duval 2009 [30]
Мікрочипи Ітеративний локальний пошук Обгортка Регресія Апостеріорна ймовірність Hans 2007 [40]
Мікрочипи Генетичний алгоритм Обгортка k найближчих сусідів Точність класифікації (перехресна перевірка з виключенням по одному[en]) Jirapech-Umpai 2005 [41]
Мікрочипи Гібридний генетичний алгоритм[en] Обгортка k найближчих сусідів Точність класифікації (перехресна перевірка з виключенням по одному) Oh 2004 [42]
Мікрочипи Генетичний алгоритм Обгортка Метод опорних векторів Чутливість і специфічність[en] Xuan 2011 [43]
Мікрочипи Генетичний алгоритм Обгортка Повноспарований метод опорних векторів Точність класифікації (перехресна перевірка з виключенням по одному) Peng 2003 [44]
Мікрочипи Генетичний алгоритм Вбудований Метод опорних векторів Точність класифікації (10-кратна) Hernandez 2007 [45]
Мікрочипи Генетичний алгоритм Гібридний Метод опорних векторів Точність класифікації (перехресна перевірка з виключенням по одному) Huerta 2006 [46]
Мікрочипи Генетичний алгоритм Метод опорних векторів Точність класифікації (10-кратна) Muni 2006 [47]
Мікрочипи Генетичний алгоритм Обгортка Метод опорних векторів EH-DIALL, CLUMP Jourdan 2004 [48]
Хвороба Альцгеймера t-перевірка Велша[en] Фільтр Ядровий метод опорних векторів Точність класифікації (10-кратна) Zhang 2015 [49]
Комп'ютерне бачення Нескінченне обирання ознак Фільтр Незалежний Усереднена чіткість[en], ППК РХП Roffo 2015 [50]
Мікрочипи ВО центральністю власного вектора Фільтр Незалежний Усереднена чіткість, Точність, ППК РХП Roffo & Melzi 2016 [51]

Обирання ознак, вбудоване до алгоритмів навчання[ред.ред. код]

Деякі алгоритми навчання виконують обирання ознак як частину своєї загальної роботи. Вони включають:

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. а б Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). An Introduction to Statistical Learning. Springer. с. 204.  (англ.)
  2. а б Bermingham, Mairead L.; Pong-Wong, Ricardo; Spiliopoulou, Athina; Hayward, Caroline; Rudan, Igor; Campbell, Harry; Wright, Alan F.; Wilson, James F.; Agakov, Felix; Navarro, Pau; Haley, Chris S. (2015). Application of high-dimensional feature selection: evaluation for genomic prediction in man. Sci. Rep.[en] 5.  (англ.)
  3. а б в Guyon, Isabelle; Elisseeff, André (2003). An Introduction to Variable and Feature Selection. JMLR 3.  (англ.)
  4. а б Yang, Yiming; Pedersen, Jan O. (1997). A comparative study on feature selection in text categorization ICML.  (англ.)
  5. Forman, George (2003). An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research 3. с. 1289–1305.  (англ.)
  6. Bach, Francis R (2008). Bolasso: model consistent lasso estimation through the bootstrap. Proceedings of the 25th international conference on Machine learning. с. 33–40. doi:10.1145/1390156.1390161.  (англ.)
  7. Zare, Habil (2013). Scoring relevancy of features based on combinatorial analysis of Lasso with application to lymphoma diagnosis. BMC Genomics 14. с. S14. doi:10.1186/1471-2164-14-S1-S14.  (англ.)
  8. Figueroa, Alejandro (2015). Exploring effective features for recognizing the user intent behind web queries. Computers in Industry 68. с. 162–169. doi:10.1016/j.compind.2015.01.005.  (англ.)
  9. Figueroa, Alejandro; Guenter Neumann (2013). Learning to Rank Effective Paraphrases from Query Logs for Community Question Answering AAAI.  (англ.)
  10. Figueroa, Alejandro; Guenter Neumann (2014). Category-specific models for ranking effective paraphrases in community Question Answering. Expert Systems with Applications 41. с. 4730–4742. doi:10.1016/j.eswa.2014.02.004.  (англ.)
  11. Zhang, Y.; Wang, S.; Phillips, P. (2014). Binary PSO with Mutation Operator for Feature Selection using Decision Tree applied to Spam Detection. Knowledge-Based Systems 64. с. 22–31. doi:10.1016/j.knosys.2014.03.015.  (англ.)
  12. F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving feature subset selection problem by a Parallel Scatter Search, European Journal of Operational Research, vol. 169, no. 2, pp. 477–489, 2006. (англ.)
  13. F.C. Garcia-Lopez, M. Garcia-Torres, B. Melian, J.A. Moreno-Perez, J.M. Moreno-Vega. Solving Feature Subset Selection Problem by a Hybrid Metaheuristic. In First International Workshop on Hybrid Metaheuristics, pp. 59–68, 2004. (англ.)
  14. M. Garcia-Torres, F. Gomez-Vela, B. Melian, J.M. Moreno-Vega. High-dimensional feature selection via feature grouping: A Variable Neighborhood Search approach, Information Sciences, vol. 326, pp. 102-118, 2016. (англ.)
  15. Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, and Peter Grassberger[en], "Hierarchical Clustering Based on Mutual Information", (2003) ArXiv q-bio/0311039 (англ.)
  16. Aliferis, Constantin (2010). Local causal and markov blanket induction for causal discovery and feature selection for classification part I: Algorithms and empirical evaluation. Journal of Machine Learning Research 11. с. 171–234.  (англ.)
  17. Peng, H. C.; Long, F.; Ding, C. (2005). Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence 27 (8). с. 1226–1238. PMID 16119262. doi:10.1109/TPAMI.2005.159.  Program (англ.)
  18. а б Brown, G., Pocock, A., Zhao, M.-J., Lujan, M. (2012). "Conditional Likelihood Maximisation: A Unifying Framework for Information Theoretic Feature Selection", In the Journal of Machine Learning Research (JMLR). [1] (англ.)
  19. Nguyen, H., Franke, K., Petrovic, S. (2010). "Towards a Generic Feature-Selection Measure for Intrusion Detection", In Proc. International Conference on Pattern Recognition (ICPR), Istanbul, Turkey. [2] (англ.)
  20. Rodriguez-Lujan, I.; Huerta, R.; Elkan, C.; Santa Cruz, C. (2010). Quadratic programming feature selection. JMLR 11. с. 1491–1516.  (англ.)
  21. а б Nguyen X. Vinh, Jeffrey Chan, Simone Romano and James Bailey, "Effective Global Approaches for Mutual Information based Feature Selection". Proceeedings of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'14), August 24–27, New York City, 2014. "[3]" (англ.)
  22. M. Yamada, W. Jitkrittum, L. Sigal, E. P. Xing, M. Sugiyama, High-Dimensional Feature Selection by Feature-Wise Non-Linear Lasso. Neural Computation, vol.26, no.1, pp.185-207, 2014. (англ.)
  23. M. Hall 1999, Correlation-based Feature Selection for Machine Learning (англ.)
  24. Senliol, Baris, et al. "Fast Correlation Based Filter (FCBF) with a different search strategy." Computer and Information Sciences, 2008. ISCIS'08. 23rd International Symposium on. IEEE, 2008. [4] (англ.)
  25. Hai Nguyen, Katrin Franke, and Slobodan Petrovic, Optimizing a class of feature selection measures, Proceedings of the NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML), Vancouver, Canada, December 2009. [5] (англ.)
  26. а б H. Deng, G. Runger, "Feature Selection via Regularized Trees", Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN), IEEE, 2012 (англ.)
  27. а б RRF: Regularized Random Forest, пакет R на CRAN (англ.)
  28. а б J. Hammon. Optimisation combinatoire pour la sélection de variables en régression en grande dimension : Application en génétique animale. November 2013 (фр.)
  29. а б T. M. Phuong, Z. Lin et R. B. Altman. Choosing SNPs using feature selection. Proceedings / IEEE Computational Systems Bioinformatics Conference, CSB. IEEE Computational Systems Bioinformatics Conference, pages 301-309, 2005. PMID 16447987. (англ.)
  30. а б B. Duval, J.-K. Hao et J. C. Hernandez Hernandez. A memetic algorithm for gene selection and molecular classification of an cancer. In Proceedings of the 11th Annual conference on Genetic and evolutionary computation, GECCO '09, pages 201-208, New York, NY, USA, 2009. ACM. (англ.)
  31. S. C. Shah et A. Kusiak. Data mining and genetic algorithm based gene/SNP selection. Artificial intelligence in medicine, vol. 31, no. 3, pages 183-196, July 2004. PMID 15302085. (англ.)
  32. N. Long, D. Gianola, G. J.M Rosa et K. A Weigel. Dimension reduction and variable selection for genomic selection : application to predicting milk yield in Holsteins. Journal of Animal Breeding and Genetics, vol. 128, no. 4, pages 247-257, August 2011. (англ.)
  33. G. Ustunkar, S. Ozogur-Akyuz, G. W. Weber, C. M. Friedrich et Yesim Aydin Son. Selection of representative SNP sets for genome-wide association studies : a metaheuristic approach. Optimization Letters, November 2011. (англ.)
  34. R. Meiri et J. Zahavi. Using simulated annealing to optimize the feature selection problem in marketing applications. European Journal of Operational Research, vol. 171, no. 3, pages 842-858, Juin 2006 (англ.)
  35. G. Kapetanios. Variable Selection using Non-Standard Optimisation of Information Criteria. Working Paper 533, Queen Mary, University of London, School of Economics and Finance, 2005. (англ.)
  36. D. Broadhurst, R. Goodacre, A. Jones, J. J. Rowland et D. B. Kell. Genetic algorithms as a method for variable selection in multiple linear regression and partial least squares regression, with applications to pyrolysis mass spectrometry. Analytica Chimica Acta, vol. 348, no. 1-3, pages 71-86, August 1997. (англ.)
  37. Zhang, Y.; Wang, S.; Phillips, P. (2014). Binary PSO with Mutation Operator for Feature Selection using Decision Tree applied to Spam Detection. Knowledge-Based Systems 64. с. 22–31.  (англ.)
  38. Chuang, L.-Y.; Yang, C.-H. (2009). Tabu search and binary particle swarm optimization for feature selection using microarray data. Journal of computational biology 16 (12). с. 1689–1703. PMID 20047491. doi:10.1089/cmb.2007.0211.  (англ.)
  39. E. Alba, J. Garia-Nieto, L. Jourdan et E.-G. Talbi. Gene Selection in Cancer Classification using PSO-SVM and GA-SVM Hybrid Algorithms. Congress on Evolutionary Computation, Singapor : Singapore (2007), 2007 (англ.)
  40. C. Hans, A. Dobra et M. West. Shotgun stochastic search for 'large p' regression. Journal of the American Statistical Association, 2007. (англ.)
  41. T. Jirapech-Umpai et S. Aitken. Feature selection and classification for microarray data analysis : Evolutionary methods for identifying predictive genes. BMC bioinformatics, vol. 6, no. 1, page 148, 2005. (англ.)
  42. I. S. Oh, J. S. Lee et B. R. Moon. Hybrid genetic algorithms for feature selection. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 11, pages 1424-1437, November 2004. (англ.)
  43. Xuan, P.; Guo, M. Z.; Wang, J.; Liu, X. Y.; Liu, Y. (2011). Genetic algorithm-based efficient feature selection for classification of pre-miRNAs. Genetics and Molecular Research 10 (2). с. 588–603. PMID 21491369. doi:10.4238/vol10-2gmr969.  (англ.)
  44. S. Peng. Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines. FEBS Letters, vol. 555, no. 2, pages 358-362, December 2003. (англ.)
  45. J. C. H. Hernandez, B. Duval et J.-K. Hao. A genetic embedded approach for gene selection and classification of microarray data. In Proceedings of the 5th European conference on Evolutionary computation, machine learning and data mining in bioinformatics, EvoBIO'07, pages 90-101, Berlin, Heidelberg, 2007. SpringerVerlag. (англ.)
  46. E. B. Huerta, B. Duval et J.-K. Hao. A hybrid GA/SVM approach for gene selection and classification of microarray data. evoworkshops 2006, LNCS, vol. 3907, pages 34-44, 2006. (англ.)
  47. D. P. Muni, N. R. Pal et J. Das. Genetic programming for simultaneous feature selection and classifier design. IEEE Transactions on Systems, Man, and Cybernetics, Part B : Cybernetics, vol. 36, no. 1, pages 106-117, February 2006. (англ.)
  48. L. Jourdan, C. Dhaenens et E.-G. Talbi. Linkage disequilibrium study with a parallel adaptive GA. International Journal of Foundations of Computer Science, 2004. (англ.)
  49. Zhang, Y.; Dong, Z.; Phillips, P.; Wang, S. (2015). Detection of subjects and brain regions related to Alzheimer's disease using 3D MRI scans based on eigenbrain and machine learning. Frontiers in Computational Neuroscience 9. с. 66.  (англ.)
  50. Roffo, G.; Melzi, S.; Cristani, M. (2015-12-01). Infinite Feature Selection. 2015 IEEE International Conference on Computer Vision (ICCV). с. 4202–4210. doi:10.1109/ICCV.2015.478.  (англ.)
  51. Roffo, Giorgio; Melzi, Simone (September 2016). Features Selection via Eigenvector Centrality. NFmcp2016. Процитовано 12 November 2016.  (англ.)
  52. Das el al, Submodular meets Spectral: Greedy Algorithms for Subset Selection, Sparse Approximation and Dictionary Selection (англ.)
  53. Liu et al, Submodular feature selection for high-dimensional acoustic score spaces (англ.)
  54. Zheng et al, Submodular Attribute Selection for Action Recognition in Video (англ.)

Література[ред.ред. код]

Посилання[ред.ред. код]