Витік (машинне навчання)
У статистиці та машиннім навчанні ви́тік (також ви́тік да́них або ви́тік ці́лі, англ. leakage, data leakage, target leakage) — це використання в процесі тренування моделі такої інформації, яка не буде очікувано доступною в момент передбачування, що спричинює переоцінювання передбачувальними оцінками (метриками) корисності моделі для виконання її у виробничім середовищі.[1]
Витік часто буває тонким та непрямим, ускладнюючи його виявляння та усування. Витік може спричинювати обрання моделювальником неоптимальної моделі, яку в іншому випадку могла би перевершити безвитокова модель.[1]
Режими витоку[ред. | ред. код]
Витік може траплятися на багатьох етапах процесу машинного навчання. Причини витоку можливо класифікувати за двома можливими джерелами витоку для моделі: ознаки, та тренувальні зразки.[1]
Витік ознак[ред. | ред. код]
Стовпчиковий витік спричинюється включенням під час тренування моделі стовпчиків, що є одними з: повторів мітки, посередників для мітки, або самою міткою, які не є доступними в момент передбачування (анахронізми[2]). До них можуть належати витоки, які частково видають мітку.
Наприклад, включення стовпчика «ЩомісячнаЗарплатня» при передбачуванні стовпчика «РічнаЗарплатня», або «ХвилинЗапізнення» при передбачуванні «ЧиБулоЗапізнення», або, тонше, «ЧислоЗатриманихПлатежів» при передбачуванні «ЧиНадатиПозику».
Витік тренувальних зразків[ред. | ред. код]
Рядковий витік спричинюється неправильним поділом інформації рядками даних.
Типи витоків даних:
- Передчасне обозначування, витік від передчасного обозначування перед поділом ПЗ/Тренування/Перевірка (мусить допасовуватися MinMax/n-грамів/тощо лише на тренувальній долі, а потім перетворювати перевірний набір).
- Дублювання рядків між тренуванням/затверджуванням/перевіркою (наприклад, перевибирання набору даних, щоби доповнити його розмір, до поділу, наприклад, різними обертаннями/збільшеннями одного зображення, натяжковим вибиранням перед поділом, або дублюванням рядків для довибирання[en] класу меншості)
- Не н. о. р. дані
- Часовий витік (наприклад, розбивання набору даних часового ряду випадковим чином замість новіших даних у перевірному наборі при застосуванні поділу Тренування/Перевірка, або перехресного затверджування з ковзним початком)
- Груповий витік — не включення стовпчика поділу на групи (наприклад, група Ендрю Ина мала 100 тис. рентгенівських знімків 30 тис. пацієнтів, що означає близько 3 знімків на пацієнта. У цій праці використовували випадкове розбивання, замість забезпечувати, щоби всі знімки одного пацієнта були в одній і тій же долі. Тож модель частково запам'ятовувала пацієнтів замість навчатися розпізнавати пневмонію на рентгенівських знімках грудної клітини. Переглянута праця мала падіння в оцінках.[3][4])
Для залежних від часу наборів даних структура досліджуваної системи змінюється з часом (тобто, є «нестаціонарною»). Це може вносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для передбачування цін акцій[en] тренують на певному п'ятирічному періоді, нереалістично розглядати наступний п'ятирічний період як витягнутий з тієї ж генеральної сукупності. Як інший приклад, припустімо, що модель розроблюють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року.
Виявляння[ред. | ред. код]
Цей розділ потребує доповнення. (листопад 2020) |
Див. також[ред. | ред. код]
- АвтоМН
- Перехресне затверджування
- Перенавчання
- Перевибирання (статистика)[en]
- Кероване навчання
- Тренувальний, затверджувальний та випробувальний набори
Примітки[ред. | ред. код]
- ↑ а б в Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556—563. doi:10.1145/2020408.2020496. Процитовано 13 січня 2020. (англ.)
- ↑ Soumen Chakrabarti (2008). 9. Data Mining: Know it All. Morgan Kaufmann Publishers. с. 383. ISBN 978-0-12-374629-0.
Анахронічні змінні є згубною проблемою для добування. Проте вони не становлять жодної проблеми під час розгортання, хіба що хтось очікує, що ця модель працюватиме! Анахронічні змінні перебувають не на своєму місці в часі. Конкретніше, під час моделювання даних вони переносять інформацію у зворотному напрямку, із майбутнього до минулого.
(англ.) - ↑ Guts, Yuriy (30 жовтня 2018). Yuriy Guts. TARGET LEAKAGE IN MACHINE LEARNING. AI Ukraine Conference. Ukraine. Архів оригіналу (Talk) за 17 листопада 2020. Процитовано 14 листопада 2020.
{{cite conference}}
: Проігноровано невідомий параметр|lay-url=
(довідка) (англ.) - ↑ Nick, Roberts (16 листопада 2017). Replying to @AndrewYNg @pranavrajpurkar and 2 others. Brooklyn, NY, USA: Twitter. Архів оригіналу за 10 June 2018. Процитовано 13 січня 2020.
Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? “ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation.”
(англ.)
Це незавершена стаття зі штучного інтелекту. Ви можете допомогти проєкту, виправивши або дописавши її. |