Витік (машинне навчання)

У статистиці та машиннім навчанні ви́тік (також ви́тік да́них або ви́тік ці́лі, англ. leakage, data leakage, target leakage) — це використання в процесі тренування моделі такої інформації, яка не буде очікувано доступною в момент передбачування, що спричинює переоцінювання передбачувальними оцінками (метриками) корисності моделі для виконання її у виробничім середовищі.^[1]

Витік часто буває тонким та непрямим, ускладнюючи його виявляння та усування. Витік може спричинювати обрання моделювальником неоптимальної моделі, яку в іншому випадку могла би перевершити безвитокова модель.^[1]

Режими витоку[ред. | ред. код]

Витік може траплятися на багатьох етапах процесу машинного навчання. Причини витоку можливо класифікувати за двома можливими джерелами витоку для моделі: ознаки, та тренувальні зразки.^[1]

Витік ознак[ред. | ред. код]

Стовпчиковий витік спричинюється включенням під час тренування моделі стовпчиків, що є одними з: повторів мітки, посередників для мітки, або самою міткою, які не є доступними в момент передбачування (анахронізми^[2]). До них можуть належати витоки, які частково видають мітку.

Наприклад, включення стовпчика «ЩомісячнаЗарплатня» при передбачуванні стовпчика «РічнаЗарплатня», або «ХвилинЗапізнення» при передбачуванні «ЧиБулоЗапізнення», або, тонше, «ЧислоЗатриманихПлатежів» при передбачуванні «ЧиНадатиПозику».

Витік тренувальних зразків[ред. | ред. код]

Рядковий витік спричинюється неправильним поділом інформації рядками даних.

Типи витоків даних:

Передчасне обозначування, витік від передчасного обозначування перед поділом ПЗ/Тренування/Перевірка (мусить допасовуватися MinMax/n-грамів/тощо лише на тренувальній долі, а потім перетворювати перевірний набір).
Дублювання рядків між тренуванням/затверджуванням/перевіркою (наприклад, перевибирання набору даних, щоби доповнити його розмір, до поділу, наприклад, різними обертаннями/збільшеннями одного зображення, натяжковим вибиранням перед поділом, або дублюванням рядків для довибирання^[en] класу меншості)
Не н. о. р. дані
- Часовий витік (наприклад, розбивання набору даних часового ряду випадковим чином замість новіших даних у перевірному наборі при застосуванні поділу Тренування/Перевірка, або перехресного затверджування з ковзним початком)
- Груповий витік — не включення стовпчика поділу на групи (наприклад, група Ендрю Ина мала 100 тис. рентгенівських знімків 30 тис. пацієнтів, що означає близько 3 знімків на пацієнта. У цій праці використовували випадкове розбивання, замість забезпечувати, щоби всі знімки одного пацієнта були в одній і тій же долі. Тож модель частково запам'ятовувала пацієнтів замість навчатися розпізнавати пневмонію на рентгенівських знімках грудної клітини. Переглянута праця мала падіння в оцінках.^[3]^[4])

Для залежних від часу наборів даних структура досліджуваної системи змінюється з часом (тобто, є «нестаціонарною»). Це може вносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для передбачування цін акцій^[en] тренують на певному п'ятирічному періоді, нереалістично розглядати наступний п'ятирічний період як витягнутий з тієї ж генеральної сукупності. Як інший приклад, припустімо, що модель розроблюють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року.

Виявляння[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ ^а ^б ^в Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556—563. doi:10.1145/2020408.2020496. Процитовано 13 січня 2020. (англ.)
↑ Soumen Chakrabarti (2008). 9. Data Mining: Know it All. Morgan Kaufmann Publishers. с. 383. ISBN 978-0-12-374629-0. Анахронічні змінні є згубною проблемою для добування. Проте вони не становлять жодної проблеми під час розгортання, хіба що хтось очікує, що ця модель працюватиме! Анахронічні змінні перебувають не на своєму місці в часі. Конкретніше, під час моделювання даних вони переносять інформацію у зворотному напрямку, із майбутнього до минулого. (англ.)
↑ Guts, Yuriy (30 жовтня 2018). Yuriy Guts. TARGET LEAKAGE IN MACHINE LEARNING. AI Ukraine Conference. Ukraine. Архів оригіналу (Talk) за 17 листопада 2020. Процитовано 14 листопада 2020. {{cite conference}}: Проігноровано невідомий параметр |lay-url= (довідка) (англ.)
↑ Nick, Roberts (16 листопада 2017). Replying to @AndrewYNg @pranavrajpurkar and 2 others. Brooklyn, NY, USA: Twitter. Архів оригіналу за 10 June 2018. Процитовано 13 січня 2020. Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? “ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation.” (англ.)

Це незавершена стаття зі штучного інтелекту.
Ви можете допомогти проєкту, виправивши або дописавши її.

[KaufmanKDD11-1] а ^б ^в Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556—563. doi:10.1145/2020408.2020496. Процитовано 13 січня 2020. (англ.)

[2] Soumen Chakrabarti (2008). 9. Data Mining: Know it All. Morgan Kaufmann Publishers. с. 383. ISBN 978-0-12-374629-0. Анахронічні змінні є згубною проблемою для добування. Проте вони не становлять жодної проблеми під час розгортання, хіба що хтось очікує, що ця модель працюватиме! Анахронічні змінні перебувають не на своєму місці в часі. Конкретніше, під час моделювання даних вони переносять інформацію у зворотному напрямку, із майбутнього до минулого. (англ.)

[GutsAIUkraineConfTalk18-3] Guts, Yuriy (30 жовтня 2018). Yuriy Guts. TARGET LEAKAGE IN MACHINE LEARNING. AI Ukraine Conference. Ukraine. Архів оригіналу (Talk) за 17 листопада 2020. Процитовано 14 листопада 2020. {{cite conference}}: Проігноровано невідомий параметр |lay-url= (довідка) (англ.)

[4] Nick, Roberts (16 листопада 2017). Replying to @AndrewYNg @pranavrajpurkar and 2 others. Brooklyn, NY, USA: Twitter. Архів оригіналу за 10 June 2018. Процитовано 13 січня 2020. Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? “ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation.” (англ.)

[1]

[2]

[3]

[4]

Витік (машинне навчання)

Зміст

Режими витоку[ред. | ред. код]

Витік ознак[ред. | ред. код]

Витік тренувальних зразків[ред. | ред. код]

Виявляння[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Навігаційне меню

Витік (машинне навчання)

Режими витоку[ред. | ред. код]

Витік ознак[ред. | ред. код]

Витік тренувальних зразків[ред. | ред. код]

Виявляння[ред. | ред. код]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

Навігаційне меню

Пошук