Пристосовування області визначення
Цю статтю написано занадто професійним стилем зі специфічною термінологією, що може бути незрозумілим для більшості читачів. (Квітень 2021) |
Пристосо́вування о́бласті ви́значення (англ. domain adaptation)[1][2][3] — це область, пов'язана з машинним та передавальним навчанням. Цей сценарій виникає тоді, коли ми маємо на меті навчання з первинного розподілу даних ефективної моделі на іншому (але пов'язаному) цільовому розподілі даних. Наприклад, одна з підзадач поширеної задачі фільтрування спаму полягає в пристосовуванні моделі від одного користувача (первинний розподіл) до нового користувача, який отримує суттєво відмінні електронні листи (цільовий розподіл). Пристосовування області визначення виявилося корисним і для навчання непов'язаних джерел.[4] Зауважте, що, коли доступно більше одного первинного розподілу, цю задачу називають багатоджерельним пристосовуванням області визначення (англ. multi-source domain adaptation).[5]
Огляд[ред. | ред. код]
Пристосовування області визначення — це здатність застосовувати алгоритм, навчений в одній або декількох «первинних областях визначення» (англ. "source domains"), до іншої (але пов'язаної) «цільової області визначення» (англ. "target domain"). Пристосовування області визначення є підкатегорією передавального навчання. У пристосовуванні області визначення як первинні, так і цільові області визначення мають один і той же простір ознак (але різні розподіли), а передавальне навчання, на відміну від цього, включає також і випадки, коли простір ознак цільової області визначення від первинного простору чи просторів ознак відрізняється.[6]
Зсув області визначення[ред. | ред. код]
Зсув о́бласті ви́значення (англ. domain shift),[7] або розпо́діловий зсув (англ. distributional shift),[8] — це зміна в розподілі даних між тренувальним набором даних алгоритму та набором даних, з яким він стикається при розгортанні. Ці зсуви областей визначення є поширеними в практичному застосуванні штучного інтелекту. Звичайні алгоритми машинного навчання часто погано пристосовуються до зсувів областей визначення. Сучасна спільнота машинного навчання має багато різних стратегій намагання досягнення кращого пристосування області визначення.
Приклади[ред. | ред. код]
- Алгоритмові, натренованому на новинах, може довестися пристосовуватися до нового набору біомедичних документів.[9]
- Спамовий фільтр, натренований на певній групі користувачів електронної пошти під час тренування, при розгортанні мусить пристосовуватися до нового цільового користувача.[10]
- Застосування алгоритмів встановлювання діагнозу за допомогою ШІ, натренованих на мічених даних, пов'язаних із попередніми захворюваннями, до нових немічених даних, пов'язаних із пандемією COVID-19.[11]
- Раптові соціальні зміни, такі як спалах пандемії, можуть створювати зсув області визначення та спричинювати збої алгоритмів машинного навчання, натренованих на вже застарілих даних про споживачів, і вимагати втручання.[12][13]
До інших застосувань належать встановлювання положення за Wi-Fi та багато аспектів комп'ютерного бачення.[6]
Формальний виклад[ред. | ред. код]
Нехай є простором входу (або простором опису, англ. input space, description space), і нехай є простором виходу (або простором міток, англ. output space, label space). Завданням алгоритму машинного навчання є навчитися математичної моделі (гіпотези) , здатної приписувати мітку з прикладові з . Навчання цієї моделі відбувається з навчальної вибірки .
Зазвичай за керованого навчання (без пристосовування області визначення) ми виходимо з того, що ці зразки витягуються н. о. р. з розподілу носія (невідомого та незмінного). Завдання відтак полягає в тім, щоби навчитися (з ) такої , щоби вона припускалася найменшої можливої похибки при міченні нових зразків, що надходять із розподілу .
Головна відмінність між керованим навчанням та пристосовуванням області визначення полягає в тім, що в другій ситуації ми вивчаємо два різні (але пов'язані) розподіли і на [джерело?]. Завдання пристосовування області визначення відтак складається з передавання знань з первинної області визначення до цільової . Метою відтак є навчитися такої (з мічених або немічених зразків, що надходять із двох областей визначення), щоби вона припускалася якомога меншої похибки на цільовій області визначення [джерело?].
Головною проблемою є наступна: якщо модель навчається з первинної області визначення, якою буде її здатність правильно мітити дані, що надходять із цільової області визначення?
Різні типи пристосовування області визначення[ред. | ред. код]
Існує кілька контекстів пристосовування області визначення. Вони відрізняються інформацією, яка враховується для цільової області визначення.
- Спонта́нне пристосо́вування о́бласті ви́значення (англ. unsupervised domain adaptation): навчальна вибірка містить набір мічених первинних зразків, набір немічених первинних зразків, та набір немічених цільових зразків.
- Напівавтомати́чне присто́совування о́бласті ви́значення (англ. semi-supervised domain adaptation): у цій ситуації ми також розглядаємо «невеликий» набір мічених цільових зразків.
- Керо́ване пристосо́вування о́бласті ви́значення (англ. supervised domain adaptation): усі зразки, що розглядаються, мають бути міченими.
Чотири алгоритмічні принципи[ред. | ред. код]
Алгоритми перезважування[ред. | ред. код]
Мета полягає в перезважуванні первинної міченої вибірки таким чином, щоби вона «виглядала як» цільова вибірка (з точки зору розгляданої міри похибки).[14][15]
Ітеративні алгоритми[ред. | ред. код]
Цей метод для пристосовування полягає в ітеративному «автоматичному міченні» цільових зразків. Принцип є простим:
- модель навчається з мічених зразків;
- автоматично мітить деякі цільові зразки;
- нова модель навчається з нових мічених зразків.
Зауважте, що існують й інші ітеративні підходи, але вони зазвичай потребують мічених цільових зразків.[16][17]
Пошук спільного простору подань[ред. | ред. код]
Метою є знайти або побудувати спільний простір подань (англ. common representation space) для двох областей визначення. Мета полягає в отриманні простору, в якому ці області визначення перебуватимуть близько одна до одної, за умови збереження доброї продуктивності в первинній задачі маркування. Цього можливо досягати за допомогою застосування методів змагального машинного навчання[en], де подання ознак із вибірок у різних областях визначення заохочуються бути нерозрізненними.[18][19]
Ієрархічна баєсова модель[ред. | ред. код]
Метою є побудувати баєсову ієрархічну модель , що є по суті множниковою моделлю для чисел , щоби вивести не залежні від області визначення латентні подання, які можуть містити як специфічні для областей визначення, так і глобально спільні латентні множники.[4]
Примітки[ред. | ред. код]
- ↑ Redko, Ievgen; Morvant, Emilie; Habrard, Amaury; Sebban, Marc; Bennani, Younès (2019). Advances in Domain Adaptation Theory. ISTE Press - Elsevier. с. 187. ISBN 9781785482366. Архів оригіналу за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
- ↑ Bridle, John S.; Cox, Stephen J (1990). RecNorm: Simultaneous normalisation and classification applied to speech recognition. Conference on Neural Information Processing Systems (NIPS). с. 234—240. (англ.)
- ↑ Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). A theory of learning from different domains (PDF). Machine Learning. 79 (1–2): 151—175. doi:10.1007/s10994-009-5152-4. Архів оригіналу (PDF) за 11 жовтня 2021. Процитовано 12 квітня 2021. (англ.)
- ↑ а б Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. arXiv:1810.09433 [stat.ML]. (англ.)
- ↑ Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). Learning from Multiple Sources (PDF). Journal of Machine Learning Research. 9: 1757—1774. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
- ↑ а б Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). A survey of multi-source domain adaptation. Information Fusion. 24: 84—92. doi:10.1016/j.inffus.2014.12.003. (англ.)
- ↑ Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. (англ.)
- ↑ Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). (англ.)
- ↑ Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). (англ.)
- ↑ Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. (англ.)
- ↑ Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nature Machine Intelligence (англ.). 2 (6): 298—300. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839. Архів оригіналу за 25 лютого 2021. Процитовано 12 квітня 2021. (англ.)
- ↑ Matthews, Dylan (26 березня 2019). AI disaster won’t look like the Terminator. It’ll be creepier. Vox (англ.). Архів оригіналу за 27 травня 2020. Процитовано 21 червня 2020. (англ.)
- ↑ Our weird behavior during the pandemic is messing with AI models. MIT Technology Review (англ.). 11 травня 2020. Архів оригіналу за 22 червня 2020. Процитовано 21 червня 2020. (англ.)
- ↑ Huang, Jiayuan; Smola, Alexander J.; Gretton, Arthur; Borgwardt, Karster M.; Schölkopf, Bernhard (2006). Correcting Sample Selection Bias by Unlabeled Data. Conference on Neural Information Processing Systems (NIPS). с. 601—608. (англ.)
- ↑ Shimodaira, Hidetoshi (2000). Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 90 (2): 227—244. doi:10.1016/S0378-3758(00)00115-4. (англ.)
- ↑ . ISBN 978-1-4503-5544-5.
{{cite conference}}
: Пропущений або порожній|title=
(довідка) (англ.) - ↑ Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 грудня 2018). A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data. ACM Transactions on Sensor Networks. 14 (3–4): 21:1–21:28. doi:10.1145/3217214. (англ.)
- ↑ Ganin, Yaroslav; Ustinova, Evgeniya; Ajakan, Hana; Germain, Pascal; Larochelle, Hugo; Laviolette, François; Marchand, Mario; Lempitsky, Victor (2016). Domain-Adversarial Training of Neural Networks (PDF). Journal of Machine Learning Research. 17: 1—35. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
- ↑ Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2017). Addressing Appearance Change in Outdoor Robotics with Adversarial Domain Adaptation. arXiv:1703.01461 [cs.RO]. (англ.)