Пристосовування області визначення

Пристосо́вування о́бласті ви́значення (англ. domain adaptation)^[1]^[2]^[3] — це область, пов'язана з машинним та передавальним навчанням. Цей сценарій виникає тоді, коли ми маємо на меті навчання з первинного розподілу даних ефективної моделі на іншому (але пов'язаному) цільовому розподілі даних. Наприклад, одна з підзадач поширеної задачі фільтрування спаму полягає в пристосовуванні моделі від одного користувача (первинний розподіл) до нового користувача, який отримує суттєво відмінні електронні листи (цільовий розподіл). Пристосовування області визначення виявилося корисним і для навчання непов'язаних джерел.^[4] Зауважте, що, коли доступно більше одного первинного розподілу, цю задачу називають багатоджерельним пристосовуванням області визначення (англ. multi-source domain adaptation).^[5]

Огляд[ред. | ред. код]

Пристосовування області визначення — це здатність застосовувати алгоритм, навчений в одній або декількох «первинних областях визначення» (англ. "source domains"), до іншої (але пов'язаної) «цільової області визначення» (англ. "target domain"). Пристосовування області визначення є підкатегорією передавального навчання. У пристосовуванні області визначення як первинні, так і цільові області визначення мають один і той же простір ознак (але різні розподіли), а передавальне навчання, на відміну від цього, включає також і випадки, коли простір ознак цільової області визначення від первинного простору чи просторів ознак відрізняється.^[6]

Зсув області визначення[ред. | ред. код]

Зсув о́бласті ви́значення (англ. domain shift),^[7] або розпо́діловий зсув (англ. distributional shift),^[8] — це зміна в розподілі даних між тренувальним набором даних алгоритму та набором даних, з яким він стикається при розгортанні. Ці зсуви областей визначення є поширеними в практичному застосуванні штучного інтелекту. Звичайні алгоритми машинного навчання часто погано пристосовуються до зсувів областей визначення. Сучасна спільнота машинного навчання має багато різних стратегій намагання досягнення кращого пристосування області визначення.

Приклади[ред. | ред. код]

Алгоритмові, натренованому на новинах, може довестися пристосовуватися до нового набору біомедичних документів.^[9]
Спамовий фільтр, натренований на певній групі користувачів електронної пошти під час тренування, при розгортанні мусить пристосовуватися до нового цільового користувача.^[10]
Застосування алгоритмів встановлювання діагнозу за допомогою ШІ, натренованих на мічених даних, пов'язаних із попередніми захворюваннями, до нових немічених даних, пов'язаних із пандемією COVID-19.^[11]
Раптові соціальні зміни, такі як спалах пандемії, можуть створювати зсув області визначення та спричинювати збої алгоритмів машинного навчання, натренованих на вже застарілих даних про споживачів, і вимагати втручання.^[12]^[13]

До інших застосувань належать встановлювання положення за Wi-Fi та багато аспектів комп'ютерного бачення.^[6]

Формальний виклад[ред. | ред. код]

Нехай $X$ є простором входу (або простором опису, англ. input space, description space), і нехай $Y$ є простором виходу (або простором міток, англ. output space, label space). Завданням алгоритму машинного навчання є навчитися математичної моделі (гіпотези) $h:X\to Y$ , здатної приписувати мітку з $Y$ прикладові з $X$ . Навчання цієї моделі відбувається з навчальної вибірки $S=\{(x_{i},y_{i})\in (X\times Y)\}_{i=1}^{m}$ .

Зазвичай за керованого навчання (без пристосовування області визначення) ми виходимо з того, що ці зразки $(x_{i},y_{i})\in S$ витягуються н. о. р. з розподілу $D_{S}$ носія $X\times Y$ (невідомого та незмінного). Завдання відтак полягає в тім, щоби навчитися (з $S$ ) такої $h$ , щоби вона припускалася найменшої можливої похибки при міченні нових зразків, що надходять із розподілу $D_{S}$ .

Головна відмінність між керованим навчанням та пристосовуванням області визначення полягає в тім, що в другій ситуації ми вивчаємо два різні (але пов'язані) розподіли $D_{S}$ і $D_{T}$ на $X\times Y$ ^{[джерело?]}. Завдання пристосовування області визначення відтак складається з передавання знань з первинної області визначення $D_{S}$ до цільової $D_{T}$ . Метою відтак є навчитися такої $h$ (з мічених або немічених зразків, що надходять із двох областей визначення), щоби вона припускалася якомога меншої похибки на цільовій області визначення $D_{T}$ ^{[джерело?]}.

Головною проблемою є наступна: якщо модель навчається з первинної області визначення, якою буде її здатність правильно мітити дані, що надходять із цільової області визначення?

Різні типи пристосовування області визначення[ред. | ред. код]

Існує кілька контекстів пристосовування області визначення. Вони відрізняються інформацією, яка враховується для цільової області визначення.

Спонта́нне пристосо́вування о́бласті ви́значення (англ. unsupervised domain adaptation): навчальна вибірка містить набір мічених первинних зразків, набір немічених первинних зразків, та набір немічених цільових зразків.
Напівавтомати́чне присто́совування о́бласті ви́значення (англ. semi-supervised domain adaptation): у цій ситуації ми також розглядаємо «невеликий» набір мічених цільових зразків.
Керо́ване пристосо́вування о́бласті ви́значення (англ. supervised domain adaptation): усі зразки, що розглядаються, мають бути міченими.

Чотири алгоритмічні принципи[ред. | ред. код]

Алгоритми перезважування[ред. | ред. код]

Мета полягає в перезважуванні первинної міченої вибірки таким чином, щоби вона «виглядала як» цільова вибірка (з точки зору розгляданої міри похибки).^[14]^[15]

Ітеративні алгоритми[ред. | ред. код]

Цей метод для пристосовування полягає в ітеративному «автоматичному міченні» цільових зразків. Принцип є простим:

модель $h$ навчається з мічених зразків;
$h$ автоматично мітить деякі цільові зразки;
нова модель навчається з нових мічених зразків.

Зауважте, що існують й інші ітеративні підходи, але вони зазвичай потребують мічених цільових зразків.^[16]^[17]

Пошук спільного простору подань[ред. | ред. код]

Метою є знайти або побудувати спільний простір подань (англ. common representation space) для двох областей визначення. Мета полягає в отриманні простору, в якому ці області визначення перебуватимуть близько одна до одної, за умови збереження доброї продуктивності в первинній задачі маркування. Цього можливо досягати за допомогою застосування методів змагального машинного навчання^[en], де подання ознак із вибірок у різних областях визначення заохочуються бути нерозрізненними.^[18]^[19]

Ієрархічна баєсова модель[ред. | ред. код]

Метою є побудувати баєсову ієрархічну модель $p(n)$ , що є по суті множниковою моделлю для чисел $n$ , щоби вивести не залежні від області визначення латентні подання, які можуть містити як специфічні для областей визначення, так і глобально спільні латентні множники.^[4]

Примітки[ред. | ред. код]

↑ Redko, Ievgen; Morvant, Emilie; Habrard, Amaury; Sebban, Marc; Bennani, Younès (2019). Advances in Domain Adaptation Theory. ISTE Press - Elsevier. с. 187. ISBN 9781785482366. Архів оригіналу за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ Bridle, John S.; Cox, Stephen J (1990). RecNorm: Simultaneous normalisation and classification applied to speech recognition. Conference on Neural Information Processing Systems (NIPS). с. 234—240. (англ.)
↑ Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). A theory of learning from different domains (PDF). Machine Learning. 79 (1–2): 151—175. doi:10.1007/s10994-009-5152-4. Архів оригіналу (PDF) за 11 жовтня 2021. Процитовано 12 квітня 2021. (англ.)
↑ ^а ^б Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. arXiv:1810.09433 [stat.ML]. (англ.)
↑ Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). Learning from Multiple Sources (PDF). Journal of Machine Learning Research. 9: 1757—1774. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ ^а ^б Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). A survey of multi-source domain adaptation. Information Fusion. 24: 84—92. doi:10.1016/j.inffus.2014.12.003. (англ.)
↑ Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. (англ.)
↑ Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). (англ.)
↑ Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). (англ.)
↑ Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. (англ.)
↑ Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nature Machine Intelligence (англ.). 2 (6): 298—300. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839. Архів оригіналу за 25 лютого 2021. Процитовано 12 квітня 2021. (англ.)
↑ Matthews, Dylan (26 березня 2019). AI disaster won’t look like the Terminator. It’ll be creepier. Vox (англ.). Архів оригіналу за 27 травня 2020. Процитовано 21 червня 2020. (англ.)
↑ Our weird behavior during the pandemic is messing with AI models. MIT Technology Review (англ.). 11 травня 2020. Архів оригіналу за 22 червня 2020. Процитовано 21 червня 2020. (англ.)
↑ Huang, Jiayuan; Smola, Alexander J.; Gretton, Arthur; Borgwardt, Karster M.; Schölkopf, Bernhard (2006). Correcting Sample Selection Bias by Unlabeled Data. Conference on Neural Information Processing Systems (NIPS). с. 601—608. (англ.)
↑ Shimodaira, Hidetoshi (2000). Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 90 (2): 227—244. doi:10.1016/S0378-3758(00)00115-4. (англ.)
↑ . ISBN 978-1-4503-5544-5. {{cite conference}}: Пропущений або порожній |title= (довідка) (англ.)
↑ Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 грудня 2018). A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data. ACM Transactions on Sensor Networks. 14 (3–4): 21:1–21:28. doi:10.1145/3217214. (англ.)
↑ Ganin, Yaroslav; Ustinova, Evgeniya; Ajakan, Hana; Germain, Pascal; Larochelle, Hugo; Laviolette, François; Marchand, Mario; Lempitsky, Victor (2016). Domain-Adversarial Training of Neural Networks (PDF). Journal of Machine Learning Research. 17: 1—35. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)
↑ Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2017). Addressing Appearance Change in Outdoor Robotics with Adversarial Domain Adaptation. arXiv:1703.01461 [cs.RO]. (англ.)

[1] Redko, Ievgen; Morvant, Emilie; Habrard, Amaury; Sebban, Marc; Bennani, Younès (2019). Advances in Domain Adaptation Theory. ISTE Press - Elsevier. с. 187. ISBN 9781785482366. Архів оригіналу за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[2] Bridle, John S.; Cox, Stephen J (1990). RecNorm: Simultaneous normalisation and classification applied to speech recognition. Conference on Neural Information Processing Systems (NIPS). с. 234—240. (англ.)

[3] Ben-David, Shai; Blitzer, John; Crammer, Koby; Kulesza, Alex; Pereira, Fernando; Wortman Vaughan, Jennifer (2010). A theory of learning from different domains (PDF). Machine Learning. 79 (1–2): 151—175. doi:10.1007/s10994-009-5152-4. Архів оригіналу (PDF) за 11 жовтня 2021. Процитовано 12 квітня 2021. (англ.)

[:bmdl-4] а ^б Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2018). Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. arXiv:1810.09433 [stat.ML]. (англ.)

[5] Crammer, Koby; Kearns, Michael; Wortman, Jeniifer (2008). Learning from Multiple Sources (PDF). Journal of Machine Learning Research. 9: 1757—1774. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[survey_multi-source-6] а ^б Sun, Shiliang; Shi, Honglei; Wu, Yuanbin (July 2015). A survey of multi-source domain adaptation. Information Fusion. 24: 84—92. doi:10.1016/j.inffus.2014.12.003. (англ.)

[frustratingly-7] Sun, Baochen, Jiashi Feng, and Kate Saenko. «Return of frustratingly easy domain adaptation.» In Thirtieth AAAI Conference on Artificial Intelligence. 2016. (англ.)

[8] Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. «Concrete problems in AI safety.» arXiv preprint arXiv:1606.06565 (2016). (англ.)

[9] Daumé III, Hal. «Frustratingly easy domain adaptation.» arXiv preprint arXiv:0907.1815 (2009). (англ.)

[10] Ben-David, Shai, John Blitzer, Koby Crammer, and Fernando Pereira. «Analysis of representations for domain adaptation.» In Advances in neural information processing systems, pp. 137—144. 2007. (англ.)

[11] Hu, Yipeng; Jacob, Joseph; Parker, Geoffrey J. M.; Hawkes, David J.; Hurst, John R.; Stoyanov, Danail (June 2020). The challenges of deploying artificial intelligence models in a rapidly evolving pandemic. Nature Machine Intelligence (англ.). 2 (6): 298—300. doi:10.1038/s42256-020-0185-2. ISSN 2522-5839. Архів оригіналу за 25 лютого 2021. Процитовано 12 квітня 2021. (англ.)

[12] Matthews, Dylan (26 березня 2019). AI disaster won’t look like the Terminator. It’ll be creepier. Vox (англ.). Архів оригіналу за 27 травня 2020. Процитовано 21 червня 2020. (англ.)

[13] Our weird behavior during the pandemic is messing with AI models. MIT Technology Review (англ.). 11 травня 2020. Архів оригіналу за 22 червня 2020. Процитовано 21 червня 2020. (англ.)

[14] Huang, Jiayuan; Smola, Alexander J.; Gretton, Arthur; Borgwardt, Karster M.; Schölkopf, Bernhard (2006). Correcting Sample Selection Bias by Unlabeled Data. Conference on Neural Information Processing Systems (NIPS). с. 601—608. (англ.)

[15] Shimodaira, Hidetoshi (2000). Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference. 90 (2): 227—244. doi:10.1016/S0378-3758(00)00115-4. (англ.)

[16] . ISBN 978-1-4503-5544-5. {{cite conference}}: Пропущений або порожній |title= (довідка) (англ.)

[17] Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 грудня 2018). A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data. ACM Transactions on Sensor Networks. 14 (3–4): 21:1–21:28. doi:10.1145/3217214. (англ.)

[Domain-Adversarial_Training-18] Ganin, Yaroslav; Ustinova, Evgeniya; Ajakan, Hana; Germain, Pascal; Larochelle, Hugo; Laviolette, François; Marchand, Mario; Lempitsky, Victor (2016). Domain-Adversarial Training of Neural Networks (PDF). Journal of Machine Learning Research. 17: 1—35. Архів оригіналу (PDF) за 12 квітня 2021. Процитовано 12 квітня 2021. (англ.)

[ADA-19] Hajiramezanali, Ehsan; Siamak Zamani Dadaneh; Karbalayghareh, Alireza; Zhou, Mingyuan; Qian, Xiaoning (2017). Addressing Appearance Change in Outdoor Robotics with Adversarial Domain Adaptation. arXiv:1703.01461 [cs.RO]. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]