Розпізнавання орієнтирів
У компʼютерних науках та комп'ютерному зорі розпізнавання орієнтирів — це процес пошуку значущих орієнтирів на зображенні. На початку це стосувалося пошуку орієнтирів для навігаційних цілей – наприклад, в системах машинного зору або для створення карт на базі супутникових зображень. Ці методи були поширені на інші сфери, зокрема на сферу розпізнавання обличчя, де вони використовується для визначення ключових точок на обличчі. Розпізнавання орієнтірів також має важливе застосування в медицині, виявляючи анатомічні орієнтири на медичних зображеннях.
Пошук орієнтирів на обличчі є важливим кроком у ідентифікації облич людей на зображенні. Орієнтири на обличчі також можна використовувати для отримання інформації про настрій і наміри людини.[1] Використовувані методи поділяються на три категорії: холістичні методи, методи пошуку умовних локальних екстремумів та методи на основі регресії.[2]
Для застосування холістичних методів необхідні попередньо зібрані статистичні дані про форму обличчя та коефіцієнти розташування орієнтирів. Класичним холістичним методом є активна модель зовнішності[en] (AAM), представлена в 1998 році.[2] З того часу метод було розширено та вдосконалено. Значною мірою вдосконалення стосувалося алгоритмів пошуку розвʼязку.[3] Ці алгоритми можна поділити на дві групи: аналітичні та на основі навчання. Аналітичні методи застосовують нелінійні методи оптимізації, такі як алгоритм Гаусса–Ньютона[en]. Цей алгоритм дуже повільний, але були запропоновані кращі, такі як алгоритм інверсної композиції проектування (POIC) і алгоритм одночасної інверсної композиції (SIC).[4] Методи пошуку розвʼязку на основі навчання використовують методи машинного навчання для передбачення коефіцієнтів обличчя. Вони можуть використовувати лінійну регресію, нелінійну регресію[en] та інші методи.[4] Загалом аналітичні методи більш точні й не потребують навчання, тоді як методи на основі навчання є швидшими, але потребують навчання.[5] Інші розширення базового методу AAM аналізують вейвлети на зображенні, а не інтенсивність пікселів. Це дозволяє брати до уваги невидимі частини обличчя, які для базового AAM є проблемними.[5]
Метою виявлення орієнтирів у зображеннях у сфері моди є класифікація таких зображень. Це допомагає з їх пошуком із заданими характеристиками в базах даних або в пошукових системах. Прикладом такого орієнтира в сфері моди є розташування подолу сукні на зображенні з моделлю. Виявлення орієнтирів на таких зображеннях є особливо складною задачею через високу деформацію, яка притаманна одягу.[6]
Деякі класичні методи виявлення ознак, такі як масштабоінваріантне перетворення ознак, використовувалися в минулому. Однак зараз все частіше використовують методи глибокого навчання . Цьому надзвичайно допомогла публікація низки великих наборів даних, які повʼязані з сферою моди та які можна використовувати для навчання глибоких моделей.[6] До цих методів належать моделі на основі регресії, моделі на основі умовних екстремумів та моделі уваги.[7] Проблема деформації одягу призвела до розвитку моделей оцінки пози, які виявляють і враховують позу моделі в одязі.[8]
Існує кілька алгоритмів визначення орієнтирів на зображеннях. У наш час це завдання зазвичай вирішується за допомогою штучних нейронних мереж і особливо алгоритмів глибокого навчання, але еволюційні алгоритми, такі як оптимізація роїв частинок, також можуть бути корисними для вирішення цієї задачі.
Глибоке навчання значно вплинуло на автоматичне визначення орієнтирів обличчя, дозволяючи точніше та ефективніше виявляти орієнтири на справжніх фотографіях.[9] За допомогою традиційних методів комп’ютерного зору виявлення орієнтирів на обличчі може бути складним через варіації в освітленні, положенні голови та оклюзії, але згорткові нейронні мережі (CNN) зробили революцію у виявленні орієнтирів, дозволивши комп’ютерам вивчати особливості з великих наборів даних зображень. Навчаючи CNN на наборі даних зображень із позначеними орієнтирами обличчя, алгоритм може навчитися виявляти ці орієнтири на нових зображеннях з високою точністю, навіть якщо вони з’являються в інших умовах освітлення, під різними кутами або в частково закритих ракурсах.
Зокрема, рішення, засновані на цьому підході, досягли ефективності, яка дозволяє їхнє використання в реальному часі на графічних процесорах мобільних пристроїв, і знайшли своє використання в методах доповненої реальності.[10]
Еволюційні алгоритми на етапі навчання намагаються вивчити метод правильного визначення орієнтирів. Ця фаза є ітеративним процесом та, відповідно, виконується в кілька ітерацій. В результаті завершення останній ітерації отримуться системуа, яка може правильно визначати орієнтир з певною точністю. В методі оптимізації рою частинок є частинки, які шукають орієнтири, та кожна з них використовує певну формулу в кожній ітерації для оптимізації виявлення орієнтирів.[11]
- ↑ Wu & Ji, p. 115.
- ↑ а б Wu & Ji, p. 116.
- ↑ Wu & Ji, p. 117.
- ↑ а б Wu & Ji, p. 118.
- ↑ а б Wu & Ji, p. 119.
- ↑ а б Zhang, Zhang & Du, p. 1.
- ↑ Zhang, Zhang & Du, pp. 1–4.
- ↑ Zhang, Zhang & Du, p. 2.
- ↑ Wu & Ji
- ↑ Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs (2019) by Kartynnik, Yury and Ablavatski, Artsiom and Grishchenko, Ivan and Grundmann, Matthias
- ↑ LANDMARK DETECTION ON CEPHALOMETRIC X-RAYS USING PARTICLE SWARM OPTIMISATION GAYAN WIJESINGHE (2005) by Supervisors Vic, Ciesielski, Xiaodong Li
- Falk Schwendicke, Akhilanand Chaurasia, Lubaina Arsiwala, Jae-Hong Lee, Karim Elhennawy, Paul-Georg Jost-Brinkmann, Flavio Demarco, Joachim Krois, "Deep learning for cephalometric landmark detection: systematic review and meta-analysis", Clinical Oral Investigations, vol. 25, pp. 4299–4309, 2021.
- Yue Wu, Qiang Ji, "Facial landmark detection: a literature survey", International Journal of Computer Vision, vol. 127, pp. 115–142, 2019.
- Yungang Zhang, Cai Zhang, Fei Du, "A brief review of recent progress in fashion landmark detection", 12th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), pp. 1–6, 2019.