Видобування термінології
Видобування термінології (інші назви — видобування термінів, видобування глосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів[1].
В епоху семантичної павутини дедалі більше спільнот і мережевих підприємств отримують доступ до Інтернету і взаємодіють у ньому. Моделювання такої взаємодії та інформаційних потреб цих спільнот є важливим для деяких вебзастосунків, як-от пошукові роботи[2], вебслужби[3], рекомендаційні системи[4] тощо. Крім того, розвиток технологій видобування термінології важливий для мовної галузі.
Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів[5][6][7][8][9][10][11][12][13][14][15][16].
Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.
Іменникові групи включають:
- іменникові словосполучення (наприклад, «рада директорів»)
- прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
- прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).
Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)[1].
Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.
Видобування термінології є дуже корисною відправною точкою для семантичної схожості, управління знаннями, перекладу людиною та машинного перекладу тощо.
Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів[17]. Двомовну термінологію можна також витягти із порівнянних корпусів[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).
- Комп'ютерна лінгвістика
- Глосарій
- Обробка природної мови
- Онтологія предметної області
- Індексування
- Таксономія (загальна)
- Термінологія
- Інтелектуальний аналіз тексту
- Спрощення тексту
- ↑ а б Alrehamy, Hassan H; Walker, Coral (2018). SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Т. 650. с. 222—235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
- ↑ Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.
- ↑ Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).
- ↑ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.
- ↑ Collier, N.; Nobata, C.; Tsujii, J. (2002). Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain. Terminology. 7 (2): 239—257. doi:10.1075/term.7.2.07col.
- ↑ K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115—130.
- ↑ K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585—604. ISBN 3-540-65101-2
- ↑ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). Glossary extraction and utilization in the information search and delivery system for IBM Technical Support (PDF). IBM Systems Journal. 43 (3): 546—563. doi:10.1147/sj.433.0546.
- ↑ Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151—179
- ↑ Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473—479
- ↑ Y. Park, R. J. Byrd, B. Boguraev. «Automatic glossary extraction: beyond terminology identification», International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics — Taipei, Taiwan, 2002.
- ↑ Sclano, F. and Velardi, P. [Архівовано 2012-05-04 у Wayback Machine.]. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
- ↑ P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.
- ↑ Wermter J. and Hahn U. Finding New terminology in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada
- ↑ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
- ↑ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
- ↑ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment. Terminology. 19 (1): 1—30. doi:10.1075/term.19.1.01mac.
{{cite journal}}
:|hdl-access=
вимагає|hdl=
(довідка) - ↑ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag, архів оригіналу (PDF) за 11 травня 2021, процитовано 5 квітня 2023