Видобування термінології

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Видобування термінології (інші назви — видобування термінів, видобування глосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів[1].

В епоху семантичної павутини дедалі більше спільнот і мережевих підприємств отримують доступ до Інтернету і взаємодіють у ньому. Моделювання такої взаємодії та інформаційних потреб цих спільнот є важливим для деяких вебзастосунків, як-от пошукові роботи[2], вебслужби[3], рекомендаційні системи[4] тощо. Крім того, розвиток технологій видобування термінології важливий для мовної галузі.

Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів[5][6][7][8][9][10][11][12][13][14][15][16].

Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.

Іменникові групи включають:

  • іменникові словосполучення (наприклад, «рада директорів»)
  • прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
  • прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).

Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)[1].

Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.

Видобування термінології є дуже корисною відправною точкою для семантичної схожості, управління знаннями, перекладу людиною та машинного перекладу тощо.

Видобування двомовної термінології[ред. | ред. код]

Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів[17]. Двомовну термінологію можна також витягти із порівнянних корпусів[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. а б Alrehamy, Hassan H; Walker, Coral (2018). SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Т. 650. с. 222—235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  2. Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.
  3. Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).
  4. Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.
  5. Collier, N.; Nobata, C.; Tsujii, J. (2002). Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain. Terminology. 7 (2): 239—257. doi:10.1075/term.7.2.07col.
  6. K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115—130.
  7. K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585—604. ISBN 3-540-65101-2
  8. L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). Glossary extraction and utilization in the information search and delivery system for IBM Technical Support (PDF). IBM Systems Journal. 43 (3): 546—563. doi:10.1147/sj.433.0546.
  9. Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151—179
  10. Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473—479
  11. Y. Park, R. J. Byrd, B. Boguraev. «Automatic glossary extraction: beyond terminology identification», International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics — Taipei, Taiwan, 2002.
  12. Sclano, F. and Velardi, P. [Архівовано 2012-05-04 у Wayback Machine.]. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
  13. P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.
  14. Wermter J. and Hahn U. Finding New terminology in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada
  15. Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  16. Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
  17. Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment. Terminology. 19 (1): 1—30. doi:10.1075/term.19.1.01mac. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)
  18. Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag, архів оригіналу (PDF) за 11 травня 2021, процитовано 5 квітня 2023