Видобування термінології

Видобування термінології (інші назви — видобування термінів, видобування глосарія, розпізнавання термінів, видобуток термінології) — одна із задач у рамках видобування інформації. Метою видобування термінології є автоматичне віднайдення термінів певної предметної області в наявному корпусі текстів^[1].

В епоху семантичної павутини дедалі більше спільнот і мережевих підприємств отримують доступ до Інтернету і взаємодіють у ньому. Моделювання такої взаємодії та інформаційних потреб цих спільнот є важливим для деяких вебзастосунків, як-от пошукові роботи^[2], вебслужби^[3], рекомендаційні системи^[4] тощо. Крім того, розвиток технологій видобування термінології важливий для мовної галузі.

Одним із перших кроків до моделювання предметної області є складання словника релевантних термінів, який стає мовним унаочненням її понять. У літературі описано кілька методів автоматичного видобування технічних термінів зі сховищ документів^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12]^[13]^[14]^[15]^[16].

Як правило, для автоматичного виділення термінів використовують засоби обробки мови (розмічування частин мови, виокремлення фраз), за допомогою яких визначають термінологічні кандидати — тобто синтаксично вірогідні термінологічні іменникові групи.

Іменникові групи включають:

іменникові словосполучення (наприклад, «рада директорів»)
прикметникові іменникові словосполучення (наприклад, «кредитна картка»)
прийменникові іменникові словосполучення (наприклад, «лоток для відходів»).

Зокрема, в англійській мові найчастіше зустрічаються перші два типи (іменникові та іменникові словосполучення)^[1].

Після цього терміни, які увійшли в список кандидатів, обробляються за допомогою методів статистики і машинного навчання. Відфільтровані таким чином терміни матимуть низьку неоднозначність і високу специфічність, тому вони особливо корисні для концептуалізації області знань і для підтримки створення онтології області або термінологічної бази.

Видобування термінології є дуже корисною відправною точкою для семантичної схожості, управління знаннями, перекладу людиною та машинного перекладу тощо.

Видобування двомовної термінології

Методи видобування термінології застосовні не тільки до одномовних, а й до паралельних корпусів. У поєднанні, наприклад, зі статистикою спільного входження можна створити список кандидатів для перекладу термінів^[17]. Двомовну термінологію можна також витягти із порівнянних корпусів^[18] (тобто корпусів, які містять тексти в межах одного текстового типу і належать до однієї предметної області, але не містять перекладів).

Див. також

Примітки

↑ ^а ^б Alrehamy, Hassan H; Walker, Coral (2018). SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Т. 650. с. 222—235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
↑ Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.
↑ Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).
↑ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.
↑ Collier, N.; Nobata, C.; Tsujii, J. (2002). Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain. Terminology. 7 (2): 239—257. doi:10.1075/term.7.2.07col.
↑ K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115—130.
↑ K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585—604. ISBN 3-540-65101-2
↑ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). Glossary extraction and utilization in the information search and delivery system for IBM Technical Support (PDF). IBM Systems Journal. 43 (3): 546—563. doi:10.1147/sj.433.0546.
↑ Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151—179
↑ Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473—479
↑ Y. Park, R. J. Byrd, B. Boguraev. «Automatic glossary extraction: beyond terminology identification», International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics — Taipei, Taiwan, 2002.
↑ Sclano, F. and Velardi, P. [Архівовано 2012-05-04 у Wayback Machine.]. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
↑ P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.
↑ Wermter J. and Hahn U. Finding New terminology in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada
↑ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
↑ Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4
↑ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment. Terminology. 19 (1): 1—30. doi:10.1075/term.19.1.01mac. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)
↑ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag, архів оригіналу (PDF) за 11 травня 2021, процитовано 5 квітня 2023

[:0-1] а ^б Alrehamy, Hassan H; Walker, Coral (2018). SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation. Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. Т. 650. с. 222—235. doi:10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.

[2] Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues.

[3] Fan J. and Kambhampati S. A Snapshot of Public Web Services, in ACM SIGMOD Record archive Volume 34, Issue 1 (March 2005).

[4] Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. A market-based approach to recommender systems, in ACM Transactions on Information Systems (TOIS), 23(3), 2005.

[5] Collier, N.; Nobata, C.; Tsujii, J. (2002). Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain. Terminology. 7 (2): 239—257. doi:10.1075/term.7.2.07col.

[6] K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115—130.

[7] K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585—604. ISBN 3-540-65101-2

[8] L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). Glossary extraction and utilization in the information search and delivery system for IBM Technical Support (PDF). IBM Systems Journal. 43 (3): 546—563. doi:10.1147/sj.433.0546.

[9] Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151—179

[10] Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473—479

[11] Y. Park, R. J. Byrd, B. Boguraev. «Automatic glossary extraction: beyond terminology identification», International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics — Taipei, Taiwan, 2002.

[12] Sclano, F. and Velardi, P. [Архівовано 2012-05-04 у Wayback Machine.]. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.

[13] P. Velardi, R. Navigli, P. D'Amadio. Mining the Web to Create Specialized Glossaries, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, pp. 18-25.

[14] Wermter J. and Hahn U. Finding New terminology in Very large Corpora, in Proc. of K-CAP'05, October 2–5, 2005, Banff, Alberta, Canada

[15] Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4

[16] Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4

[17] Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment. Terminology. 19 (1): 1—30. doi:10.1075/term.19.1.01mac. {{cite journal}}: |hdl-access= вимагає |hdl= (довідка)

[18] Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag, архів оригіналу (PDF) за 11 травня 2021, процитовано 5 квітня 2023

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

п о р Обробка природної мови
Загальні терміни	Розуміння природної мови Корпус текстів Корпус мовлення Стоп-слова Торба слів AI-повнота N-грама (Біграма, Триграма)
Аналіз тексту	Сегментація тексту^[en] Розмічування частин мови Поверхнево-синтаксичний аналіз Обробка складних слів^[en] Видобування колокацій^[en] Стемінг Лематизація Розпізнавання іменованих сутностей Розв'язання кореферентності Аналіз тональності тексту Виокремлення концептів^[en] Синтаксичний аналіз Вирішення лексичної багатозначності^[en] Навчання онтологій^[en] Видобування термінології Видобування інформації Визначення регістру^[en]
Автоматизоване реферування	Багатодокументне реферування^[en] Видобування речень^[en] Спрощення тексту
Машинний переклад	Автоматизований переклад На основі прикладів На основі правил^[en] На основі словника^[en] На основі трансформації^[en] Нейронний Гібридний^[en] Інтерлінгвіальний^[en] Статистичний
Автоматична ідентифікація і збір даних	Розпізнавання мовлення Синтез мовлення Оптичне розпізнавання символів Генерація природної мови
Тематичне моделювання	Розміщення патінко^[en] Приховане розміщення Діріхле^[en] Латентно-семантичний аналіз
Автоматизоване рецензування^[en]	Автоматизоване оцінювання творів (в освіті)^[en] Конкордансер Система перевірки граматики^[en] Система перевірки орфографії Предиктивне введення тексту Вгадування синтаксису^[en]
Інтерфейс користувача природною мовою^[en]	Автоматизований онлайн-помічник Чат-бот Інтерактивна література Питально-відповідна система Голосовий інтерфейс користувача
Програмне забезпечення	Natural Language Toolkit SpaCy

Видобування термінології

Видобування двомовної термінології

Див. також

Примітки

Навігаційне меню

Пошук