Перейти до вмісту

Розпізнавання іменованих сутностей

Матеріал з Вікіпедії — вільної енциклопедії.

Розпізнавання іменованих сутностей (РІС) (також відоме як ідентифікація об'єктної сутності, фрагментація об'єктної сутності та видобуток об'єктної сутності) — це підзадача видобування інформації, яка намагається знайти і класифікувати іменовані сутності в неструктурованому тексті в заздалегідь визначені категорії, такі як імена людей, організації, місця, медичні коди[en], час, кількості, грошові значення, відсотки тощо.

Більшість досліджень у системах РІС було структуровано як отримання не коментованого блоку тексту, такого як:

Джим купив 300 акцій корпорації Acme у 2006.

І створення коментованого блоку тексту, який виділяє імена об'єктів:

[Джим]Особа купив 300 акцій [корпорації Acme]Організація у [2006]Час.

У цьому прикладі було виявлено та класифіковано ім'я особи, що складається з одного токену, назва компанії з двох токенів та часового виразу.

Сучасні системи РІС для англійської мови показують продуктивність близьку до людської. Наприклад, найкраща система, що коментувала MUC-7[en], набрала 93,39 % оцінки F1, а анотатори — 97,60 % і 96,95 %.[1][2]

Платформи розпізнавання іменованих сутностей

[ред. | ред. код]

До визначних платформ РІС належать:

  • GATE[en] підтримує РІС для багатьох мов і доменів, які використовуються через графічний інтерфейс і Java API.
  • OpenNLP містить в собі засноване на правилах і статистичне розпізнавання іменованих об'єктів.
  • SpaCy має швидке статистичне РІС, а також візуалізатор іменованих сутностей з відкритим вихідним кодом.

Визначення проблеми

[ред. | ред. код]

У виразі іменована сутність, слово «іменована» обмежує завдання для тих сутностей, для яких можна поставити у відповідність один або кілька рядків, таких як слова або фрази, послідовно для деяких референтів. Це тісно пов'язане з жорсткими позначеннями[en], визначеними Кріпке[3][4], хоча на практиці РІС має справу з багатьма іменами та референтами, які не є філософськи «жорсткими». Наприклад, автомобільна компанія, створена Генрі Фордом в 1903 році, може називатися Ford або Ford Motor Company, хоча «Ford» також може посилатися на багато інших суб'єктів (див. Ford). Жорсткі позначення включають власні імена, а також назви певних біологічних видів і речовин,[5] за виключенням займенників (наприклад, «він», див. вирішення кореферентності), описів референтів за їх властивостями (див. також De dicto і de re[en]), а також назв видів речей, на відміну від об'єктів (наприклад, «Банк»).

Повне розпізнавання іменованої сутності часто розбивається, концептуально і, можливо, також в реалізації,[6] як дві різні задачі: виявлення імен та класифікація їх по типу сутностей (наприклад, особи, організації, місця та інші[7]). Перша фаза, як правило, зводиться до проблеми сегментації: імена визначаються як суміжні проміжки токенів, без вкладеності, таким чином «Банк Америки» є єдиним ім'ям, попри те, що всередині цього імені підрядок «Америки» є іншим ім'ям. Задача сегментування є формально подібною до поверхнево-синтаксичного аналізу. Другий етап вимагає вибору онтології, за допомогою якої можна організувати категорії речей.

Часові вирази[en] та деякі числові вирази (наприклад, гроші, відсотки тощо) також можуть розглядатися як іменовані сутності в контексті завдання РІС. Хоча деякі приклади таких типів є гарними прикладами жорстких позначень (наприклад, 2001 рік), є також багато недійсних (наприклад, я беру відпустки в «червні»). У першому випадку 2001 рік відноситься до 2001-го року григоріанського календаря. У другому випадку місяць червень може стосуватися місяця невизначеного року (минулий червень, наступний червень, кожен червень тощо). Можна стверджувати, що визначення іменованої сутності в таких випадках втрачається з практичних причин. Таким чином, термін іменована сутність не є строгим і часто має пояснюватися в контексті, в якому він використовується.[8]

У літературі були запропоновані певні ієрархії типів іменованих сутностей. Категорії BBN[en], запропоновані в 2002 році, використовуються для питально-відповідної системи і складаються з 29 типів і 64 підтипів.[9] Розширена ієрархія Секіна, запропонована в 2002 році, складається з 200 підтипів.[10] Зовсім недавно, в 2011 році Ріттер використовував ієрархію на основі загальних типів об'єктів Freebase в новаторських експериментах РІС через соціальні медіа.[11]

Формальна оцінка

[ред. | ред. код]

Для оцінки якості результату системи РІС було визначено декілька заходів. Поки що точність на рівні токена є єдиною з можливістю, вона страждає від двох проблем: переважна більшість токенів у реальному тексті не є частиною імен сутностей, як вони зазвичай визначаються, тому точність основної лінії (завжди передбачати «не об'єктна сутність») екстравагантно високий, зазвичай > 90 %. Також неправильний прогноз повного проміжку назви об'єкта не карається належним чином (пошук лише імені особи, коли її прізвище стоїть одразу після імені, оцінюється як ½ точності).

На академічних конференціях, таких як CoNLL, варіант оцінки F1 був визначений наступним чином:

  • Влучність — це кількість передбачуваних назв об'єкта, які вирівнюються точно з проміжками в золотого стандарту оцінки даних. Тобто, коли [Особа Ганс] [Особа Блік] передбачено, але було потрібно [Особа Ганс Блік], влучність передбаченого імені дорівнює нулю. Влучність потім усереднюється для всіх передбачених імен об'єктів.
  • Повнота — аналогічним чином кількість імен у золотому стандарті, які з'являються в точно такому ж місці в прогнозах.
  • F1 — це середнє гармонійне значення цих двох.

З визначення вище випливає, що будь-яке передбачення, яке пропускає один токен, містить в собі помилковий токен, або має неправильний клас, є жорсткою помилкою і не сприяє ані влучності, ані повноті.

Запропоновано моделі оцінювання, що базуються на узгодженні токена з токеном.[12] Такі моделі здатні обробляти також збіги, які частково перекриваються, але повністю оцінювати тільки точні збіги. Вони дозволяють більш тонку оцінку і порівняння екстракційних систем, враховуючи також ступінь невідповідності в неточних прогнозах.

Підходи

[ред. | ред. код]

Системи РІС були створені з використанням лінгвістичних методів граматики, а також статистичних моделей, таких як машинне навчання. Системи граматики, створені вручну, зазвичай отримують більшу влучність, але ціною меншої повноти і місяцями роботи досвідчених лінгвістів[13]. Статистичні системи РІС зазвичай вимагають великого обсягу вручну анотованих навчальних даних. Було запропоновано напівкеровані підходи, щоб уникнути частини зусиль анотації.[14]

Багато різних типів класифікаторів були використані для виконання РІС з машинним навчанням, причому умовні випадкові поля є типовим вибором.[15]

Проблеми з доменами

[ред. | ред. код]

Дослідження показують, що навіть найсучасніші системи РІС є крихкими, що означає, що системи РІС, розроблені для одного домену, зазвичай не працюють добре в інших областях.[16] Значні зусилля приділяються налаштуванню систем РІС для успішної роботи в новому домені; це справедливо як для систем, заснованих на правилах, так і для статистичних систем.

Рання робота в системах РІС у 1990-х роках була спрямована, насамперед, на видобуток інформації з журналістських статей. Потім увагу звернулося на обробку військових відправлень і звітів. Пізніші етапи оцінки автоматичного видобутку вмісту[en] також включали кілька типів неформальних текстових стилів, таких як блоги та текстові транскрипції з телефонних розмов. Починаючи з 1998 року, існує велика зацікавленість у ідентифікації сутностей у молекулярній біології, біоінформатиці та обробці природних мов. Найбільш поширеним об'єктом інтересу в цьому домені були назви генів і генних продуктів. Також існує значний інтерес до розпізнавання хімічних об'єктів та наркотиків у контексті конкурсу CHEMDNER, в якому беруть участь 27 команд.[17]

Сучасні виклики та дослідження

[ред. | ред. код]

Незважаючи на високий показник F1, що міститься в наборі даних MUC-7, проблема розпізнавання іменованих сутностей ще далеко не вирішена. Основні зусилля спрямовані на скорочення праці з анотаціями шляхом використання напівкерованого навчання,[18][19] надійної роботи в різних областях[20][21] і масштабування до дрібнозернистих типів об'єктів.[22][23] Протягом останніх років багато проектів перейшли до краудсорсингу, що є перспективним рішенням, яке дозволить отримати сукупність якісних людських суджень для таких підходів розв'язання РІС, як кероване та напівкероване навчання.[24] Іншою складною задачею є розробка моделей для роботи з мовними складними контекстами, такими як Twitter і пошукові запити.[25]

Є дослідники, які зробили деякі порівняння про показники РІС з різних статистичних моделей, таких як ПММ (Прихована марковська модель), МЕ (Максимум ентропії[en]), і УВП (Умовне випадкове поле) і набори функцій.[26] Деякі дослідники нещодавно запропонували напівкеровану модель навчання на основі графів для задач, пов'язаних з мовними специфічними РІС.[27]

Нещодавно з'явилася задача ідентифікації «важливих виразів» у тексті та перехресного їх з'єднання з Вікіпедією.[28][29][30] Нижче наведено приклад виведення системи Вікіфікації:

<ENTITY url="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>

Ще одним напрямком, що прогресує, але залишається складним, є застосування РІС до Твіттера та інших мікроблогів.[31]

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Elaine Marsh, Dennis Perzanowski, «MUC-7 Evaluation of IE Technology: Overview of Results», 29 April 1998 PDF [Архівовано 19 серпня 2018 у Wayback Machine.]
  2. MUC-07 Proceedings (Named Entity Tasks). Архів оригіналу за 19 серпня 2018. Процитовано 12 травня 2019.
  3. Kripke, Saul (1971). M.K. Munitz (ред.). Identity and Necessity. New York: New York University Press. с. 135—64.
  4. LaPorte, Joseph, Rigid Designators, архів оригіналу за 12 травня 2019, процитовано 12 травня 2019
  5. Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification (PDF). Lingvisticae Investigationes. Архів оригіналу (PDF) за 12 травня 2019. Процитовано 12 травня 2019.
  6. Carreras, Xavier; Màrquez, Lluís; Padró, Lluís (2003). A simple named entity extractor using AdaBoost. CoNLL.
  7. Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. CoNLL. Архів оригіналу за 16 березня 2019. Процитовано 12 травня 2019.
  8. Named Entity Definition [Архівовано 31 липня 2019 у Wayback Machine.]. Webknox.com. Retrieved on 2013-07-21.
  9. Brunstein, Ada. Annotation Guidelines for Answer Types. LDC Catalog. Linguistic Data Consortium. Архів оригіналу за 16 квітня 2016. Процитовано 21 липня 2013.
  10. Sekine's Extended Named Entity Hierarchy [Архівовано 9 лютого 2019 у Wayback Machine.]. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  11. Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). Named Entity Recognition in Tweets: An Experimental Study (PDF). Proc. Empirical Methods in Natural Language Processing. Архів оригіналу (PDF) за 19 серпня 2018. Процитовано 12 травня 2019.
  12. Esuli, Andrea; Sebastiani, Fabrizio (2010). Evaluating Information Extraction (PDF). Cross-Language Evaluation Forum (CLEF). с. 100—111. Архів оригіналу (PDF) за 28 серпня 2019. Процитовано 12 травня 2019.
  13. Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (14 листопада 2013). Natural Language Processing: Semantic Aspects (англ.). CRC Press. с. 298. ISBN 9781466584969.
  14. Nothman, Joel та ін. (2013). Learning multilingual named entity recognition from Wikipedia. Artificial Intelligence. 194: 151—175. doi:10.1016/j.artint.2012.03.006.
  15. Jenny Rose Finkel; Trond Grenager; Christopher Manning (2005). Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling (PDF). 43rd Annual Meeting of the Association for Computational Linguistics. с. 363—370. Архів оригіналу (PDF) за 29 листопада 2018. Процитовано 13 травня 2019.
  16. Poibeau, Thierry; Kosseim, Leila (2001). Proper Name Extraction from Non-Journalistic Texts. Language and Computers. 37 (1): 144—157.
  17. Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A. Overview of the chemical compound and drug name recognition (CHEMDNER) task. Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2. с. 6—37.
  18. Lin, Dekang; Wu, Xiaoyun (2009). Phrase clustering for discriminative learning (PDF). Annual Meeting of the ACL and IJCNLP. с. 1030—1038. Архів оригіналу (PDF) за 19 серпня 2018. Процитовано 13 травня 2019.
  19. Turian, J., Ratinov, L., & Bengio, Y. (2010, July). Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 384—394). Association for Computational Linguistics. PDF [Архівовано 26 квітня 2012 у Wayback Machine.]
  20. Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. [Архівовано 26 квітня 2012 у Wayback Machine.] In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147—155). Association for Computational Linguistics.
  21. Frustratingly Easy Domain Adaptation (PDF). Архів оригіналу (PDF) за 13 червня 2010. Процитовано 13 травня 2019.
  22. Sekine's Extended Named Entity Hierarchy [Архівовано 9 лютого 2019 у Wayback Machine.]. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  23. Fine-Grained Named Entity Recognition Using Conditional Random Fields for Question Answering.[недоступне посилання]
  24. Web 2.0-based crowdsourcing for high-quality gold standard development in clinical Natural Language Processing. Архів оригіналу за 13 травня 2019. Процитовано 13 травня 2019.
  25. Eiselt, Andreas; Figueroa, Alejandro (2013). A Two-Step Named Entity Recognizer for Open-Domain Search Queries. IJCNLP. с. 829—833. Архів оригіналу за 19 серпня 2018. Процитовано 13 травня 2019.
  26. Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Proceeding of International Conference of Language Processing and Intelligent Information Systems. M.A. Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, pp. 57–68 [1] [Архівовано 19 листопада 2018 у Wayback Machine.]
  27. Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model. In Proceedings of SIGHAN workshop in ACL-IJCNLP. 2015. [2] [Архівовано 19 серпня 2018 у Wayback Machine.]
  28. Linking Documents to Encyclopedic Knowledge.
  29. Learning to link with Wikipedia (PDF). Архів оригіналу (PDF) за 25 січня 2019. Процитовано 13 травня 2019.
  30. Local and Global Algorithms for Disambiguation to Wikipedia (PDF). Архів оригіналу (PDF) за 26 квітня 2012. Процитовано 13 травня 2019.
  31. Derczynski, Leon and Diana Maynard, Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak, and Kalian Botcheva (2014). «Analysis of named entity recognition and linking for tweets». Information Processing and Management 51(2): pages 32-49.

Посилання

[ред. | ред. код]