Розпізнавання іменованих сутностей

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Розпізнавання іменованих сутностей (РІС) (також відоме як ідентифікація об'єктної сутності, фрагментація об'єктної сутності та видобуток об'єктної сутності) — це підзадача видобування інформації, яка намагається знайти і класифікувати іменовані сутності[en] в неструктурованому тексті[en] в заздалегідь визначені категорії, такі як імена людей, організації, місця, медичні коди[en], час, кількості, грошові значення, відсотки тощо.

Більшість досліджень у системах РІС було структуровано як отримання не коментованого блоку тексту, такого як:

Джим купив 300 акцій корпорації Acme у 2006.

І створення коментованого блоку тексту, який виділяє імена об'єктів:

[Джим]Особа купив 300 акцій [корпорації Acme]Організація у [2006]Час.

У цьому прикладі було виявлено та класифіковано ім'я особи, що складається з одного токену, назва компанії з двох токенів та часового виразу.

Сучасні системи РІС для англійської мови показують продуктивність близьку до людської. Наприклад, найкраща система, що коментувала MUC-7[en], набрала 93,39 % оцінки F1[en], а анотатори — 97,60 % і 96,95 %.[1][2]

Платформи розпізнавання іменованих сутностей[ред. | ред. код]

До визначних платформ РІС належать:

  • GATE[en] підтримує РІС для багатьох мов і доменів, які використовуються через графічний інтерфейс і Java API.
  • OpenNLP містить в собі засноване на правилах і статистичне розпізнавання іменованих об'єктів.
  • SpaCy[en] має швидке статистичне РІС, а також візуалізатор іменованих сутностей з відкритим вихідним кодом.

Визначення проблеми[ред. | ред. код]

У виразі іменована сутність, слово «іменована» обмежує завдання для тих сутностей, для яких можна поставити у відповідність один або кілька рядків, таких як слова або фрази, послідовно для деяких референтів. Це тісно пов'язане з жорсткими позначеннями[en], визначеними Кріпке[3][4], хоча на практиці РІС має справу з багатьма іменами та референтами, які не є філософськи «жорсткими». Наприклад, автомобільна компанія, створена Генрі Фордом в 1903 році, може називатися Ford або Ford Motor Company, хоча «Ford» також може посилатися на багато інших суб'єктів (див. Ford). Жорсткі позначення включають власні імена, а також назви певних біологічних видів і речовин,[5] за виключенням займенників (наприклад, «він», див. вирішення кореферентності), описів референтів за їх властивостями (див. також De dicto і de re[en]), а також назв видів речей, на відміну від об'єктів (наприклад, «Банк»).

Повне розпізнавання іменованої сутності часто розбивається, концептуально і, можливо, також в реалізації,[6] як дві різні задачі: виявлення імен та класифікація їх по типу сутностей (наприклад, особи, організації, місця та інші[7]). Перша фаза, як правило, зводиться до проблеми сегментації: імена визначаються як суміжні проміжки токенів, без вкладеності, таким чином «Банк Америки» є єдиним ім'ям, попри те, що всередині цього імені підрядок «Америки» є іншим ім'ям. Другий етап вимагає вибору онтології, за допомогою якої можна організувати категорії речей.

Часові вирази[en] та деякі числові вирази (наприклад, гроші, відсотки тощо) також можуть розглядатися як іменовані сутності в контексті завдання РІС. Хоча деякі приклади таких типів є гарними прикладами жорстких позначень (наприклад, 2001 рік), є також багато недійсних (наприклад, я беру відпустки в «червні»). У першому випадку 2001 рік відноситься до 2001-го року григоріанського календаря. У другому випадку місяць червень може стосуватися місяця невизначеного року (минулий червень, наступний червень, кожен червень тощо). Можна стверджувати, що визначення іменованої сутності в таких випадках втрачається з практичних причин. Таким чином, термін іменована сутність не є строгим і часто має пояснюватися в контексті, в якому він використовується.[8]

У літературі були запропоновані певні ієрархії типів іменованих сутностей. Категорії BBN[en], запропоновані в 2002 році, використовуються для питально-відповідної системи і складаються з 29 типів і 64 підтипів.[9] Розширена ієрархія Секіна, запропонована в 2002 році, складається з 200 підтипів.[10] Зовсім недавно, в 2011 році Ріттер використовував ієрархію на основі загальних типів об'єктів Freebase в новаторських експериментах РІС через соціальні медіа.[11]

Формальна оцінка[ред. | ред. код]

Для оцінки якості результату системи РІС було визначено декілька заходів. Поки що точність на рівні токена є єдиною з можливістю, вона страждає від двох проблем: переважна більшість токенів у реальному тексті не є частиною імен сутностей, як вони зазвичай визначаються, тому точність основної лінії (завжди передбачати «не об'єктна сутність») екстравагантно високий, зазвичай > 90 %. Також неправильний прогноз повного проміжку назви об'єкта не карається належним чином (пошук лише імені особи, коли її прізвище стоїть одразу після імені, оцінюється як ½ точності).

На академічних конференціях, таких як CoNLL, варіант оцінки F1 був визначений наступним чином:

  • Точність — це кількість передбачуваних назв об'єкта, які вирівнюються точно з проміжками в золотого стандарту[en] оцінки даних. Тобто, коли [Особа Ганс] [Особа Блік] передбачено, але було потрібно [Особа Ганс Блік], точність передбаченого імені дорівнює нулю. Точність потім усереднюється для всіх передбачених імен об'єктів.
  • Запам'ятовування — аналогічним чином кількість імен у золотому стандарті, які з'являються в точно такому ж місці в прогнозах.
  • F1 — це середнє гармонійне значення цих двох.

З визначення вище випливає, що будь-яке передбачення, яке пропускає один токен, містить в собі помилковий токен, або має неправильний клас, є жорсткою помилкою і не сприяє ні точності, ні запам'ятовуванню.

Запропоновано моделі оцінювання, що базуються на узгодженні токена з токеном.[12] Такі моделі здатні обробляти також збіги, які частково перекриваються, але повністю оцінювати тільки точні збіги. Вони дозволяють більш тонку оцінку і порівняння екстракційних систем, враховуючи також ступінь невідповідності в неточних прогнозах.

Підходи[ред. | ред. код]

Системи РІС були створені з використанням лінгвістичних методів граматики, а також статистичних моделей, таких як машинне навчання. Системи граматики, створені вручну, зазвичай отримують більшу точність, але ціною меншого запам'ятовування і місяцями роботи досвідчених лінгвістів[13]. Статистичні системи РІС зазвичай вимагають великого обсягу вручну анотованих навчальних даних. Було запропоновано напівавтоматичні підходи, щоб уникнути частини зусиль анотації.[14]

Багато різних типів класифікаторів були використані для виконання РІС з машинним навчанням, причому випадкові поля з умовою[en] є типовим вибором.[15]

Проблеми з доменами[ред. | ред. код]

Дослідження показують, що навіть найсучасніші системи РІС є крихкими, що означає, що системи РІС, розроблені для одного домену, зазвичай не працюють добре в інших областях.[16] Значні зусилля приділяються налаштуванню систем РІС для успішної роботи в новому домені; це справедливо як для систем, заснованих на правилах, так і для статистичних систем.

Рання робота в системах РІС у 1990-х роках була спрямована, насамперед, на видобуток інформації з журналістських статей. Потім увагу звернулося на обробку військових відправлень і звітів. Пізніші етапи оцінки автоматичного видобутку вмісту[en] також включали кілька типів неформальних текстових стилів, таких як блоги та текстові транскрипції з телефонних розмов. Починаючи з 1998 року, існує велика зацікавленість у ідентифікації сутностей у молекулярній біології, біоінформатиці та обробці природних мов. Найбільш поширеним об'єктом інтересу в цьому домені були назви генів і генних продуктів. Також існує значний інтерес до розпізнавання хімічних об'єктів та наркотиків у контексті конкурсу CHEMDNER, в якому беруть участь 27 команд.[17]

Сучасні виклики та дослідження[ред. | ред. код]

Незважаючи на високий показник F1, що міститься в наборі даних MUC-7, проблема розпізнавання іменованих сутностей ще далеко не вирішена. Основні зусилля спрямовані на скорочення праці з анотаціями шляхом використання напівавтоматичного навчання,[18][19] надійної роботи в різних областях[20][21] і масштабування до дрібнозернистих типів об'єктів.[22][23] Протягом останніх років багато проектів перейшли до краудсорсингу, що є перспективним рішенням, яке дозволить отримати сукупність якісних людських суджень для таких підходів розв'язання РІС, як навчання з учителем та напівавтоматичне навчання.[24] Іншою складною задачею є розробка моделей для роботи з мовними складними контекстами, такими як Twitter і пошукові запити.[25]

Є дослідники, які зробили деякі порівняння про показники РІС з різних статистичних моделей, таких як ПММ (Прихована марковська модель), МЕ (Максимум ентропії[en]), і УВП (Умовне випадкове поле[en]) і набори функцій.[26] Деякі дослідники нещодавно запропонували напівавтоматичну модель навчання на основі графів для задач, пов'язаних з мовними специфічними РІС.[27]

Нещодавно з'явилася задача ідентифікації «важливих виразів» у тексті та перехресного їх з'єднання[en] з Вікіпедією.[28][29][30] Нижче наведено приклад виведення системи Вікіфікації:

<ENTITY url="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>

Ще одним напрямком, що прогресує, але залишається складним, є застосування РІС до Твіттера та інших мікроблогів.[31]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Elaine Marsh, Dennis Perzanowski, «MUC-7 Evaluation of IE Technology: Overview of Results», 29 April 1998 PDF
  2. MUC-07 Proceedings (Named Entity Tasks)
  3. Kripke, Saul (1971). Identity and Necessity. У M.K. Munitz. Identity and Individuation. New York: New York University Press. с. 135–64. 
  4. LaPorte, Joseph. Rigid Designators. The Stanford Encyclopedia of Philosophy. 
  5. Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification Lingvisticae Investigationes. 
  6. Carreras, Xavier; Màrquez, Lluís; Padró, Lluís (2003). A simple named entity extractor using AdaBoost CoNLL. 
  7. Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition CoNLL. 
  8. Named Entity Definition. Webknox.com. Retrieved on 2013-07-21.
  9. Brunstein, Ada. Annotation Guidelines for Answer Types. LDC Catalog. Linguistic Data Consortium. Процитовано 21 July 2013. 
  10. Sekine's Extended Named Entity Hierarchy. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  11. Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). Named Entity Recognition in Tweets: An Experimental Study Proc. Empirical Methods in Natural Language Processing. 
  12. Esuli, Andrea; Sebastiani, Fabrizio (2010). Evaluating Information Extraction Cross-Language Evaluation Forum (CLEF). с. 100–111. 
  13. Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (2013-11-14). Natural Language Processing: Semantic Aspects (en). CRC Press. с. 298. ISBN 9781466584969. 
  14. Nothman, Joel (2013). Learning multilingual named entity recognition from Wikipedia. Artificial Intelligence 194: 151–175. doi:10.1016/j.artint.2012.03.006.  Проігноровано невідомий параметр |title-link= (довідка)
  15. Jenny Rose Finkel; Trond Grenager; Christopher Manning (2005). Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling 43rd Annual Meeting of the Association for Computational Linguistics. с. 363–370. 
  16. Poibeau, Thierry; Kosseim, Leila (2001). Proper Name Extraction from Non-Journalistic Texts. Language and Computers 37 (1): 144–157. 
  17. Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A. Overview of the chemical compound and drug name recognition (CHEMDNER) task. Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2. с. 6–37. 
  18. Lin, Dekang; Wu, Xiaoyun (2009). Phrase clustering for discriminative learning Annual Meeting of the ACL and IJCNLP. с. 1030–1038. 
  19. Turian, J., Ratinov, L., & Bengio, Y. (2010, July). Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 384—394). Association for Computational Linguistics. PDF
  20. Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147—155). Association for Computational Linguistics.
  21. Frustratingly Easy Domain Adaptation. Архів оригіналу за 13 червень 2010. Процитовано 13 травень 2019. 
  22. Sekine's Extended Named Entity Hierarchy. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
  23. Fine-Grained Named Entity Recognition Using Conditional Random Fields for Question Answering.
  24. Web 2.0-based crowdsourcing for high-quality gold standard development in clinical Natural Language Processing
  25. Eiselt, Andreas; Figueroa, Alejandro (2013). A Two-Step Named Entity Recognizer for Open-Domain Search Queries IJCNLP. с. 829–833. 
  26. Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Proceeding of International Conference of Language Processing and Intelligent Information Systems. M.A. Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, pp. 57–68 [1]
  27. Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model. In Proceedings of SIGHAN workshop in ACL-IJCNLP. 2015. [2]
  28. Linking Documents to Encyclopedic Knowledge.
  29. Learning to link with Wikipedia.
  30. Local and Global Algorithms for Disambiguation to Wikipedia.
  31. Derczynski, Leon and Diana Maynard, Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak, and Kalian Botcheva (2014). «Analysis of named entity recognition and linking for tweets». Information Processing and Management 51(2): pages 32-49.