Інтелектуальний аналіз тексту: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Рядок 20: Рядок 20:
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе:
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе:
*[[Інформаційний пошук]], або ідентифікація {{Нп|Корпус текстів|корпусу||Text corpus}} є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса ({{lang-en|Corpus manager}}).
*[[Інформаційний пошук]], або ідентифікація {{Нп|Корпус текстів|корпусу||Text corpus}} є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса ({{lang-en|Corpus manager}}).
*Хоча деякі системи аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну обробку природної мови, таку як частина тегування мови, синтаксичний синтаксичний аналіз та інші типи лінгвістичного аналізу.
*Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну [[Обробка природної мови|обробку природної мови]], таку як {{Нп|Позначення частин мовлення|позначення частин мовлення||Part-of-speech tagging}} ({{lang-en|Part-of-speech tagging}}), [[Синтаксичний аналіз|синтаксичний аналіз]] та інші типи лінгвістичного аналізу.
*Ідентифікація іменованого об'єкта - це використання бюлетенів або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень тощо.
*{{Нп|Розпізнавання названих об'єктів|Розпізнавання названих об'єктів||Named-entity recognition}} - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
*Неоднозначність - використання контекстних доказів - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку або іншу організацію.
*Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію.
*Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів або інших збігів шаблонів.
*Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
*Кластеризація документів: ідентифікація наборів аналогічних текстових документів. [6]
*Кластеризація документів: ідентифікація наборів аналогічних текстових документів.<ref>{{Cite journal|last=Chang|first=Wui Lee|last2=Tay|first2=Kai Meng|last3=Lim|first3=Chee Peng|date=2017-02-06|title=A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization|journal=Neural Processing Letters|language=en|volume=46|issue=2|pages=379–409|doi=10.1007/s11063-017-9597-3|issn=1370-4621}}</ref>
*Coreference: ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
*[[Кореферентність]] ({{lang-en|Coreference}}): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
*Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
*Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
*Аналіз настроїв передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. *Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, концепції або рівня теми, а також для розрізнення власника думки та об'єкта думки [7].
*[[Аналіз тональності тексту]] передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.<ref>{{cite web|url=http://breakthroughanalysis.com/2010/06/14/2514/ |title=Full Circle Sentiment Analysis |publisher=Breakthrough Analysis |accessdate=2015-02-23|date=2010-06-14 }}</ref>
*Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні або граматичні відносини між словами, щоб з'ясувати значення або стилістичні закономірності, звичайно, випадкового особистого тексту з метою психологічне профілювання тощо.
*Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні? або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання ({{lang-en| psychological profiling}}), тощо.<ref>{{cite book|doi=10.1037/11383-011 |title=Handbook of multimethod measurement in psychology |year=2006 |last1=Mehl |first1=Matthias R. |isbn=978-1-59147-318-3 |page=141|chapter=Quantitative Text Analysis }}</ref>





== Примітки ==
== Примітки ==

Версія за 19:26, 24 березня 2019

Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.

Завдання інтелектуального аналізу тексту

Ключовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін в колекціях текстів, а також розробка засобів представлення інформації для користувача. [1]

Категоризація документів полягає у співставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї.

У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести навчання з учителем, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам.

Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається навчанням без вчителя. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак).

Текстова аналітика

Термін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження або розслідування.[2] Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив 2000 опис "інтелектуального аналізу тексту" [3] для опису "текстової аналітики".[4] В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як "інтелектуальний аналіз тексту", починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування[5], а саме в дослідженнях у галузі природничих наук та державної розвідки.

Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом польових, числових даних. Істинно, що 80% інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту.[6] Ці методи й процеси виявляють і представляють знання - факти, ділові правила і відносини - які в іншому випадку заблоковані в текстовій формі, непроникні для автоматизованої обробки.

Процес текстової аналітики

Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе:

  • Інформаційний пошук, або ідентифікація корпусу є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса (англ. Corpus manager).
  • Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну обробку природної мови, таку як позначення частин мовлення[en] (англ. Part-of-speech tagging), синтаксичний аналіз та інші типи лінгвістичного аналізу.
  • Розпізнавання названих об'єктів[en] - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
  • Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію.
  • Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
  • Кластеризація документів: ідентифікація наборів аналогічних текстових документів.[7]
  • Кореферентність (англ. Coreference): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
  • Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
  • Аналіз тональності тексту передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.[8]
  • Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні? або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання (англ. psychological profiling), тощо.[9]

Примітки

  1. Berry, 2003.
  2. [1] [Архівовано November 29, 2009, у Wayback Machine.]
  3. KDD-2000 Workshop on Text Mining - Call for Papers. Cs.cmu.edu. Процитовано 23 лютого 2015.
  4. [2] [Архівовано March 3, 2012, у Wayback Machine.]
  5. Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.
  6. Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008. Процитовано 23 лютого 2015.
  7. Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
  8. Full Circle Sentiment Analysis. Breakthrough Analysis. 14 червня 2010. Процитовано 23 лютого 2015.
  9. Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.

Джерела

  • Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 с. — ISBN 0387955631.
  • Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 с. — ISBN 9781461432234.
  • Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference. — Springer, 2007. — 358 с. — ISBN 1599043734.