Інтелектуальний аналіз тексту: відмінності між версіями
[неперевірена версія] | [неперевірена версія] |
Немає опису редагування |
|||
Рядок 20: | Рядок 20: | ||
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе: |
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе: |
||
*[[Інформаційний пошук]], або ідентифікація {{Нп|Корпус текстів|корпусу||Text corpus}} є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса ({{lang-en|Corpus manager}}). |
*[[Інформаційний пошук]], або ідентифікація {{Нп|Корпус текстів|корпусу||Text corpus}} є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса ({{lang-en|Corpus manager}}). |
||
*Хоча деякі системи аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну обробку природної мови, таку як |
*Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну [[Обробка природної мови|обробку природної мови]], таку як {{Нп|Позначення частин мовлення|позначення частин мовлення||Part-of-speech tagging}} ({{lang-en|Part-of-speech tagging}}), [[Синтаксичний аналіз|синтаксичний аналіз]] та інші типи лінгвістичного аналізу. |
||
* |
*{{Нп|Розпізнавання названих об'єктів|Розпізнавання названих об'єктів||Named-entity recognition}} - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо. |
||
* |
*Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію. |
||
*Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів або інших збігів шаблонів. |
*Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів. |
||
*Кластеризація документів: ідентифікація наборів аналогічних текстових документів. |
*Кластеризація документів: ідентифікація наборів аналогічних текстових документів.<ref>{{Cite journal|last=Chang|first=Wui Lee|last2=Tay|first2=Kai Meng|last3=Lim|first3=Chee Peng|date=2017-02-06|title=A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization|journal=Neural Processing Letters|language=en|volume=46|issue=2|pages=379–409|doi=10.1007/s11063-017-9597-3|issn=1370-4621}}</ref> |
||
*Coreference: ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта. |
*[[Кореферентність]] ({{lang-en|Coreference}}): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта. |
||
*Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті. |
*Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті. |
||
*Аналіз |
*[[Аналіз тональності тексту]] передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.<ref>{{cite web|url=http://breakthroughanalysis.com/2010/06/14/2514/ |title=Full Circle Sentiment Analysis |publisher=Breakthrough Analysis |accessdate=2015-02-23|date=2010-06-14 }}</ref> |
||
*Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні або граматичні відносини між словами, щоб з'ясувати значення або стилістичні закономірності, |
*Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні? або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання ({{lang-en| psychological profiling}}), тощо.<ref>{{cite book|doi=10.1037/11383-011 |title=Handbook of multimethod measurement in psychology |year=2006 |last1=Mehl |first1=Matthias R. |isbn=978-1-59147-318-3 |page=141|chapter=Quantitative Text Analysis }}</ref> |
||
== Примітки == |
== Примітки == |
Версія за 19:26, 24 березня 2019
Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.
Завдання інтелектуального аналізу тексту
Ключовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін в колекціях текстів, а також розробка засобів представлення інформації для користувача. [1]
Категоризація документів полягає у співставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї.
У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести навчання з учителем, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам.
Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається навчанням без вчителя. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак).
Текстова аналітика
Термін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження або розслідування.[2] Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив 2000 опис "інтелектуального аналізу тексту" [3] для опису "текстової аналітики".[4] В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як "інтелектуальний аналіз тексту", починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування[5], а саме в дослідженнях у галузі природничих наук та державної розвідки.
Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом польових, числових даних. Істинно, що 80% інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту.[6] Ці методи й процеси виявляють і представляють знання - факти, ділові правила і відносини - які в іншому випадку заблоковані в текстовій формі, непроникні для автоматизованої обробки.
Процес текстової аналітики
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай включають в себе:
- Інформаційний пошук, або ідентифікація корпусу є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса (англ. Corpus manager).
- Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш обширну обробку природної мови, таку як позначення частин мовлення[en] (англ. Part-of-speech tagging), синтаксичний аналіз та інші типи лінгвістичного аналізу.
- Розпізнавання названих об'єктів[en] - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
- Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію.
- Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
- Кластеризація документів: ідентифікація наборів аналогічних текстових документів.[7]
- Кореферентність (англ. Coreference): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
- Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
- Аналіз тональності тексту передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.[8]
- Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні? або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання (англ. psychological profiling), тощо.[9]
Примітки
- ↑ Berry, 2003.
- ↑ [1] [Архівовано November 29, 2009, у Wayback Machine.]
- ↑ KDD-2000 Workshop on Text Mining - Call for Papers. Cs.cmu.edu. Процитовано 23 лютого 2015.
- ↑ [2] [Архівовано March 3, 2012, у Wayback Machine.]
- ↑ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.
- ↑ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008. Процитовано 23 лютого 2015.
- ↑ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
- ↑ Full Circle Sentiment Analysis. Breakthrough Analysis. 14 червня 2010. Процитовано 23 лютого 2015.
- ↑ Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
Джерела
- Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 с. — ISBN 0387955631.
- Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 с. — ISBN 9781461432234.
- Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference. — Springer, 2007. — 358 с. — ISBN 1599043734.