Інтелектуальний аналіз тексту: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Рядок 31: Рядок 31:


==Застосування==
==Застосування==
Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для {{Нп|Електроне відкриття|електронного відкриття||Electronic discovery}}. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей [[Національна безпека|національної безпеки]] та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми {{Нп|Неструктуровані дані|неструктурованих даних||Unstructured data}}), для визначення ідей, переданих через текст (наприклад, [[Аналіз тональності тексту|аналіз тональності тексту]] у соціальних мережах <ref>{{Cite journal|last=Pang|first=Bo|last2=Lee|first2=Lillian|author2-link=Lillian Lee (computer scientist)|date=2008|title=Opinion Mining and Sentiment Analysis|journal=Foundations and Trends® in Information Retrieval|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669|citeseerx=10.1.1.147.2755}}</ref><ref>{{Cite journal|last=Paltoglou|first=Georgios|last2=Thelwall|first2=Mike|date=2012-09-01|title=Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media|journal=ACM Transactions on Intelligent Systems and Technology (TIST)|volume=3|issue=4|pages=66|doi=10.1145/2337542.2337551|issn=2157-6904}}</ref><ref>{{Cite web|url=http://alt.qcri.org/semeval2017/task4/|title=Sentiment Analysis in Twitter < SemEval-2017 Task 4|website=alt.qcri.org|language=en-US|access-date=2018-10-02}}</ref>) і підтримувати [[Наукове відкриття|наукові відкриття]] в галузі природничих наук та в галузі[[Біоінформатика|біоінформатики]]. У бізнесі інтелектуальний аналіз тексту використовується для підтримки [[Конкурентна розвідка|конкурентної розвідки]] та автоматичного {{Нп|Розміщення оголошення|розміщення оголошень||Ad serving}} серед багатьох інших заходів..
Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для {{Нп|Електроне відкриття|електронного відкриття||Electronic discovery}}. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей [[Національна безпека|національної безпеки]] та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми {{Нп|Неструктуровані дані|неструктурованих даних||Unstructured data}}), для визначення ідей, переданих через текст (наприклад, [[Аналіз тональності тексту|аналіз тональності тексту]] у соціальних мережах <ref>{{Cite journal|last=Pang|first=Bo|last2=Lee|first2=Lillian|author2-link=Lillian Lee (computer scientist)|date=2008|title=Opinion Mining and Sentiment Analysis|journal=Foundations and Trends® in Information Retrieval|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669|citeseerx=10.1.1.147.2755}}</ref><ref>{{Cite journal|last=Paltoglou|first=Georgios|last2=Thelwall|first2=Mike|date=2012-09-01|title=Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media|journal=ACM Transactions on Intelligent Systems and Technology (TIST)|volume=3|issue=4|pages=66|doi=10.1145/2337542.2337551|issn=2157-6904}}</ref><ref>{{Cite web|url=http://alt.qcri.org/semeval2017/task4/|title=Sentiment Analysis in Twitter < SemEval-2017 Task 4|website=alt.qcri.org|language=en-US|access-date=2018-10-02}}</ref>) і підтримувати [[Наукове відкриття|наукові відкриття]] в галузі природничих наук та в галузі[[Біоінформатика|біоінформатики]]. У бізнесі інтелектуальний аналіз тексту використовується для підтримки [[Конкурентна розвідка|конкурентної розвідки]] та автоматичного {{Нп|Розміщення оголошення|розміщення оголошень||Ad serving}} серед багатьох інших заходів.

===Захисні програми===
Багато програмних пакетів інтелектуального аналізу тексту продаються для {{Нп|Захисні програми|захисних програм||Security appliance}}для цілей національної безпеки, особливо для моніторингу та аналізу джерел звичайного тексту в Інтернеті, таких як [[Інтернет-журналістика|інтернет-новини]], [[Блог|блоги]], тощо.<ref>{{cite book |doi=10.1007/978-3-540-88181-0_7 |title=Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08 |series=Advances in Soft Computing |year=2009 |last1=Zanasi |first1=Alessandro |isbn=978-3-540-88180-3 |volume=53 |page=53|chapter=Virtual Weapons for Real Wars: Text Mining for National Security }}</ref> Інтелектуальний аналіз тексту також присутній у вивченні [[Криптографія|шифрування/дешифрування]] тексту.

===Біомедичні застосування===
У біомедичній літературі було описано серію застосування інтелектуального аналізу тексту <ref>{{cite journal |doi=10.1371/journal.pcbi.0040020 |title=Getting Started in Text Mining |year=2008 |last1=Cohen |first1=K. Bretonnel |last2=Hunter |first2=Lawrence |journal=PLoS Computational Biology |volume=4 |pages=e20 |pmid=18225946 |issue=1 |pmc=2217579}}</ref> , включаючи обчислювальні підходи для допомоги в дослідженнях з приєднання білків,<ref>{{cite journal |doi=10.1371/journal.pcbi.1004630 |title=Text mining for protein docking|journal=PLoS Computational Biology|volume=11|issue=12|pages=e1004630|pmid=26650466 |pmc=4674139|year=2015|author1=Badal|first1=V. D|last2=Kundrotas|first2=P. J|last3=Vakser|first3=I. A}}</ref> [[Білки|взаємодій білків]], <ref>{{Cite journal|last=Papanikolaou|first=Nikolas|last2=Pavlopoulos|first2=Georgios A.|last3=Theodosiou|first3=Theodosios|last4=Iliopoulos|first4=Ioannis|date=2015|title=Protein–protein interaction predictions using text mining methods|journal=Methods|volume=74|pages=47–53|doi=10.1016/j.ymeth.2014.10.026|pmid=25448298|issn=1046-2023}}</ref><ref>{{Cite journal|last=Szklarczyk|first=Damian|last2=Morris|first2=John H|last3=Cook|first3=Helen|last4=Kuhn|first4=Michael|last5=Wyder|first5=Stefan|last6=Simonovic|first6=Milan|last7=Santos|first7=Alberto|last8=Doncheva|first8=Nadezhda T|last9=Roth|first9=Alexander|date=2016-10-18|title=The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible|journal=Nucleic Acids Research|language=en|volume=45|issue=D1|pages=D362–D368|doi=10.1093/nar/gkw937|issn=0305-1048|pmc=5210637|pmid=27924014}}</ref> та асоціацій білкових хвороб <ref>{{Cite journal|last=Liem|first=David A.|last2=Murali|first2=Sanjana|last3=Sigdel|first3=Dibakar|last4=Shi|first4=Yu|last5=Wang|first5=Xuan|last6=Shen|first6=Jiaming|last7=Choi|first7=Howard|last8=Caufield|first8=John H.|last9=Wang|first9=Wei|last10=Ping|first10=Peipei|last11=Han|first11=Jiawei|date=2018-10-01|title=Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease|journal=American Journal of Physiology. Heart and Circulatory Physiology|volume=315|issue=4|pages=H910–H924|doi=10.1152/ajpheart.00175.2018|issn=1522-1539|pmid=29775406|pmc=6230912}}</ref>. Крім того, за наявності великих наборів даних для пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та повідомлень про несприятливі події, інтелектуальний аналіз тексту може полегшити клінічні дослідження та прецизійні медицини. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у текстових наборах великих пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів.<ref>{{cite journal |last1=Van Le |first1=D |last2=Montgomery |first2=J |last3=Kirkby |first3=KC |last4=Scanlan |first4=J |title=Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. |journal=Journal of Biomedical Informatics |volume=86 |pages=49–58 |date=10 August 2018 |doi=10.1016/j.jbi.2018.08.007 |pmid=30118855}}</ref> Одним з додатків для онлайн-розробки текстів у біомедичній літературі є PubGene, загальнодоступна пошукова система, яка поєднує в собі біомедичну розробку тексту з візуалізацією мережі. <ref>{{cite journal |doi=10.1038/ng0501-21 |title=A literature network of human genes for high-throughput analysis of gene expression |year=2001 |last1=Jenssen |first1=Tor-Kristian |last2=Lægreid |first2=Astrid |last3=Komorowski |first3=Jan |last4=Hovig |first4=Eivind |journal=Nature Genetics |volume=28 |pages=21–8 |pmid=11326270 |issue=1}}</ref><ref>{{cite journal |doi=10.1038/ng0501-9 |title=Linking microarray data to the literature |year=2001 |last1=Masys |first1=Daniel R. |journal=Nature Genetics |volume=28 |pages=9–10 |pmid=11326264 |issue=1}}</ref> GoPubMed - це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.<ref>{{Cite journal|last=Renganathan|first=Vinaitheerthan|date=2017|title=Text Mining in Biomedical Domain with Emphasis on Document Clustering|journal=Healthcare Informatics Research|volume=23|issue=3|pages=141–146|doi=10.4258/hir.2017.23.3.141|pmid=28875048|pmc=5572517|issn=2093-3681}}</ref


== Примітки ==
== Примітки ==

Версія за 11:42, 25 березня 2019

Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.

Завдання інтелектуального аналізу тексту

Ключовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін в колекціях текстів, а також розробка засобів представлення інформації для користувача. [1]

Категоризація документів полягає у співставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї.

У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести навчання з учителем, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам.

Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається навчанням без вчителя. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак).

Текстова аналітика

Термін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження або розслідування.[2] Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив 2000 опис "інтелектуального аналізу тексту" [3] для опису "текстової аналітики".[4] В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як "інтелектуальний аналіз тексту", починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування[5], а саме в дослідженнях у галузі природничих наук та державної розвідки.

Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом польових, числових даних. Істинно, що 80% інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту.[6] Ці методи й процеси виявляють і представляють знання - факти, ділові правила і відносини - які в іншому випадку заблоковані в текстовій формі, непроникні для автоматизованої обробки.

Процес текстової аналітики

Підзадачі, що становлять більшу частину аналізу тексту, зазвичай охоплюють:

  • Інформаційний пошук, або ідентифікація корпусу є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса (англ. Corpus manager).
  • Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш широку обробку природної мови, таку як позначення частин мовлення[en] (англ. Part-of-speech tagging), синтаксичний аналіз та інші типи лінгвістичного аналізу.
  • Розпізнавання названих об'єктів[en] - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
  • Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію.
  • Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
  • Кластеризація документів: ідентифікація наборів аналогічних текстових документів.[7]
  • Кореферентність (англ. Coreference): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
  • Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
  • Аналіз тональності тексту передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.[8]
  • Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні, або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання (англ. psychological profiling), тощо.[9]

Застосування

Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для електронного відкриття[en]. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей національної безпеки та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми неструктурованих даних), для визначення ідей, переданих через текст (наприклад, аналіз тональності тексту у соціальних мережах [10][11][12]) і підтримувати наукові відкриття в галузі природничих наук та в галузібіоінформатики. У бізнесі інтелектуальний аналіз тексту використовується для підтримки конкурентної розвідки та автоматичного розміщення оголошень серед багатьох інших заходів.

Захисні програми

Багато програмних пакетів інтелектуального аналізу тексту продаються для захисних програм[en]для цілей національної безпеки, особливо для моніторингу та аналізу джерел звичайного тексту в Інтернеті, таких як інтернет-новини, блоги, тощо.[13] Інтелектуальний аналіз тексту також присутній у вивченні шифрування/дешифрування тексту.

Біомедичні застосування

У біомедичній літературі було описано серію застосування інтелектуального аналізу тексту [14] , включаючи обчислювальні підходи для допомоги в дослідженнях з приєднання білків,[15] взаємодій білків, [16][17] та асоціацій білкових хвороб [18]. Крім того, за наявності великих наборів даних для пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та повідомлень про несприятливі події, інтелектуальний аналіз тексту може полегшити клінічні дослідження та прецизійні медицини. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у текстових наборах великих пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів.[19] Одним з додатків для онлайн-розробки текстів у біомедичній літературі є PubGene, загальнодоступна пошукова система, яка поєднує в собі біомедичну розробку тексту з візуалізацією мережі. [20][21] GoPubMed - це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.<ref>Renganathan, Vinaitheerthan (2017). Text Mining in Biomedical Domain with Emphasis on Document Clustering. Healthcare Informatics Research. 23 (3): 141—146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.</ref

Примітки

  1. Berry, 2003.
  2. [1] [Архівовано November 29, 2009, у Wayback Machine.]
  3. KDD-2000 Workshop on Text Mining - Call for Papers. Cs.cmu.edu. Процитовано 23 лютого 2015.
  4. [2] [Архівовано March 3, 2012, у Wayback Machine.]
  5. Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.
  6. Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008. Процитовано 23 лютого 2015.
  7. Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
  8. Full Circle Sentiment Analysis. Breakthrough Analysis. 14 червня 2010. Процитовано 23 лютого 2015.
  9. Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
  10. Pang, Bo; Lee, Lillian (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends® in Information Retrieval. 2 (1–2): 1—135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.
  11. Paltoglou, Georgios; Thelwall, Mike (1 вересня 2012). Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology (TIST). 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904.
  12. Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org (амер.). Процитовано 2 жовтня 2018.
  13. Zanasi, Alessandro (2009). Virtual Weapons for Real Wars: Text Mining for National Security. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Т. 53. с. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  14. Cohen, K. Bretonnel; Hunter, Lawrence (2008). Getting Started in Text Mining. PLoS Computational Biology. 4 (1): e20. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  15. Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). Text mining for protein docking. PLoS Computational Biology. 11 (12): e1004630. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  16. Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). Protein–protein interaction predictions using text mining methods. Methods. 74: 47—53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
  17. Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 жовтня 2016). The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible. Nucleic Acids Research (англ.). 45 (D1): D362—D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
  18. Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 жовтня 2018). Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910—H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  19. Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. Journal of Biomedical Informatics. 86: 49—58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
  20. Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). A literature network of human genes for high-throughput analysis of gene expression. Nature Genetics. 28 (1): 21—8. doi:10.1038/ng0501-21. PMID 11326270.
  21. Masys, Daniel R. (2001). Linking microarray data to the literature. Nature Genetics. 28 (1): 9—10. doi:10.1038/ng0501-9. PMID 11326264.

Джерела

  • Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 с. — ISBN 0387955631.
  • Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 с. — ISBN 9781461432234.
  • Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference. — Springer, 2007. — 358 с. — ISBN 1599043734.