Інтелектуальний аналіз тексту: відмінності між версіями

[неперевірена версія]

← Попереднє редагування Наступне редагування →

Вилучено вміст Додано вміст

Лінійно

Версія за 11:42, 25 березня 2019

Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.

Завдання інтелектуального аналізу тексту

Ключовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін в колекціях текстів, а також розробка засобів представлення інформації для користувача. ^[1]

Категоризація документів полягає у співставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї.

У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести навчання з учителем, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам.

Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається навчанням без вчителя. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак).

Текстова аналітика

Термін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження або розслідування.^[2] Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив 2000 опис "інтелектуального аналізу тексту" ^[3] для опису "текстової аналітики".^[4] В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як "інтелектуальний аналіз тексту", починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування^[5], а саме в дослідженнях у галузі природничих наук та державної розвідки.

Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом польових, числових даних. Істинно, що 80% інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту.^[6] Ці методи й процеси виявляють і представляють знання - факти, ділові правила і відносини - які в іншому випадку заблоковані в текстовій формі, непроникні для автоматизованої обробки.

Процес текстової аналітики

Підзадачі, що становлять більшу частину аналізу тексту, зазвичай охоплюють:

Інформаційний пошук, або ідентифікація корпусу● є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса (англ. Corpus manager).
Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш широку обробку природної мови, таку як позначення частин мовлення^[en] (англ. Part-of-speech tagging), синтаксичний аналіз та інші типи лінгвістичного аналізу.
Розпізнавання названих об'єктів^[en] - це використання словника географічних назв, або статистичних методів для визначення функцій іменного тексту: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
Усунення неоднозначності - використання контекстних підказок - може знадобитися, щоб вирішити, де, наприклад, "Форд" може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або іншу організацію.
Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
Кластеризація документів: ідентифікація наборів аналогічних текстових документів.^[7]
Кореферентність (англ. Coreference): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
Зв'язок, факт і подія Вилучення: ідентифікація асоціацій між сутностями та інша інформація в тексті.
Аналіз тональності тексту передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.^[8]
Кількісний аналіз тексту - це сукупність методів, що випливають з соціальних наук, де або суддя, або комп'ютер витягують семантичні, або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання (англ. psychological profiling), тощо.^[9]

Застосування

Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для електронного відкриття^[en]. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей національної безпеки та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми неструктурованих даних●), для визначення ідей, переданих через текст (наприклад, аналіз тональності тексту у соціальних мережах ^[10]^[11]^[12]) і підтримувати наукові відкриття в галузі природничих наук та в галузібіоінформатики. У бізнесі інтелектуальний аналіз тексту використовується для підтримки конкурентної розвідки та автоматичного розміщення оголошень● серед багатьох інших заходів.

Захисні програми

Багато програмних пакетів інтелектуального аналізу тексту продаються для захисних програм^[en]для цілей національної безпеки, особливо для моніторингу та аналізу джерел звичайного тексту в Інтернеті, таких як інтернет-новини, блоги, тощо.^[13] Інтелектуальний аналіз тексту також присутній у вивченні шифрування/дешифрування тексту.

Біомедичні застосування

У біомедичній літературі було описано серію застосування інтелектуального аналізу тексту ^[14] , включаючи обчислювальні підходи для допомоги в дослідженнях з приєднання білків,^[15] взаємодій білків, ^[16]^[17] та асоціацій білкових хвороб ^[18]. Крім того, за наявності великих наборів даних для пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та повідомлень про несприятливі події, інтелектуальний аналіз тексту може полегшити клінічні дослідження та прецизійні медицини. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у текстових наборах великих пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів.^[19] Одним з додатків для онлайн-розробки текстів у біомедичній літературі є PubGene, загальнодоступна пошукова система, яка поєднує в собі біомедичну розробку тексту з візуалізацією мережі. ^[20]^[21] GoPubMed - це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.<ref>Renganathan, Vinaitheerthan (2017). Text Mining in Biomedical Domain with Emphasis on Document Clustering. Healthcare Informatics Research. 23 (3): 141—146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.</ref

Примітки

↑ Berry, 2003.
↑ [1] [Архівовано November 29, 2009, у Wayback Machine.]
↑ KDD-2000 Workshop on Text Mining - Call for Papers. Cs.cmu.edu. Процитовано 23 лютого 2015.
↑ [2] [Архівовано March 3, 2012, у Wayback Machine.]
↑ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.
↑ Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008. Процитовано 23 лютого 2015.
↑ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
↑ Full Circle Sentiment Analysis. Breakthrough Analysis. 14 червня 2010. Процитовано 23 лютого 2015.
↑ Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
↑ Pang, Bo; Lee, Lillian (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends® in Information Retrieval. 2 (1–2): 1—135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.
↑ Paltoglou, Georgios; Thelwall, Mike (1 вересня 2012). Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology (TIST). 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904.
↑ Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org (амер.). Процитовано 2 жовтня 2018.
↑ Zanasi, Alessandro (2009). Virtual Weapons for Real Wars: Text Mining for National Security. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Т. 53. с. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
↑ Cohen, K. Bretonnel; Hunter, Lawrence (2008). Getting Started in Text Mining. PLoS Computational Biology. 4 (1): e20. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
↑ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). Text mining for protein docking. PLoS Computational Biology. 11 (12): e1004630. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
↑ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). Protein–protein interaction predictions using text mining methods. Methods. 74: 47—53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
↑ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 жовтня 2016). The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible. Nucleic Acids Research (англ.). 45 (D1): D362—D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
↑ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 жовтня 2018). Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910—H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
↑ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. Journal of Biomedical Informatics. 86: 49—58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
↑ Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). A literature network of human genes for high-throughput analysis of gene expression. Nature Genetics. 28 (1): 21—8. doi:10.1038/ng0501-21. PMID 11326270.
↑ Masys, Daniel R. (2001). Linking microarray data to the literature. Nature Genetics. 28 (1): 9—10. doi:10.1038/ng0501-9. PMID 11326264.

Джерела

Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 с. — ISBN 0387955631.
Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 с. — ISBN 9781461432234.
Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference. — Springer, 2007. — 358 с. — ISBN 1599043734.

[FOOTNOTEBerry2003-1] Berry, 2003.

[2] [1] [Архівовано November 29, 2009, у Wayback Machine.]

[3] KDD-2000 Workshop on Text Mining - Call for Papers. Cs.cmu.edu. Процитовано 23 лютого 2015.

[4] [2] [Архівовано March 3, 2012, у Wayback Machine.]

[5] Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.

[breakthroughanalysis1-6] Unstructured Data and the 80 Percent Rule. Breakthrough Analysis. August 2008. Процитовано 23 лютого 2015.

[7] Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.

[8] Full Circle Sentiment Analysis. Breakthrough Analysis. 14 червня 2010. Процитовано 23 лютого 2015.

[9] Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.

[10] Pang, Bo; Lee, Lillian (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends® in Information Retrieval. 2 (1–2): 1—135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.

[11] Paltoglou, Georgios; Thelwall, Mike (1 вересня 2012). Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology (TIST). 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904.

[12] Sentiment Analysis in Twitter < SemEval-2017 Task 4. alt.qcri.org (амер.). Процитовано 2 жовтня 2018.

[13] Zanasi, Alessandro (2009). Virtual Weapons for Real Wars: Text Mining for National Security. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Т. 53. с. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.

[14] Cohen, K. Bretonnel; Hunter, Lawrence (2008). Getting Started in Text Mining. PLoS Computational Biology. 4 (1): e20. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)

[15] Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). Text mining for protein docking. PLoS Computational Biology. 11 (12): e1004630. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)

[16] Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). Protein–protein interaction predictions using text mining methods. Methods. 74: 47—53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.

[17] Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 жовтня 2016). The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible. Nucleic Acids Research (англ.). 45 (D1): D362—D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.

[18] Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 жовтня 2018). Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910—H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.

[19] Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. Journal of Biomedical Informatics. 86: 49—58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.

[20] Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). A literature network of human genes for high-throughput analysis of gene expression. Nature Genetics. 28 (1): 21—8. doi:10.1038/ng0501-21. PMID 11326270.

[21] Masys, Daniel R. (2001). Linking microarray data to the literature. Nature Genetics. 28 (1): 9—10. doi:10.1038/ng0501-9. PMID 11326264.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

@@ Рядок 31: / Рядок 31: @@
 ==Застосування==
-Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для {{Нп|Електроне відкриття|електронного відкриття||Electronic discovery}}. Уряди і військові групи використовують інтелектуальний аналіз тексту  для цілей [[Національна безпека|національної безпеки]] та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми {{Нп|Неструктуровані дані|неструктурованих даних||Unstructured data}}), для визначення ідей, переданих через текст (наприклад, [[Аналіз тональності тексту|аналіз тональності тексту]] у соціальних мережах <ref>{{Cite journal|last=Pang|first=Bo|last2=Lee|first2=Lillian|author2-link=Lillian Lee (computer scientist)|date=2008|title=Opinion Mining and Sentiment Analysis|journal=Foundations and Trends® in Information Retrieval|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669|citeseerx=10.1.1.147.2755}}</ref><ref>{{Cite journal|last=Paltoglou|first=Georgios|last2=Thelwall|first2=Mike|date=2012-09-01|title=Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media|journal=ACM Transactions on Intelligent Systems and Technology (TIST)|volume=3|issue=4|pages=66|doi=10.1145/2337542.2337551|issn=2157-6904}}</ref><ref>{{Cite web|url=http://alt.qcri.org/semeval2017/task4/|title=Sentiment Analysis in Twitter < SemEval-2017 Task 4|website=alt.qcri.org|language=en-US|access-date=2018-10-02}}</ref>) і підтримувати [[Наукове відкриття|наукові відкриття]] в галузі природничих наук та в галузі[[Біоінформатика|біоінформатики]]. У бізнесі інтелектуальний аналіз тексту використовується для підтримки [[Конкурентна розвідка|конкурентної розвідки]] та автоматичного {{Нп|Розміщення оголошення|розміщення оголошень||Ad serving}} серед багатьох інших заходів..
+Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для {{Нп|Електроне відкриття|електронного відкриття||Electronic discovery}}. Уряди і військові групи використовують інтелектуальний аналіз тексту  для цілей [[Національна безпека|національної безпеки]] та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми {{Нп|Неструктуровані дані|неструктурованих даних||Unstructured data}}), для визначення ідей, переданих через текст (наприклад, [[Аналіз тональності тексту|аналіз тональності тексту]] у соціальних мережах <ref>{{Cite journal|last=Pang|first=Bo|last2=Lee|first2=Lillian|author2-link=Lillian Lee (computer scientist)|date=2008|title=Opinion Mining and Sentiment Analysis|journal=Foundations and Trends® in Information Retrieval|volume=2|issue=1–2|pages=1–135|doi=10.1561/1500000011|issn=1554-0669|citeseerx=10.1.1.147.2755}}</ref><ref>{{Cite journal|last=Paltoglou|first=Georgios|last2=Thelwall|first2=Mike|date=2012-09-01|title=Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media|journal=ACM Transactions on Intelligent Systems and Technology (TIST)|volume=3|issue=4|pages=66|doi=10.1145/2337542.2337551|issn=2157-6904}}</ref><ref>{{Cite web|url=http://alt.qcri.org/semeval2017/task4/|title=Sentiment Analysis in Twitter < SemEval-2017 Task 4|website=alt.qcri.org|language=en-US|access-date=2018-10-02}}</ref>) і підтримувати [[Наукове відкриття|наукові відкриття]] в галузі природничих наук та в галузі[[Біоінформатика|біоінформатики]]. У бізнесі інтелектуальний аналіз тексту використовується для підтримки [[Конкурентна розвідка|конкурентної розвідки]] та автоматичного {{Нп|Розміщення оголошення|розміщення оголошень||Ad serving}} серед багатьох інших заходів.
+===Захисні програми===
+Багато програмних пакетів інтелектуального аналізу тексту продаються для {{Нп|Захисні програми|захисних програм||Security appliance}}для цілей національної безпеки, особливо для моніторингу та аналізу джерел звичайного тексту в Інтернеті, таких як [[Інтернет-журналістика|інтернет-новини]], [[Блог|блоги]], тощо.<ref>{{cite book |doi=10.1007/978-3-540-88181-0_7 |title=Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08 |series=Advances in Soft Computing |year=2009 |last1=Zanasi |first1=Alessandro |isbn=978-3-540-88180-3 |volume=53 |page=53|chapter=Virtual Weapons for Real Wars: Text Mining for National Security }}</ref> Інтелектуальний аналіз тексту також присутній у вивченні [[Криптографія|шифрування/дешифрування]] тексту.
+===Біомедичні застосування===
+У біомедичній літературі було описано серію застосування інтелектуального аналізу тексту <ref>{{cite journal |doi=10.1371/journal.pcbi.0040020 |title=Getting Started in Text Mining |year=2008 |last1=Cohen |first1=K. Bretonnel |last2=Hunter |first2=Lawrence |journal=PLoS Computational Biology |volume=4 |pages=e20 |pmid=18225946 |issue=1 |pmc=2217579}}</ref> , включаючи обчислювальні підходи для допомоги в дослідженнях з приєднання білків,<ref>{{cite journal |doi=10.1371/journal.pcbi.1004630 |title=Text mining for protein docking|journal=PLoS Computational Biology|volume=11|issue=12|pages=e1004630|pmid=26650466 |pmc=4674139|year=2015|author1=Badal|first1=V. D|last2=Kundrotas|first2=P. J|last3=Vakser|first3=I. A}}</ref> [[Білки|взаємодій білків]], <ref>{{Cite journal|last=Papanikolaou|first=Nikolas|last2=Pavlopoulos|first2=Georgios A.|last3=Theodosiou|first3=Theodosios|last4=Iliopoulos|first4=Ioannis|date=2015|title=Protein–protein interaction predictions using text mining methods|journal=Methods|volume=74|pages=47–53|doi=10.1016/j.ymeth.2014.10.026|pmid=25448298|issn=1046-2023}}</ref><ref>{{Cite journal|last=Szklarczyk|first=Damian|last2=Morris|first2=John H|last3=Cook|first3=Helen|last4=Kuhn|first4=Michael|last5=Wyder|first5=Stefan|last6=Simonovic|first6=Milan|last7=Santos|first7=Alberto|last8=Doncheva|first8=Nadezhda T|last9=Roth|first9=Alexander|date=2016-10-18|title=The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible|journal=Nucleic Acids Research|language=en|volume=45|issue=D1|pages=D362–D368|doi=10.1093/nar/gkw937|issn=0305-1048|pmc=5210637|pmid=27924014}}</ref> та асоціацій білкових хвороб <ref>{{Cite journal|last=Liem|first=David A.|last2=Murali|first2=Sanjana|last3=Sigdel|first3=Dibakar|last4=Shi|first4=Yu|last5=Wang|first5=Xuan|last6=Shen|first6=Jiaming|last7=Choi|first7=Howard|last8=Caufield|first8=John H.|last9=Wang|first9=Wei|last10=Ping|first10=Peipei|last11=Han|first11=Jiawei|date=2018-10-01|title=Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease|journal=American Journal of Physiology. Heart and Circulatory Physiology|volume=315|issue=4|pages=H910–H924|doi=10.1152/ajpheart.00175.2018|issn=1522-1539|pmid=29775406|pmc=6230912}}</ref>. Крім того, за наявності великих наборів даних для пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та повідомлень про несприятливі події, інтелектуальний аналіз тексту може полегшити клінічні дослідження та прецизійні медицини. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у текстових наборах великих пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів.<ref>{{cite journal |last1=Van Le |first1=D |last2=Montgomery |first2=J |last3=Kirkby |first3=KC |last4=Scanlan |first4=J |title=Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. |journal=Journal of Biomedical Informatics |volume=86 |pages=49–58 |date=10 August 2018 |doi=10.1016/j.jbi.2018.08.007 |pmid=30118855}}</ref> Одним з додатків для онлайн-розробки текстів у біомедичній літературі є PubGene, загальнодоступна пошукова система, яка поєднує в собі біомедичну розробку тексту з візуалізацією мережі. <ref>{{cite journal |doi=10.1038/ng0501-21 |title=A literature network of human genes for high-throughput analysis of gene expression |year=2001 |last1=Jenssen |first1=Tor-Kristian |last2=Lægreid |first2=Astrid |last3=Komorowski |first3=Jan |last4=Hovig |first4=Eivind |journal=Nature Genetics |volume=28 |pages=21–8 |pmid=11326270 |issue=1}}</ref><ref>{{cite journal |doi=10.1038/ng0501-9 |title=Linking microarray data to the literature |year=2001 |last1=Masys |first1=Daniel R. |journal=Nature Genetics |volume=28 |pages=9–10 |pmid=11326264 |issue=1}}</ref>  GoPubMed - це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.<ref>{{Cite journal|last=Renganathan|first=Vinaitheerthan|date=2017|title=Text Mining in Biomedical Domain with Emphasis on Document Clustering|journal=Healthcare Informatics Research|volume=23|issue=3|pages=141–146|doi=10.4258/hir.2017.23.3.141|pmid=28875048|pmc=5572517|issn=2093-3681}}</ref
 == Примітки ==

Інтелектуальний аналіз тексту: відмінності між версіями

Версія за 11:42, 25 березня 2019

Зміст

Завдання інтелектуального аналізу тексту

Текстова аналітика

Процес текстової аналітики

Застосування

Захисні програми

Біомедичні застосування

Примітки

Джерела

Навігаційне меню

Інтелектуальний аналіз тексту: відмінності між версіями

Версія за 11:42, 25 березня 2019

Завдання інтелектуального аналізу тексту

Текстова аналітика

Процес текстової аналітики

Застосування

Захисні програми

Біомедичні застосування

Примітки

Джерела

Навігаційне меню

Пошук