Користувач:Antidot1993

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Третє покоління програм контент-аналізу[ред. | ред. код]

Від середини 1980-х років намітився значний прогрес у розвитку комп’ютеризованого контент-аналізу. Його стимулювали декілька переходів:

  • Елемент маркованого списку

від великих ЕОМ до персональних комп'ютерів (1980 р.)

  • Елемент маркованого списку

від операційної системи MS DOS до MS Windows з його графічним інтерфейсом і дружнім ставленням до користувача.

Ці зміни дали можливість більшого залучення людини до дослідження. Також свій вплив мали розвиток Інтернет, розповсюдження електронних архівів-бібліотек, доступність електронних текстів і можливість доступу до текстових архівів через Інтернет у режимі on-line.

Завдяки третьому поколінню програм контент-аналізу з’явились можливості неформалізованої обробки текстів. «Стало зрозуміло, що … комп’ютери … можуть надавати значну допомогу в процесі інтерпретації" [1]. Це особливо виявилося очевидним, коли виникла потреба обробки значної кількості неструктурованих текстових даних.

Приклади програм третього покоління: Atlas.ti, HyperResearch, Aquad, NUD'IST.

Вони мають засоби для:

  • Елемент маркованого списку

формування текстів і створення на їхній основі цілих проектів;

  • Елемент маркованого списку

вивчення частоти і контексту використання слів (як часто категорії присвоюються словам або текстовим сегментам? які категорії і як часто вони з'являються разом? які зв’язки існують між категоріями або текстовими сегментами);

  • Елемент маркованого списку

створення і підтримка категорій і схем класифікації;

  • Елемент маркованого списку

присвоєння однієї або більше категорій рядкам символів, словам, фразам, реченням, параграфам або цілим текстам;

  • Елемент маркованого списку

зберігання приміток ("мемо") до текстів, кодування текстових сегментів;

  • Елемент маркованого списку

отримання різних форматів перегляду текстів, частин текстів або груп текстів;

  • Елемент маркованого списку

експортування кодів для подальшої обробки їх іншими програмами, а також формування звітів з проведеного аналізу;

  • Елемент маркованого списку

підтримка командної або спільної роботи в рамках проекту і злиття в один кількох проектів [2].

Найпершим завданням, яке постало перед програми якісного контент-аналізу, стало управління неструктурованими текстовими базами даних.. Ідея програм якісного контент-аналізу полягала в тому, що окрім бази даних з основним текстом, створювалися спеціальні файли або бази даних, які містили адреси сегментів тексту (наприклад, номер запису початку і номер кінця) та імена кодів, які асоціювалися з даним сегментом. За допомогою такого файлу можна виводити окремо ті сегменти тексту, в яких присутні потрібні коди. Він використовувався для пошуку і виділення потрібних фрагментів тексту. Доповнюючи ці файли новими записами, можна постійно розширювати пошукову базу, не зачіпаючи самого тексту. Такий принцип був закладений у перших пакетах програм Qualpro, the Ethnograph, Textbase Alpha.

Вирішення цього завдання дозволило виконувати й інші функції аналізу: пошук фрагментів тексту; побудова конкордансів; здійснення колокацій; перевірка інтерпретуючих гіпотез шляхом пошуку сегментів з однаковими кодами; введення, редагування та зберігання теоретичних коментарів до фрагментів текстів і т.д. Істотним доповненням до них стали різноманітні представлення взаємопов’язаних категорій шляхом різних способів візуалізації. Із допомогою допоміжних файлів показників можна легко встановлювати зв’язки між сегментами текстів, мемо, кодами. Так, програма NUD'IST дозволяє будувати ієрархічні та мережні структури категорій, програма Atlas.ti формує різноманітні неієрархічні мережі.

Внесок[ред. | ред. код]

Зміни відбулися на всіх етапах технології досліджень. Насамперед вони стосувались кодування. Інтеграція ручного і автоматичного кодування стало новою технологією багатьох програм, наприклад, PLCA (Program for Linguistic Content Analysis), MECA (Map Extraction, Comparison and Analysis).

Змінилася така функція, як використання конкорденсу. Відтепер, маючи на екрані слова (категорії) і їхню частоту, дослідник оперативно з допомогою KWIC-таблиці переглядав, у якому контексті з'являлося відібране ним слово. Це підсилило переконливість висновків. Такий режим реалізується через систему взаємозв'язаних вікон у багатьох програмах, зокрема навіть під MS DOS у програмі TACT.

Збільшилося число нових функцій, які реалізують програми. З'явилася можливість перевіряти гіпотези, розширились інтерпретаційні можливості за рахунок методів пошуку спільного входження кодів (слів), побудови концептуальних моделей, які зв'язують поняття в семантичні мережі, матричного, логічного та картографічного аналізу. Чимало програм приділяють увагу підрахункам показників надійності, наприклад, програми AGREE, Krippendorf’s alpha 3.12a, PRAM (Program for Reliability Assessment of Multiple Coders), або окремі модулі статистичних пакетів програм, зокрема SPSS і Simstat [3].

Такі можливості послужили основою створення цілого ряду програмних систем, які дозволяли вирішувати найрізноманітніші специфічні проблеми в процесі аналізу. Так, побудована на концепції "concept mapping", програма the VBPro дозволяє шляхом картографічного представлення ідентифікувати домінуючі теми і взаємозв’язки між темами для великих масивів даних. Цей різновид текстового аналізу використовується для аналізу медійних повідомлень.

Інший різновид аналізу представляє програма Minnesota Contextual Content analysis (MCCA), яка дозволяє вимірювати соціальну різницю (відстань) між статусом людей в організації, наприклад, лікарями і пацієнтами в лікарні, менеджерами та іншими працівниками фірми, враховуючи стилістичні особливості мови в процесі бесіди, а також контекстуальну інформацію. Дана методологія враховує чотири контекстуальних виміри: традиційний, практичний, емоційний і аналітичний. Здійснюючи кластерний аналіз, система дозволяє кількісно оцінити ступінь близькості між представниками різних соціальних груп.

Водночас з’явилися системи контент-аналізу для ефективної роботи в окремих сферах. До більш сучасних систем можна віднести програми для дослідження медіа, наприклад, CARMA® (Computer Aided Research & Media Analysis), PrecisTM, Echo®Research, IMPACTTM, Metrica, the Delahaye Medialink system. Окрім здійснення самого контент-аналізу, ці програми включають такі модулі, як убудовані медіабази даних, що забезпечують уведення, доступ і підрахунок відповідних статистичних даних, які стосуються різних параметрів медіа-засобів [4].

Критика[ред. | ред. код]

Основне спрямування критики:

  • Елемент маркованого списку

програма дистанціює людину від самих даних, людина практично не відчуває самого алгоритму;

  • Елемент маркованого списку

використання програм призведе до того, що якісні дані будуть аналізуватися кількісно;

  • Елемент маркованого списку

використання програм призведе до зростання однорідності (одноманітності) в методах аналізу, що особливо негативно позначиться на якісних дослідженнях [5].

До цього додається: комп’ютер лише ідентифікує слова, а від ідентифікації слів до ідентифікації ідей, які ці слова представляють, дуже далеко.

Особливої ваги набули проблеми забезпечення валідності і надійності результатів: – труднощі врахування контексту; – нездатність програми розпізнати комунікативні інтенції слів; – нездатність дослідника забезпечити вичерпне внесення в список ключових слів для певних категорій; – нездатність розв’язати проблеми посилань перед або після слів, які з'являються в довільному місці тексту, зокрема проблема займенників; – нездатність програм визначати межі одиниць аналізу, насамперед при якісному аналізі; – за чисельними характеристиками, які вираховуються програмами, може втрачатися сутність категорій [6].

Привертається увага і до обмежень, одним з яких є так звана "ціна" комп’ютеризації, під якою Р.Морріс розуміє час і зусилля, витрачені на роботу.

Переваги[ред. | ред. код]

Прихильники зазначають, що завдяки комп’ютеру контент-аналіз став для дослідників набагато доступнішим, ніж будь-коли, а можливості аналітика значно зросли.

Також стверджується, що тепер програми контент-аналізу виступають не лише в ролі одного з інструментів аналізу, а стають повноцінним експертом, завдяки новим інтерпретаційним, графічним та статичним можливостям, здатності формувати гіпотези і готувати варіанти висновків тощо. Особливо ці можливості важливі при роботі з дуже великими масивами текстів. Наслідком цього періоду розвитку контент-аналізу було створення в різних країнах цілого ряду науково-дослідних центрів, які спеціалізуються на комп’ютерному аналізі текстів, наприклад Centre for Computer Assisted Qualitative Data Analysis Software (м.Суррей, Великобританія), Centre for Social Anthropology and Computers (м.Кент, Великобританія), добре відомі центри ZUMA – Zentrum für Umfragen Methoden und Analysen (м.Мангейм, Німеччина), Qualitative Solutions and Research (м.Ла Троуб, Австралія).


Сучасні технології контент-аналізу і особливості Text Mining[ред. | ред. код]

Перші програми кількісного контент-аналізу зосереджували увагу в основному на підрахунку частот певних характеристик тексту. Більшість сучасних програм контент-аналізу також обмежені обробкою тексту, проте їхні можливості набагато ширші:

  • Елемент маркованого списку

зберігання даних та управління ними (дозволяє зберігати у формі текстових першоджерел або в спеціальному форматі, а також зберігати різноманітний аудіовізуальний матеріал: фотографії, діаграми, відео- та аудіозаписи, зв’язки з Web- сторінками; додатково аналітик має змогу анотувати, редагувати тексти, автоматично індексувати й записувати власну супроводжувальну інформацію);

  • Елемент маркованого списку

пошук даних (програми дозволяють шукати текстові дані за вказаними словами чи фразами, підраховувати частоту відповідних слів, шукати інформацію за заданим контекстом, а також різноманітними додатковими даними на зразок дати, хто брав інтерв’ю, звідки з'явилися дані тощо);

  • Елемент маркованого списку

кодування (процес кодування робиться відносно простим; є можливість робити окремі дані більш істотними та відносити їх до певної категорії, називати, об'єднувати і розділяти категорії, формувати концептуальну схему для розвитку теорії);

  • Елемент маркованого списку

розвиток і перевірка теорії (дозволяють застосовувати різноманітні теоретичні моделі для побудови теорій і представлення результатів);

  • Елемент маркованого списку

написання звітів (дозволяє готувати звіти для різноманітних категорій або відтворювати відповідні фрагменти документів у формі цитат, таблиць, графічних зображень тощо; є змога формувати в програмі "журнал", у який можна записувати пояснення, ідеї, що виникають, та виводити його на друк або у файл)[7].

Комп’ютерний контент-аналіз має власну логіку розвитку – технологічну. Саме ця логіка розвинулася в програмах четвертого покоління. До програм четвертого покоління будемо відносити програми, які, будучи втіленням контент-аналізу, "убудовують" його в інші технології.

Прикладом технології цього покоління є технологія "видобування" даних або Text Mining (більш повна назва – Text Analysis and Knowledge Mining System). Text Mining – це алгоритмічне виявлення на основі статистичного і лінгвістичного аналізу, а також штучного інтелекту раніше невідомих зв'язків і кореляцій у вже існуючих неструктурованих текстових даних для проведення значеннєвого аналізу, забезпечення навігації і пошуку в неструктурованих текстах з кінцевою метою одержання нової цінної інформації – знань. Text Mining являє собою логічне продовження і поєднання цілого ряду методик і методів, зокрема технології Data Mining, контент-аналізу, статистичного аналізу тощо.

Чимало науковців вважають, що такі програми беруть свій початок від програм видобування інформації і близьких до них (FRUMP)[8].

До важливих піонерських досліджень з Text Mining М.Діксон відносить два:

  • Елемент маркованого списку

роботи дослідницької групи з Гельсінського університету [9], яка намагалася використати технологію Data Mining до неструктурованих попередньо необроблених текстових масивів.

  • Елемент маркованого списку

роботи Р.Фельдмана [10], в основу яких покладено встановлення значущих для тексту понять (концептів) і визначення взаємозв’язку між документами і цими поняттями, тобто фактично здійснення класифікації тексту [11].

Система Document Explorer, запропонована Р.Фельдманом, спочатку будує базу даних на основі сукупності досліджуваних документів різних видів, у тому числі з Інтернет, а потім аналізує їх, використовуючи техніку видобування знань і графічний підхід.

Технологія Text Mining працює зі структурованими базами даних фактів, видобуває зразки (шаблони) зі звичайних текстів, призначених для читання людьми, а не комп’ютерами. Водночас, як і більшість когнітивних технологій, Text Mining – це не просто пошук серед великих масивів готової, кимсь іншим уже створеної інформації, а насамперед виявлення раніше невідомої і ніде не записаної інформації, а точніше, алгоритмічне виявлення раніше непомічених зв’язків як в самих текстах, так і внаслідок їх спільного читання. Крім того, часто на початку досліджень аналітик сам достеменно не знає, яка конкретно інформація йому потрібна та де її шукати.

Починаючи із середини 1990-х років, як напрям аналізу неструктурованих даних технологія Text Mining взяла за основу не лише методи класичного видобування знань, але й останні досягнення контент-аналізу: класифікацію, кластеризацію, виділення понять, фактів, шаблонів тощо.

Технологічними компонентами Text Mining є:

  1. Елемент нумерованого списку

інформаційний пошук (відбір релевантних записів або текстових баз даних для наступного опрацювання);

  1. Елемент нумерованого списку

інформаційна переробка (виділення зразків на основі відібраних даних);

  1. Елемент нумерованого списку

інформаційна інтеграція (поєднання комп’ютерного виведення інформації з пізнавальним можливостями людини)[12].

Саме при реалізації другої компоненти Text Mining здійснює такі види аналізу, як:

  • Елемент маркованого списку

виявлення або видобування інформації

  • Елемент маркованого списку

відслідковування категорій або тем

  • Елемент маркованого списку

резюмування або реферування документів

  • Елемент маркованого списку

класифікація або категоризація тексту 145

  • Елемент маркованого списку

кластеризація або групування

  • Елемент маркованого списку

прогнозування;

  • Елемент маркованого списку

знаходження винятків;

  • Елемент маркованого списку

пошук пов'язаних ознак, полів, понять окремих документів

  • Елемент маркованого списку

візуалізація даних

  • Елемент маркованого списку

відповіді на запитання або Q&A

На сьогоднішній день системи Text Mining, як правило, реалізуються у вигляді масштабних систем зі складними математичними і лінгвістичними алгоритмами аналізу, для яких характерним є розвинений графічний інтерфейс, багаті можливості візуалізації та маніпулювання даними, доступ до різних джерел даних, функціонування в архітектурі клієнт-сервер. За даними Центру технологічної політики і оцінювання (Technology Policy and Assessment Center – TPAC) Джорджіанського інституту технологій, станом на кінець 2000р. в Інтернеті було представлено понад 70 інструментальних систем Text Mining [13].

Сфери застосування[ред. | ред. код]

Одним із найперспективніших напрямів узагальнення інформаційних потоків є контент-моніторинг. Його ідею можна сформулювати як постійно здійснюваний в часі контент-аналіз неперервних інформаційних потоків. Серед принципів побудови системи моніторингу виділяють системність, адресність і предметну спрямованість. У ній текстовий потік досліджується на підставі заданих конфігураційних характеристик (наборів кількісних параметрів або слів, що супроводжують визначені теми і поняття). Він опрацьовується багаторазово, з додаванням характеристик, отриманих із самого потоку. Методологічну основу дослідження складає контент-аналіз. У результаті генерується, а потім наочно відображається узагальнена інформація. З появою систем Text Mining контент-моніторинг отримав реальну і потужну програмну основу.

До сучасних і перспективних напрямів використання Text Mining також відносяться:

  • Елемент маркованого списку

пошук всеохоплюючої і релевантної інформації на основі текстових баз даних;

  • Елемент маркованого списку

визначення інфраструктури заданих технологічних і наукових дисциплін і напрямів;

  • Елемент маркованого списку

здійснення тематичної структуризації певних сфер діяльності та взаємозв’язку між темами;

  • Елемент маркованого списку

виявлення нових напрямів досліджень, появи нових ідей у рамках певних дисциплін і на стику дисциплін;

  • Елемент маркованого списку

прогнозування технологічного розвитку [14].

Особливої уваги заслуговує інноваційне прогнозування [15]. Один із різновидів прогнозів базується на бібліометриці: підраховуючи число публікацій,патентів, відповідних згадувань у виступах науковців, можна виміряти та інтерпретувати напрями технологічного розвитку. Ці вимірювання узагальнюються у формі інноваційних індикаторів технологій, які можуть свідчити про стадію життєвого циклу технологій, інноваційний контекстуальний вплив даної технології на інші, розвиток ринкового потенціалу тощо. Ще один метод прогнозування базується на картографії новинних повідомлень, що дозволяє ідентифікувати споріднені групи технологій і ресурсів, взаємовпливи різних груп технологій, локалізувати дослідницькі домени та встановлювати коло їхніх інтересів.

Надзвичайно перспективним напрямом Text Mining є технологічна конкурентна розвідка (Competitive Technological Intelligence). Її значення і використання особливо зросло в 1990-х роках, коли посилилася технологічна конкуренція, і компанії, університети та урядові організації відчули особливу потребу в знаннях про нові і перспективні технології. Значна частина результатів технологічною розвідкою отримується на основі пошуків з використанням технологій Text Mining. Актуальність розробок Text Mining добре засвідчує застосування їх Федеральними службами і агентствами США. Так, дослідження GAO від травня 2004 р. [16] засвідчило, що з 128 служб, які вивчалися, 52 використовували або планували використовувати технології Data Mining і Text Mining. Цілі їх використання надзвичайно різноманітні: починаючи від поліпшення обслуговування населення і завершуючи аналізом і виявленням терористичної і злочинної діяльності. Аналітиками GAO виявлено 199 випадків застосувань технології видобування знань, з яких 68 пов'язані з плануванням роботи і 131 – з оперативною діяльністю.

У березні 2001 р. в ряді російських і українських інтернет-видань [17] з'явилися повідомлення про використання Управлінням розвитку інформаційних технологій, яке є частиною директорату науки і технології ЦРУ США, Text Mining для роботи з відкритими джерелами інформації. Окремі вітчизняні публікації відсилають до першоджерела – матеріалу на сайті "Вашингтон пост". Мова йшла про застосування розвідувальним відомством трьох комп’ютерних систем – Oasis, FLUENT, Text Data Mining.

Перша система пов’язана з медіа-моніторингом як систематичних, так і випадкових джерел, які охоплюють друковані видання, цифрові матеріали, графічні зображення, аудіоінформацію 35 мовами світу.

Комп'ютерна технологія FLUENT призначена для пошуку інформації в текстових документах. Маючи на вході ключові слова англійською мовою, система тут же перекладає їх на ряд інших мов, шукає інформацію в текстових базах даних з документами на різних мовах і повертає аналітику результати пошуку після автоматичного перекладу. FLUENT дозволяє перекладати англійською мовою з китайської, корейської, португальської, російської, сербсько-хорватської, української та інших мов. Ще одна програма, Text Data Mining, дозволяє автоматично створювати візуальні образи текстових документів, а також отримувати дані про частоту використання тих або інших слів.

Перелічені технології ЦРУ використовує для відслідковування незаконних фінансових операцій і наркотрафіку.

Також Text Mining можна використовувати як інтегратори новин, які інтегрують інформаційні потоки, здійснюючи контент- моніторинг новин у Web-просторі як базу для своєї роботи. Наприклад, Northern Light Technology є клієнтом однієї з величезних служб збору новин COMTEX, що інтегрує ресурси солідних джерел, серед яких такі світові інформаційні агентства, як Associated Press, ИТАР-ТАСС, Синьхуа. Клієнтами COMTEX, у свою чергу, є десятки новинних служб: OneSource, Screaming Media, Vertical Net, CompuServe та інші. Технологія моніторингу і подальшої синдикації Інтернет-новин передбачає етапи: "навчання" програм збору інформації структурі відібраних джерел, сканування інформації, приведення її до внутрішньосистемного формату, класифікація, кластеризація, передача користувачам через різноманітні канали, у тому числі e-mail, WWW, Wap, SMS.

На завершення відзначимо, що технологія Text Mining знаходиться лише на початку своєї "кар’єри". Однак навіть зараз вона видаються дуже перспективною. Немала роль у цьому належить контент-аналізу.

Підсумок[ред. | ред. код]

Контент-аналіз у своєму розвитку пройшов шлях від наукового методу формалізованого аналізу змісту мас-медіа до широко застосовуваної високотехнологічної методики.

Як було показано, у процесі становлення контент-аналізу можна виділити такі етапи:

  • Елемент маркованого списку

його зародження До 1920 рр. – характеризується описовою та інтуїтивною методологією, розвиваються різноманітні підходи до аналізу та порівняння текстів у інтерпретаційних контекстах, насамперед засобів масових комунікацій, ранній газетний аналіз, графологічний аналіз, аналіз мрій.

  • Елемент маркованого списку

формування основ "класичного" контент-аналізу 1920- 1940 рр. – розвиваються систематичні основи кількісного контент-аналізу, знову ж таки в рамках масових комунікацій, розвиток відбувається практично разом з теорією і практикою пропаганди.

  • Елемент маркованого списку

міждисциплінарне розширення і диференціація 1950- 1960 рр. – методологія не лише розвиває свої теоретичні основи, але й знаходить шлях до різноманітних дисциплін, насамперед лінгвістики, психології, соціології, історичних наук, мистецтва тощо.

  • Елемент маркованого списку

розвиток теоретичних основ та розширення практичного застосування 1970-1980 рр. – удосконалення і застосування різноманітних моделей зв'язку, аналіз невербальних комунікацій, а також розвиток нових різновидностей, зокрема якісного контент-аналізу, удосконалення методики, насамперед за рахунок використання нових можливостей комп’ютерної техніки.

  • Елемент маркованого списку

період "глобального" розвитку Від 1990-х років – період, пов’язаний із використанням контент-аналізу в практиці діяльності найрізноманітніших суб’єктів, починаючи від науковців, які ознайомлені з його методикою та свідомо її застосовують, і завершуючи пересічними користувачамиІнтернет, практична більшість з яких, мабуть, і не підозрюють, що пошук інформації для них здійснюють програми із убудованими елементами контент-аналізу.

Тепер не наука чи засоби масової інформації є найбільшими користувачами контент-аналізу, а державні та недержавні установи, політичні партії, аналітичні центри, комерційні структури, зацікавлені в здобутті нових знань. Нинішні контент-дослідження пов’язані з переробкою величезних текстових масивів на основі Інтернет-технологій та комп’ютерних технологій видобування знань на зразок Text mining і Web-mining, побудованих значною мірою на ідеях контент-аналізу. Із ними ж пов’язана перспектива розвитку контент-аналізу найближчих років.

  1. Kelle U. Computer-Aided Qualitative Data Analysis...– P.36.
  2. Alexa M., Zuell C. Commonalities, differences and limitations of text analysis Software: The results of a review / Zentrum für Umfragen Methoden und Analysen (ZUMA). ZUMA-Arbeitsbericht 99/06.– Mannheim (Germany): ZUMA, 1999.– Р.2.– http://www.gesis.org/Publikationen/Berichte/ZUMA_Arbeitsberichte/99/99_06.pdf
  3. Lombard M., Snyder-Duch J., Bracken C.C. Practical Resources for Assessing and Reporting Intercoder Reliability in Content Analysis Research Projects. – 2004.– http://www.temple.edu/mmc/reliability/
  4. Macnamara J.R. Media Content Analysis...– Р.8.
  5. Barry C.A. Choosing Qualitative Data Analysis Software: Atlas/ti and Nudist Compared // Sociological Research Online.– 1998.– Vol. 3.– No.3.– http://www.socresonline.org.uk/socresonline/3/3/4.html (2004.05.14)
  6. Morris R. Computerized content analysis in management research: a demonstration of advantages& limitations...
  7. Lacey A., Luff D. Trent Focus for Research and Development in Primary Health Care: An Introduction to Qualitative Analysis.– Trent Focus, 2001.– http://www.trentfocus.org.uk/Resources/Qualitative%20Data%20Analysis.pdf
  8. Dixon M. An Overview of Document Mining Technology.– October 4, 1997.– http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm.html ; Wilks Y. Information extraction as a core language technology // Information Extraction: A Multidisciplinary Approach to an Emergine Information Technology.– Vol. 1299.– June 1997.– PP.1-9.

  9. Ahonen H., Heinonen O., Klemettinen M., Verkamo A.I. Mining in the phrasal frontier // Proceedings of PKDD'97 / 1st European Symposium on Principles of Data Mining and Knowledge Discovery.– Norway.– Trondheim.– June 1997.

  10. Feldman R., Klosgen W., Ben-Yehuda Y., Kedar G., Reznikov V. Pattern based browsing in document collections // Principles of data mining and knowledge discovery. – June 1997.– Vol. 1263.– PP.112-122.
  11. Dixon M. An Overview of Document Mining Technology...
  12. Kostoff R. Text Mining for Global Technology Watch / Office of Naval Research (ONR) Science & Technology.– 2001.– http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm ; Kostoff R. Information Extraction From Scientific Literature with Text Mining / Office of Naval Research (ONR) Science & Technology.– 2001.– http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm
  13. Text Mining: Review of TPAC Technologies for ONR // ASDL.– Aug. 2002.– http://www.asdl.gatech.edu/research_teams/pdf/2002/Text%20Mining%20Sum.doc
  14. Text Mining: Review of TPAC Technologies for ONR...
  15. Watts R.J., Porter A.L. Innovation Forecasting // Technology Policy and Assessment Center (TPAC) at Georgia Institute of Technology.– 2002.– http://www.tpac.gatech.edu/toa/inov.shtml
  16. Data Mining. Federal Efforts Cover a Wide Range of Uses: Report to the Ranking Minority Member, Subcommittee on Financial Management, the Budget, and International Security, Committee on Governmental Affairs, U.S. Senate / GAO (United States General Accounting Office).– GAO-04-548.– Washington, D.C. – May 2004.– 71 p.– http://www.epic.org/privacy/profiling/gao_dm_rpt.pdf
  17. Ландэ Д. Добыча знаний...; ЦРУ начинает просеивать информацию // Сетевой журнал. Лента новостей.– Вып. от 14.03.2001.– http://www.setevoi.ru/cgi-bin/srch.pl?id=579 ; ЦРУ извлекает данные // Компьютер-информ.– 2001.– №6.– http://www.ci.ru/inform06_01/p245moz.htm ; Гордиенко И. Понять и заставить // Компьютерра. – 10.04.2001.– http://www.ibusiness.ru/offline/2001/158/8585/print.html