Збір даних для контент-аналізу

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Документ — це матеріальний об'єкт з інформацією, яка закріплена створеним людиною способом для її передачі у часі і просторі»[1]. Визначення поняття «документ» є доволі неоднозначним, оскільки сучасні дослідни(ки)ці досі сперечаються щодо розуміння документа як об’єкта дослідження в соціології. Зокрема, це стосується суперечок щодо того, ким був створений документ, в якому вигляді є зафіксованою інформація, чим є зміст документу, а також який матеріальний носій застосовується для збереження та передачі певного виду інформації.

За Б. Берельсоном сам зміст документу можна визначати як сукупність значень, які виражені символами (словесними, музичними, мальованими, ліпленими чи тими, що мають характер жестів), які і складають саму комунікацію. [1] Альтернативні визначення документу передбачають тлумачення документу як упорядкованої сукупності даних, інформації та знань, яка надає можливості доступу, передачі, обробки, тощо. Прикладом документа може бути паперовий документ, фільм, комп’ютерний файл, тощо.[2] Середовищем для зберігання документів слугує інформаційно-комунікаційна система, завдяки якій забезпечується доступ, обмін інформацією та її обробка. Така система може бути комп’ютеризованою або ручною.

Джерела даних для контент-аналізу[ред. | ред. код]

Характеристики джерел даних[ред. | ред. код]

Джерела даних поділяються на:

  • Готові тексти;
  • Джерела текстів.

Так, наприклад, до джерел даних належать: кіно- фотоархіви, бібліотеки, міжбібліотечні абонементи, архіви газет та журналів, відеоархіви, архіви телереклами, повні архіви телепередач. Для пошуку джерел даних або документів використовують:

  • Соціальні мережі;
  • Інтернет-мережу (пошуковики, зворотній пошук зображень).

Загальна класифікація джерел та документів передбачає наступний поділ[3]:

  • За способом фіксації інформації, тобто яким чином закріплена інформація на своєму носії.
  • За ступенем персоніфікації, тобто які це документи, чи мають вони визначеного автора, чи безособисті (наприклад, різноманітні статистичні матеріали, протоколи зборів, інформаційні повідомлення на сторінках га зет та ін.
  • За метою створення (розподіл документів на створені з метою, яка не стосується безпосередньо соціологічного дослідження, і документи, які спровоковані самим дослідником – це можуть бути відповіді на відкриті запитання анкети та інші документи, отримані самим дослідником згідно із складеною ним програмою).
  • За статусом документа (поділ документівна офіційні і неофіційні, складені для своїх потреб громадськими організаціями, неурядовими установами та приватними особами. Останній випадок охоплює всі види особистих документів.
  • За джерелом інформації та ступенем близькості до емпіричного матеріалу (наприклад, первинні та вторинні дані).

Інформаційні ресурси та їхні характеристики[ред. | ред. код]

Інформаційні ресурси можна виділити за наступними ознаками [4]:

  • Приналежність ресурсу до певної організаційно-технологічної системи (наприклад, бібліотечної мережі, ЗМІ, корпоративної системи);
  • Спосіб виділення об’єктів обліку (твори, документи, видання, бази даних, інтернет-сторінки, сайти, тощо).
  • Призначення ресурсу (масова інформація, освіта, бізнес, переписка).
  • Зміст ресурсу:
    • тематичний;
    • об’єктний;
    • функціональний.
  • Видовий склад ресурсу (види документів).
  • Джерело інформації:
    • національне або закордонне;
    • офіційне або неофіційне;
    • тощо.
  • Правовий статус ресурсу (публічні документи, об’єкти інтелектуальної власності, спам, таємні документи, тощо).
  • Структурний тип ресурсу, що включає:
    • можливість відділення даних від програм та представлення;
    • формати;
    • кодування;
    • інше.
  • Відкритість ресурсу (відкритий або з обмеженим доступом).
  • Ступінь структурованості інформації.
  • Спосіб розповсюдження і носій.
  • Мова ресурсу.

До характеристик інформаційних ресурсів належать наступні показники:

  • Характеристика продуктивності:
    • Пропускна спроможність;
    • Час відгуку;
    • Час затримки.
  • Характеристика вартості (вимірюється за вартістю використаних про створенні програмних засобів та вартістю закладеної в нього інформації);
  • Характер інформації, яка зберігається:
    • фактографічний (картотеки);
    • документальний (архіви).
  • Спосіб зберігання даних:
    • централізовані (зберігаються на одному комп’ютері);
    • розподілені (використовуються в локальних і глобальних комп’ютерних мережах)
  • Структура організації даних:
    • ієрархічна;
    • таблична (реляційна);
    • об’єктна.

Процедура відбору документів[ред. | ред. код]

Відбір документів може здійснюватись [5]:

  • Ручна індексація (Manual Indexing);
  • Автоматична індексація (Automatic Indexing)
  • Процес «нормалізації»(Item Normalization)
  • Перевернуті файлові структури (Inverted File Structures)

Пошук інформації характеризується ієрархічністю, тобто пошук ведеться у результатах попереднього пошуку. В таких випадках збереження проміжних результатів пошуку дає змогу здійснювати пошук швидше. Таким чином можна не починати пошук спочатку. Однак такий підхід складно застосувати у деяких пошукових системах, так як він вимагає додаткових ресурсів. Тому досить часто ієрархічний пошук реалізується простим додаванням нової умови до попередніх (Наприклад, у пошуковій системі Google). Використання індексації, класифікації та тегування вимагає первинної обробки інформації. Така обробка включає аналіз інформації з метою її класифікації. Таким чином неструктуровану інформацію можна певним чином структурувати. Аналіз документів може проводитись за змістом або за діями користувачів. Аналіз за діями користувачів дозволяє з’ясувати, наскільки документ відповідає визначеним для нього ключовим словам чи класам. Прикладом може бути індексація вебресурсів роботами пошукових систем. Такі роботи оцінюють релевантність сторінок. Для фільтрування небажаних сторінок можна використовувати сервіси, які дозволять користувач(к)ам відмічати такі сторінки, так що в подальшому вони не будуть включатися в пошук.

Оскільки при проведенні контент-аналізу одним з найважливіших кроківє підготовка до вибору та власне вибір джерел даних або документів , що підлягатимуть подальшій обробці та вивченню, то цьому кроку слід приділяти чимало уваги. Для того, аби відібрати потрібні джерела необхідно здійснити два наступні кроки[6]:

  • Крок «очищення»(purification) або «рафінації» документів, який аналізує, яким чином документ, що є представленим в кожній базі даних організовується в термінах з точки зору того, що становить документ та те, яким чином в цьому документі представлена інформація (наприклад, заголовок документу, особа автор(а)ки документу та саме «тіло» документу). Крім того, цей крок передбачає аналіз того, який чином представлена інформація у тексті (графіки, зображення, статистичні матеріали) та чи містить цей документ критичну точку зору на представлену тематику. Рішення про якість та доречність документу приймаєтья в залежності від того, яка частина документу чи інформація буде відібрана для контент-аналізу.
  • Крок «токенізації» (token analysis), який означає процес розбору тексту на слова, фрази, символи або інші значимі елементи, що називаються «токенами». Утворений список «токенів» використовується як вхідні дані для подальшого процесу синтаксичного аналізу (парсингу) або аналізу тексту. Техніка «токенізації» є корисною як в лінгвістичній, так і в комп’ютерній сферах, де вона сприяє утворенню частин для лексичного аналізу.

Процедура «очищення» при відборі документів[ред. | ред. код]

Будь-які HTML-документи складаються з графічних зображень, фотографій, таблиць, графіків, аудіо- та відео-матеріалів, тобто тих речей, що складають візуальні характеристики вебсторінки. Проте, кожна сторінка також містить певний набір тегів, наприклад: <TITLE>, <COMMENT>, <META>, які описують спосіб організації та відображення документу.

Впродовж останніх років, враховуючи гетерогенність вебсторінок, розробники намагаються підлаштувати власні вебсторінки з метою залучення великих комерційних пошукових систем. Після виходу першої публікації USE, так звана «кустарна» домашня індустрія переросла в спеціалізований вид пошукової оптимізації – SEO, яка займається розробкою стратегій, з метою покращення позицій сайту (наприклад, кількість «кліків»(відвідувань), що здійснюються на певний сайт).

Тому, у зв’язку з неоднорідністю процесів обробки HTML-документів при обробці таких сторінок необхідно приймати рішення щодо того, яким чином обробляти наступні не-текстові елементи:

  • <COMMENT> теги, що дозволяють розробни(ку)ці залишати приховані інструкції або нагадування щодо сторінки.
  • <ALLTEXT> певний атрибут, що дозволяє розробни(ку)ці забезпечити текстовий опис певного зображення у випадку, коли користувач(ка) встановив(ла) лише текстову частину.
  • Уніфіковані локатори ресурсів (URLs),які зазвичай визначаються в рамках <HREF> тегів.
  • <FRAME> певна властивість, що контролює компонування та появу скоординованих вебсторінок.
  • <META> теги, що не є частиною загального наповнення, проте використовуються для опису самого змісту сторінки. Описові теги <META>та словосполучення <META>надають розробнику(ці) можливості надавати більш точні та конкретні знання про зміст сторінки.

В минулому, деякі веброзробники(ці) свідомо уникали вживання певних не-текстуальних елементів, задля уникнення проблем чи зміщень, що асоціювались з послідовним поверненням списку документів (наприклад, елемент <META>). Такий крок застосовувався для протистояння тим розробникам, які могли б перезавантажувати власні теги <META>, з метою викривлення пошукових результатів при їхньому бажанні. Це призвело до того, що провідні пошукові системи змінили бачення тих елементів, що мають або не мають підлягати індексації. Ті ж самі процеси відбувались щодо використання елементів <FRAME> та <ALLTEXT>.

Текстове форматування[ред. | ред. код]

Проміжною ланкою між кроками «очищення» та «токенізації» документу є перевірка кожного документу на відповідність формату ASCII – текстовому формату, доступному для редагування або схожому формату. Проте, слід пам'ятати, що деякі документи додаються до колекції через оптичне розпізнавання тексту (OCR). OCR – це механічне або електронне переведення зображень рукописного, машинописного або друкованого тексту в послідовність кодів, що використовуються для представлення в текстовому редакторі [7]. Крім того, розробники пошукових систем мають передбачити те, яким чином вони збираються здійснювати індексацію текстової частини. Найпопулярнішим процесом для цього є пункт нормалізації, який, як правило, виконується після обрання тексту для індексації.

Процес нормалізації передбачає процес очистки або «подрібнення» слів перед їхнім поміщенням в будь-який інвертований файл структури.

Перший крок в будь-якій інтегрованій системі полягає в нормалізації вхідних даних до стандартизованого формату. «Пункт нормалізації» забезпечує можливість логічної реструктуризації вхідних даних. Додаткові операції під час процесу нормалізації є необхідними для створення пошукової структури даних: ідентифікації обробки токенів (наприклад, слова), опису токенів (лексем) та їх очищення (наприклад, видалення закінчень слів). Загалом, процес обробки токенів та їхніх характеристик дає змогу до визначення шуканого тексту від загальної кількості отриманого тексту

— Kowalski, Michael Berry and Murray Browne, Understanding Search Engines Mathematical Modeling and Text, p. 19

[8]

Перевірка валідності (достовірності)[ред. | ред. код]

Процес виробництва валідних HTML-файлів не є одноразовим та простим. Відсутність послідовного тегування та нестандартного програмного забезпечення для HTML-сторінок приводить до появи помилкових вебсторінок, які можуть одночасно підлягати процедурі парсингу та бути невалідними. Існують онлайн-сервіси для перевірки валідності вебсторінок, наприклад, сторінка MarkupValidationService, яка була розроблена W3C HTML ValidationService [Архівовано 22 лютого 2011 у Wayback Machine.]. Крім того, аби визначити або уточнити, яка саме версія HTML використовується на певній вебсторінці існує також Відкритий Формальний Ідентифікатор FormalPublicIdentifier (FPI). Відкритий Формальний Ідентифікатор це невеликий шматок спеціально відформатованого тексту, який може використовуватись для однозначної ідентифікації продукту або документу.

Ручна індексація[ред. | ред. код]

Ручна індексація або індексація, здійснена індивідом, часто сприймається як така, що вимагає великої кількості часу, незручних умов праці, великих часових затрат та часто стає предметом для жартів. До того ж, стрімке збільшення кількості вебсторінок такий спосіб збору документів або джерел стає все менш актуальним. Проте, невеликі вебкаталоги, що спеціалізуються на конкретних визначених темах все ще звертаються до такого способу збору даних. Людське втручання дає змогу до отримання більш релевантних результатів та зниження ймовірності отримання результатів, вилучених з загального контексту. Прикладами застосування ручної індексації є: бібліографічні каталоги, каталоги невеликих фірм.

Відбір документів у періодичних та неперіодичних друкованих джерелах[9][ред. | ред. код]

З початку 20 ст. друковані засоби масової інформації почали вважатись різновидами документів. Друковані періодичні видання, до яких належать газети та журнали, створюються шляхом журналістської діяльності, в основі якої міститься записування інформації про факти та події сучасного соціуму. Згодом результати цієї діяльності фіксуються, закріплюються на паперовому носієві, розмножуються друкарським способом, розповсюджуються у просторі, передусім на території України та зберігаються у часі (у бібліотечних та архівних фондах).

Окрім обов’язкового закріплення на матеріальному носієві друковані джерела мають наступні характеристики:

  • Періодичність виходу (щоденні, щотижневі);
  • Читацьке призначення ( масовий(а) читач(ка) або спеціаліст(ка));
  • Розповсюдженість (загальнонаціональні, центральні, регіональні, місцеві, корпоративні);
  • Тематика (урядова офіційна, комерційно-рекламна, літературно-художня, юридична, медична, педагогічна, спортивна, гумористична, релігійна, військова, політична та інші);
  • Вид комунікації (вербальна та візуальна комунікація або їх поєднання).

До властивостей друкованих джерел інформації належать наступні якості:

  • Номер (випуск) джерела;
  • Наявність тиражу (незалежно від способу тиражування);
  • Дата виходу;
  • Обсяг;
  • Формат.

Таким чином, при проведенні контент-аналітичного дослідження необхідно враховувати вищеперераховані характеристики та особливості друкованих документів та джерел.

При створенні вибіркової сукупності, що підлягатиме подальшому дослідженню, необхідно здійснити такі кроки, як[10]:

  • Формування теми/мети/об'єкту та предмету дослідження;
  • Відбір певної кількості джерел відповідно до мети та проблематики дослідження;
  • Виділення елементу вибірки/ категорій аналізу/ одиниць аналізу/одиниць підрахунку;
  • Створення вибірки.

Специфіка відбору в мережі Інтернет. Інтелектуальний пошук[ред. | ред. код]

Особливими характеристиками онлайн-документів є[11]:

  • Споживання інформації у режимі «реального» часу;
  • Легкий доступ до архівних матеріалів онлайн-документів;
  • Більший динамізм;
  • Переважання текстової форми представлення інформації мережевими засобами

У контексті інформаційного пошуку в комп’ютерних мережах, що здійснюється Інформаційно -пошуковими Системами (ІПС), розрізняють такі його види:

  • повнотекстовий — перегляд усього вмісту документа
  • пошук за мета-даними —пошук за атрибутами документа, що підтримується системою (його назвою, автором, датою створення, розміром тощо)

Для здійснення інформаційного пошуку необхідно обрати відповідну стратегію (модель). Серед найактуальніших нині:

  • векторна модель (vectorspacemodel);
  • імовірнісний пошук (probabilisticretrieval);
  • мовні моделі (languagemodels);
  • мережа припущень, яка використовується для встановлення відповідності документу до пошукового запиту (inference network);
  • Булеве індексування (Boolean indexing) (при якому кожному пошуковому терміну присвоюється своя «вага», що потім враховується при побудові впорядкованих списків документів);
  • латентне семантичне індексування (latent semantic indexing);
  • нейромережі (neural networks);
  • продуктивні алгоритми (genetic algorithms), коли початковий пошуковий запит «еволюційно» видозмінюється.

Найпопулярнішими серед згаданих моделей є векторна та булева.

Векторна передбачає пошук системою за принципом наявності у релевантному документі всіх термінів запиту і використовується під час обробки запитів природною мовою, зокрема на пошукових серверах. Булева модель набула широкого застосування, оскільки дозволяє встановлювати певні контекстні обмеження шляхом уведення логічних операторів до інформаційного запиту, і таким чином, звужувати, чи розширювати межі пошуку, включати чи не включати окремі параметри, шукати окремі слова чи цілу фразу тощо. Базуючись на згаданих нами вище етапах, пошук інформації в Інтернеті проходить через такі рівні:

  1. Визначення (уточнення) інформаційної потреби, постановка пошукової проблеми, конкретизація зони пошуку, виділення ключових слів, які характеризують сферу інтересу.
  2. Формування і відправлення запиту на пошукову машину, складеного з ключових слів, який машина засобами інформаційно-пошукової мови перетворює на інформаційний припис.
  3. Отримання користувачем від пошукового серверу списку посилань вебсторінок, на яких виявлені або знайдені потрібні слова або словосполучення з коротким описом кожної з них і з невеликим фрагментом сторінки, де вони були знайдені.
  4. Перегляд відповідних вебсторінок. На цьому етапі користувач заходить за кожним посиланням на ті сторінки, які «обіцяють» надати потрібну інформацію.
  5. Оцінювання отриманих результатів, збереження знайденого матеріалу на комп’ютері або на іншому носії.

При здійсненні пошуку інформації в ІПС слід ураховувати такі фактори, як відповідальний підхід до вибору ключових слів, під якими розуміють найбільш істотні для характеристики змісту документа слова, словосполучення і числові величини, а також власні імена, хронологічні дані та ін. У формуванні інформаційного запиту необхідно обирати такі ключові слова, котрі конкретизували б пошук та максимально унеможливлювали знаходження не релевантних документів, що нерідко трапляється в силу багатозначності або вживання невідповідного ситуації синоніма. Таким чином, користувач(ка) має змогу вказати мову документів, їхнє географічне походження, дату публікації, а також, яка інформація йому потрібна (текстова, аудіальна чи аудіовізуальна) тощо. Точності результатів пошуку сприяє об’єднання, в разі потреби, цілої фрази-запиту лапками «», врахування «стоп слів», що виключаються машиною з пошуку з метою його пришвидшення, використання логічних операторів у формуванні інформаційного запиту, і не зосереджуватися на відвідуванні однієї і тієї ж ІПС, а використовувати різні джерела інформації.

Переваги використання сучасних ІПС полягають у швидкості пошуку та подачі інформації, її великої кількості, що значно перевищує будь-яке традиційне сховище документів, зокрема, бібліотеку. Недоліки в роботі таких систем:

  1. Складність ефективного пошуку документів за особистостями й організаціями
  2. ІПС, переважно, шукають документи за словами, які містяться в них, а не інформацію, яка пов’язана із предметом пошуку. У процесі індексування документу, тобто перекладу його змісту з природної мови на інформаційно-пошукову, ІПС зберігає інформацію про розташування слів у документі, при цьому нічого не знає і не вказує на значення цих слів та їхні взаємозв’язки.

Ефективність інформаційного пошуку та інформаційно-пошукових систем визначають за допомогою спеціальних показників, які характеризують знаходження релевантних документів. Вони підрозділяються на:

  1. Семантичні (точність та повнота пошуку, коефіцієнт інформаційного шуму, коефіцієнт втрат тощо)
  2. Техніко- економічні (оперативність пошуку, вартість та трудоємність пошуку).

Важливим етапом інформаційного пошуку в Інтернеті є оцінювання його результатів користувачем. У процесі аналізу отриманої інформації, її необхідно оцінити з огляду на важливість та можливість подальшого використання, інтерпретувати, визначити, чи потрібна додаткова інформація, уточнити, яка саме (якщо потрібна), ефективно використати.

Література[ред. | ред. код]

  1. Артамонова М. Системні характеристики онлайнових та офлайнових ЗМІ. Вісник СумДУ, Серія «Філологія», №1’. – 2008. – с. 188
  2. Клименко А. Інформація та інформаційний пошук у педагогічній діяльності викладача школ. - с. 413-415
  3. Костенко Н., Іванов В. Досвід контент-аналізу: моделі та практики: Монографія. – К.: Центр вільної преси, 2003. –21-22 с.
  4. Левицька М. Документ, документальне джерело та друковані засоби масової інформації: до розв'язання головного завдання теоретичного документознавства. Українська академія друкарства. №1 (23). – 2013. – с. 104
  5. Маслянко П., Ліссов П. Інформаційні ресурси та засоби їх створення. Стаття. – с. 1-5
  6. Маслянко П. , Ліссов П. Проблеми і технології продукування інформаційних ресурсів // Всеукраїнська науково-практична конференція «Сучасні тенденції розвитку інформаційних технологій у науці, освіті, економіці», Луганськ, 11-14 грудня 2006
  7. Согорін А. Особливості використання контент- аналізу для дослідження реклами в друкованих засобах ма- сової інформації. – Стаття. 2005 с. 136
  8. Фридланд А., Ханамирова Л. Интеграция технического и гуманитарногоподходов к информации и информационным процессам. Вестник пермского государственного гуманитарно-педагогического университета. Серия: Информационные компьютерные технологии в образовании. Выпуск №2. – 2006. – с. 149-152
  9. Berry M., Browne M. Understanding Search Engines Mathematical Modeling and Text Retrieval. – 2005. – p. 13-20

Примітки[ред. | ред. код]

  1. а б Костенко Н., Іванов В. Досвід контент-аналізу: моделі та практики: Монографія. – К.: Центр вільної преси, 2003. c. –21
  2. Фрилланд А., Ханамирова Л. Интеграция технического и гуманитарногоподходов к информации и информационным процессам. Вестник пермского государственного гуманитарно-педагогического университета. Серия: Информационные компьютерные технологии в образовании. Выпуск №2. – 2006. – с. 149
  3. Костенко Н., Іванов В. Досвід контент-аналізу: моделі та практики: Монографія. – К.: Центр вільної преси, 2003. – c. 22
  4. Маслянко П. , Ліссов П. Проблеми і технології продукування інформаційних ресурсів // Всеукраїнська науково-практична конференція «Сучасні тенденції розвитку інформаційних технологій у науці, освіті, економіці», Луганськ, 11-14 грудня 2006
  5. Berry M., Browne M. Understanding Search Engines Mathematical Modeling and Text Retrieval. – 2005. – p. 15
  6. Berry M., Browne M. Understanding Search Engines Mathematical Modeling and Text Retrieval. – 2005. – p. 18
  7. Клименко А. Інформація та інформаційний пошук у педагогічній діяльності викладача школ. - с. 413
  8. Berry M., Browne M. Understanding Search Engines Mathematical Modeling and Text Retrieval. – 2005. – p. 19
  9. Левицька М. Документ, документальне джерело та друковані засоби масової інформації: до розвязання головного завдання теоретичного документознавства. Українська академія друкарства. №1 (23). – 2013. – с. 104
  10. Согорін А. Особливості використання контент- аналізу для дослідження реклами в друкованих засобах масової інформації. – Стаття. 2005 с. 136
  11. Артамонова М. Системні характеристики онлайнових та офлайнових ЗМІ. Вісник СумДУ, Серія «Філологія», №1’. – 2008. – с. 188