Інформаційно-пошукова мова

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Інформаці́йно-пошуко́ва мо́ва (ІПМ) — штучна мова, призначена для вираження семантичних аспектів інформаційних джерел (частіше всього, документів) і запитів у формі, придатній для здійснення пошуку інформації. За своїми знаковими системами та правилами синтаксису ІПМ різняться [1].

Загальна характеристика інформаційно-пошукової мови[ред.ред. код]

Процес пошуку інформації передбачає взаємодію у режимі «запит — відповідь» користувача та інформаційно-пошукової системи через посередництво заздалегідь узгодженої ІПМ. Таким чином, передумовами для проведення інформаційного пошуку є:

а) попереднє індексування інформаційного масиву, тобто створення пошукового образу кожного інформаційного джерела в масиві;

б) переклад інформаційного запиту користувача визначеною ІПМ.

Формалізація лексики і створення різних ІПМ викликано необхідністю усунення "надмірності" і "недостатності" природної мови для цілей інформаційного пошуку. Як і в природних мовах,в інформаційно-пошукових мовах використовується лексика, тобто свій словниковий склад. Лексичні одиниці (слова) ІПМ можуть бути простими (елементарними) або складними, тобто ІПМ може мати або не мати свої кошти словотворення. Основними елементами ІПМ є алфавіт, лексика і граматика. Алфавіт ІПМ - система знаків, що використовуються для запису слів і виразів ІПМ [2].

Призначення інформаційно-пошукової мови[ред.ред. код]

Метою будь-якої ІПМ є надання користувачеві можливості пошуку інформації за відомими даними, або необхідною йому тематикою, вираженою спеціальними запитами. Процес складання запиту допускає багатоваріантність і є свого роду мистецтвом. Крім того, процедура пошуку має чітко визначену етапність: від визначення інформаційної потреби та області пошуку до аналізу результатів та вибору пертинентних об’єктів.

На першому етапі визначається мета пошуку, його стратегія та область проведення (каталоги, бази даних). Наступна, оперативна частина пошукової процедури – це багатоваріантність підходів та рішень при формалізації запитів у процесі їх відпрацювання.
Подальший етап - робота з документами, отриманими списком релевантних документів. Від вірного вибору переліку документів-першоджерел залежить результат роботи всіх трьох етапів пошукової процедури. У процесі пошуку необхідних документів ми орієнтуємось не на повні тексти документів, а на дані, що дозволяють отримати уявлення про їх зміст. Це можуть бути класифікаційні індекси, перелік бібліографічних даних, тематичні рубрики тощо. При переході від документа до його скороченого опису з метою використання для подальшого пошуку, ми ніби перекладаємо зміст документу на інформаційно-пошукову мову, тобто здійснюємо процес індексування інформації.

Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду “комплектування – програмне забезпечення – індексування інформації – процес проведення пошуку” [3] .Опис змісту документа за допомогою ІПМ – це пошуковий образ документу (ПОД), а опис змісту запиту – пошуковий образ запиту (ПОЗ). Саме від вміння правильно їх представити багато в чому залежить якість роботи всієї ІПС. Тому при розробці автоматизованих ІПС велику увагу необхідно приділяти вибору інформаційно-пошукових мов [4].

Нині однією з проблем каталогізування є опис електронних ресурсів, тобто документів на машиночитних носіях, які все активніше запроваджуються в інформаційному просторі. Зараз ця проблема виділилась у спеціалізовану галузь знань, що розвивається досить динамічно. Існує кілька методів та підходів, розробники яких намагаються врахувати всі особливості електронних видань. До низки найбільш значимих міжнародних розробок входять випущене ІФЛА "Международное стандартное библиографическое описание для электронных ресурсов" (International Standard Bibliographic Description for Electronic Resources ISBD(ER) (www.ifla.org/VII/s13/pubs/isbd.htm#1) та проект «Дублинское ядро» (Dublin Core), ініціатором якого є OCLC (www.dublincore.org). Ці розробки демонструють протилежні точки зору на бібліографічний опис ресурсів Мережі. Документ ІФЛА служить для каталогізаторів, забезпечуючи їх інструментарієм для професійного обліку електронних матеріалів.
Проект «Дублінське ядро», напроти, призначений всім авторам сайтів: згідно з концепцією, кожний web-майстер має включати в структуру web-сторінки (область метаданих) визначений набір елементів, за допомогою яких описуються зміст та вихідні дані ресурсу. У Росії в галузі бібліографічного опису електронних видань також проведена значна робота. Своєрідним відображенням міжнародного стандарту ІФЛА став створений Російською державною бібліотекою та «Информрегистром» ГОСТ 7.82—2001 «Библиографическая запись. Библиографическое описание электронных ресурсов: Общие требования и правила составления». Він був прийнятий Міждержавною радою із стандартизації, метрології та сертифікації 22 травня 2001 р. Укладачі фактично взяли за основу ГОСТ 7.1—84 «Библиографическое описание документа. Общие требования и правила составления» і зробили спробу максимально наблизити опис Інтернет-ресурсів до опису традиційних документів, у результаті чого опис електронних видань набув вигляду, близького до бібліографічних записів на друковані видання.

Слід відмітити, що даний стандарт українські бібліотекарі теж не можуть використовувати, оскільки Держстандартом України йому не надано чинності. Натомість бібліотекарі України вивчають і намагаються впровадити у бібліотечну практику практику Дублінський комплект даних. В Україні першою спробою надання інформації про новий стандарт метаданих, який сприяє ефективнішому пошуку інформаційних ресурсів в Інтернет, став матеріал, підготовлений ініціативною групою Української бібліотечної асоціації, представлений на сайті Публічної бібліотеки імені Лесі Українки (http://lucl.lucl.kiev.ua/win/metadata.html#L7). У 1999 році працівниками Кіровоградської обласної наукової бібліотеки розпочато проект “МЕТАДАТА” (http://www.library.kr.ua/dc/), головною метою якого є вивчення стандартів метаданих з наступним використанням на сервері бібліотеки. З початку 2000 р. усі html-сторінки, що публікуються на сайті бібліотеки забезпечуються описом Dublin Core. На сьогоднішній день сайт містить більш ніж 900 html-сторінок з метаданими Dublin Core [5].

Види та структура інформаційно-пошукових мов[ред.ред. код]

По області або по сфері застосування інформаційно-пошукових мов можна виділити:

  • Комунікативні (загальносистемні) ІПМ - призначені для забезпечення взаємодії між різними (інформаційними, бібліотечними та ін.) системами (у тому числі розподіленими по державної, відомчої або територіальної приналежності);
  • Локальні (внутрішні) ІПМ - призначені для використання в рамках окремої системи;
  • Зовнішні ІПМ - використовувані в інших системах і призначені для взаємодії тільки з ними .

Розрізняють мови опису (декларативні мови), які в свою чергу поділяються на мови предкординатні (класифікаційні) і посткординатні(дескрипторні), а також процедурні мови - мови запитів і маніпулювання даними [6].

Інформаційно-пошукові мови поділяються на два основні типи:

  • ІПМ класифікаційного типу

До мов цього типу відносяться ієрархічні, алфавітно-предметні та фасетні класифікації. Наприклад, ББК та УДК.

  • ІПМ дескрипторного типу

Класифікаційні інформаційно-пошукові мови Інформаційно-пошукові каталоги, засновані на класифікації відомостей за певною предметної області, були першими системами інформаційного пошуку документів. Початкові підходи до класифікації тематики документів грунтувалися на формуванні списку предметних аналогів, розташованих в алфавітному порядку. Кожна предметна рубрика отримувала певний цифровий або буквенно-цифровий код. Зміст документа індексувалися перерахуванням кодів тих рубрик, які відображали теми документа. Це перечислювальна класифікація. Особливістю систем перечислювальної класифікації є можливість індексування документів будь-якою кількістю рубрик, що відображають зміст документ. Для здійснення пошуку необхідних документів за класифікатором визначаються коди, що цікавлять користувача рубрик і далі відбираються з сховища ті документи, які проіндексовані відповідними кодами. Відсутність систематизованих зв'язків і відносин між предметними рубриками є основним недоліком перечислювальної класифікації. При систематизованій класифікації список предметних рубриках будується як ієрархічна структура, у вигляді перевернутого дерева. Вся предметна область розбивається на ряд взаємовиключних (не перетинаються) рубрик. Кожна рубрика, у свою чергу, може включати кілька підрубрик. Таким чином, при систематизованій класифікації враховуються вже деякі семантичні основи предметної області, що виражаються в родовидовых відносинах основних категорій, понять і класів.

Зміст документа індексується кодами відповідних рубрик, однак при цьому відпадає необхідність в вказівці загальніших рубрик, до яких відносяться виділені полрубрики. В результаті індексування і пошук документів на основі ієрархічної класифікації дозволяють більш адекватно відображати зміст документів і забезпечують більшу точність пошуку.

Перечислювальний і ієрархічний підходи до класифікації використовуються в алфавітному порядку-предметних каталогах бібліотек. Недоліком як перечислювальної, так і ієрархічної класифікації є принципова неможливість заздалегідь перерахувати всі можливі теми документів [7].

Дескрипторні інформаційно-пошукові мови (ДІПМ) В основі побудови дескрипторних інформаційно-пошукових мов лежить принцип координатного індексування, який передбачає, що основний смисловий зміст документа може бути виражено списком ключових слів. До ключових слів відносяться так звані повнозначні слова - іменник, прикметник, дієслова, прислівники, числівники, займенники. Ключовими словами не можуть бути прийменники, союзи, зв'язки, частинки. Основними елементами ДІПМ є:

  • словник лексичних одиниць;
  • правила застосування ІПМ (граматика), що визначають процедуру перекладу текстів документів і запитів з природної мови на ІПМ;
  • правила побудови ІПМ.

Словники лексичних одиниць діляться на дві групи:

  1. основні лексичні словники, складові лексику ІПМ;
  2. морфологічні словники, що забезпечують морфологічний аналіз і нормалізацію слів.

Як лексичних одиниць основних словників використовуються ключові слова, словосполучення та дескриптори [8]. ''Дескриптор'' - поняття, що означає групу еквівалентних або близьких за змістом ключових слів. Дескриптор - це ім'я класу синонімів.Дескриптори можуть використовувати код, слово або словосполучення [9]. Розробка дескрипторної мови фактично зводиться до розробки інформаційно-пошукового тезауруса (ІПТ). Тезаурус (від грец. «сховище», «скарбниця») у вузькому сенсі являє собою спеціальний словник-довідник, в якому перераховані ключові слова - дескриптори певної предметної області, вказані їхні синоніми, встановлені способи усунення синонімії, омонімії, полісемії, визначені родовидові і асоціативні зв дескрипторів. Найважливішими парадигматическими відносинами ІПТ є:

  • супідрядність;
  • рід-вид;
  • частина-ціле;
  • причина-наслідок;
  • функціональне схожість.

Узагальнена структура ІПТ включає як мінімум три складових: словарну частину, семантичну карту, керівництво по використанню. Словникова частина - алфавітний список дескрипторів з їх словниковими статтями. Семантична мапа - система тематичних класів дескрипторів, представлена у вигляді графічної схеми або таблиці. Керівництво по використанню ІПТ містить правила переказу ключових слів і словосполучень на ІПМ, правила лексикографічного контролю і редагування пошукового образу документа і пошукового образу запиту, а також правила ведення ІПТ. Відзнакою інформаційно-пошукових скарбниць від інформаційно-пошукових каталогів на основі предметної ієрархічної рубрикації є те, що в тезаурусах, крім класифікаційної схеми, присутні самі ключові слова та дескриптори, що об'єднані під назвою класів, рубрик і т. д. В каталогах присутні лише позначення (назви) класів.

Головна ідея інформаційно-пошукових скарбниць полягає в підвищенні ефективності індексування документів в рамках дескриптивного підходу. Однак у процесі індексування враховуються семантичні зв'язки між дескрипторами, що, в кінцевому рахунку, забезпечує більш адекватний змісту документа пошуковий образ і підвищує ефективність пошуку документів.

В даний час відбувається розширення сфер застосування автоматичних скарбниць. При цьому тезауруси виступають складовою частиною сучасних систем підготовки текстів, здійснюючи лінгвістичну підтримку процесу підготовки і обробки текстів природною мовою [10]. Серед найперспективніших напрямків розвитку автоматичних скарбниць можна вказати наступні:

  1. Отримання довідки до речі. Вказавши слово, як ключ для запиту, користувач у відповідь отримує відповідний фрагмент словника, що містить лінгвістичну інформацію про цьому слові. Наприклад, автоматичний тезаурус отримує від користувача деякий іменник і у відповідь видає сукупність стійко поєднуються з ним дієслів або всі найбільш часто супроводжують його визначення. При цьому автоматично виконується процедура нормалізації вхідного слова (тобто приведення іменника до іменного падежу).
  2. Контекстні заміни на вимогу користувачів. В даному випадку тезаурус не тільки підбирає замість одного словосполучення інше, яке користувач визнав відповіднішим контексту за смисловим або стилістичним міркувань, але й автоматично переоформляє параметри слів (наприклад, опис прикметника) відповідно до контексту. Це означає, що синтаксичні операції, що тезаурусом, істотно ускладнюються.
  3. Автоматична оцінка стилю. Якщо слова і словосполучення в тезаурусі забезпечити стилістичними позначками, то він може використовуватися для стилістичної оцінки тексту з виділенням слів і словосполучень, що випадають, із загального стилю документа [11].

Індексування[ред.ред. код]

Процес створення пошукового образу документа для інформаційно-пошукової системи (тобто вираження основного змісту документу в термінах певної ІПМ) називається індексуванням. Існують методи автоматизованого індексування (наприклад, веб-індексування). До методів ручного і напівавтоматизованого індексування відносяться, наприклад, процеси бібліотечної каталогізації: створення бібліографічних описів, систематизація, предметизація тощо [12].

Бібліотечні інформаційно-пошукові мови[ред.ред. код]

Традиційні бібліотечні інформаційно-пошукові системи включають систему каталогів і картотек, бібліографічні покажчики та інші джерела вторинної інформації про бібліотечний фонд. Закономірно, різні інформаційно-пошукові системи мають різні ІПМ (як класифікаційного, так і дескрипторного типу). Так, ІПМ алфавітного каталогу є бібліографічний опис документа. Основною одиницею ІПМ систематичного каталогу є індекс відповідної бібліотечної класифікаційної системи (набір цифр, літер та/або інших символів, які умовно характеризують основні та додаткові ознаки певної галузі знання або проблеми). В середині індексів можливі різні варіанти групування документів. В основному, використовуються два основні варіанти групування: алфавітний або зворотно-хронологічний. ІПМ предметного каталогу складається з предметних рубрик.

Завдяки впровадженню у бібліотечну діяльність інформаційних технологій сфера розробки ІПМ значно розширилася [13].

Див. також[ред.ред. код]

Примітки[ред.ред. код]

  1. Архівістика. Термінологічний словник
  2. ДСТУ 2392-94 Інформація та документація. Базові поняття. Терміни та визначення. — К .:Держстандарт України,1994
  3. Захаров В.П. Информационно-поисковые системы [Текст] / В.П.Захаров.— М: НиТ.,2005 .— 48 с.— ISBN 3-85709-458-3
  4. Михайлов А. И.Основы информатики [Текст] /А.И.Михайлов,А.П.Черный.—М:ФАИР,1968.—515 с.—ISBN 5-73958-155-7
  5. Кушнаренко Н.М. Наукова обробка документів [Текст] /Н.М.Кушнаренко, В.К.Удалова.—К :Знання,2006. — 332с.—ISBN 5-78956-125-9
  6. Симонович С.В.Интернет у вас дома [Текст] /С.В.Симонович, В.И. Мураховский.— М.: АСТ-ПРЕСС, 2008. — 432 с.—ISBN 5-78956-125-9
  7. Лозовский Л.Ш. Интернет – это интересно [Текст] /Л.Ш.Лозовский, Л.А.Ратновский. — М.: ИНФРА, 2007. –—128 с.—ISBN 3-85709-458-3
  8. Лозовский Л.Ш. Интернет – это интересно [Текст] /Л.Ш.Лозовский, Л.А.Ратновский. — М.: ИНФРА, 2007. –—128 с.—ISBN 3-85709-458-3
  9. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных[Текст] / Н.А.Гайдамакин.— М.: Гелиос, 2006.—147 с.— ISBN 1-52635-789-5
  10. Монастырский И.М Информационно-поисковые системы [Текст] /И.М.Монастырский. —М: Экономка,1983.—207с.— ISBN 5-45625-789-5
  11. Храмцов П.И. Информационно-поисковые языки [Текст] /П.И.Храпцов.— М.: Гелиос, 2008.—160 с.—ISBN 5-56895-458-6
  12. Поняття і класифікація інформаційно-пошукових систем
  13. Стаття в БСЭ


Джерела[ред.ред. код]

  1. Архівістика. Термінологічний словник
  2. Поняття і класифікація інформаційно-пошукових систем
  3. Стаття в БСЭ
  4. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных[Текст] / Н.А.Гайдамакин.— М.: Гелиос, 2006.—147 с.— ISBN 1-52635-789-5.
  5. ДСТУ 2392-94 Інформація та документація. Базові поняття. Терміни та визначення. — К .:Держстандарт України,1994.
  6. Егоров А.Б. Поиск в Интернете [Текст] / А. Б. Егоров. — Санкт – Петербург.: НиТ, 2007.—190 с.— ISBN 5-45625-789-5.
  7. Захаров В.П. Информационно-поисковые системы [Текст] / В.П.Захаров.— М: НиТ.,2005 .— 48 с.— ISBN 3-85709-458-3.
  8. Кузьмин А.В.Поиск в Интернете [Текст] /А.В.Кузьмин, Н.Н. Золотарева.— М: НиТ, 2006.—148 с.— ISBN 1-52635-789-5.
  9. Кушнаренко Н.М. Наукова обробка документів [Текст] /Н.М.Кушнаренко, В.К.Удалова.—К :Знання,2006. — 332с.
  10. Лозовский Л.Ш. Интернет – это интересно [Текст] /Л.Ш.Лозовский, Л.А.Ратновский. — М.: ИНФРА, 2007. –—128 с.—ISBN 3-85709-458-3.
  11. Михайлов А. И.Основы информатики [Текст] /А.И.Михайлов,А.П.Черный.—М:ФАИР,1968.—515 с.—ISBN 5-73958-155-7.
  12. Монастырский И.М Информационно-поисковые системы [Текст] /И.М.Монастырский. —М: Экономка,1983.—207с.— ISBN 5-45625-789-5.
  13. Симонович С.В.Интернет у вас дома [Текст] /С.В.Симонович, В.И. Мураховский.— М.: АСТ-ПРЕСС, 2008. — 432 с.—ISBN 5-78956-125-9.