Індексування

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Індексува́ння — присвоєння документу набору ключових слів або кодів, які слугують вказівником змісту документа і використовуються для його пошуку. Слід не плутати поняття «індексування» та "індексацію, оскільки ці поняття різні. Індексування — процес перекладу змісту документів із природної мови на штучну інформаційно-пошукову мову (ІПМ), в результаті чого створюється пошуковий образ документа (ПОД) і пошуковий образ запиту (ПОЗ). У такий спосіб відбувається згортання інформації, що знаходиться в документі, і перетворення її на ІПМ у вигляді індексу, рубрики,коду (класифікаційною мовою) або дескриптора, ключового слова (дескрипторною мовою)[1].

Індексацією називається система і сукупність позначень, прийнята для документної класифікації. Вона виконує кілька основних функцій: закріплює логічну структуру класифікації, виступає засобом зв'язку між діленнями таблиць, рубриками АПП, відділами на книжкових полицях при систематичній розстановці, засобом запису результатів систематизації в бібліографічних записах, у самих виданнях тощо[2].

Поняття та суть індексування документів[ред. | ред. код]

Індексування — це процес вираження змісту документа або запиту на інформаційно-пошуковій мові. Він являє собою не опис документа як фізичного об'єкта (створення бібліографічного опису, визначення виду, носія інформації тощо), а є його інтелектуальним аналізом, тобто розкриває його зміст за допомогою систем класифікації, тезаурусів, словників предметних рубрик, авторитетних файлів[3]. Суть індексування полягає в тому, щоб передати зміст документів, а в разі необхідності й деякі формальні ознаки у вигляді коротких закодованих повідомлень, так званих пошукових образів документів (ПОД). Наявність ПОД забезпечує подальший пошук документів завдяки зіставленню ПОД із пошуковим приписом. Це завдання присвоєння документам (їх копіям, графічним образам, електронним файлам документів), що дозволяють швидко класифікувати, сортувати та шукати інформацію в архіві, що міститься в документах, в архіві без перегляду самого документа. Найпростішою формою індексування є картотека у звичайній бібліотеці, яка дозволяє знайти потрібну книгу без фізичного доступу до самого носія[4].

Способи індексування[ред. | ред. код]

Відомі два способи індексування:

  • вільне — це коли безпосередньо із змісту документа виокремлюють ключові слова без врахування всіх видозмін їхніх форм і відношень між ними;
  • контрольоване — це коли в пошуковий образ документа включаються лише ті слова, які зафіксовано в словнику ключових слів, в якому вказано їхні синонімічні, родо-видові та асоціативні відношення[5].

Пошуковий образ як результат індексування[ред. | ред. код]

Результатом індексування документа є його пошуковий образ (ПОД), що виражає основний зміст документа, тобто, який являє собою набір індексів (лексичних одиниць) ІПМ, що відповідають основним предметам і аспектам змісту документа[6].

Інформаційно-пошукова мова(ІПМ) та вимоги до неї[ред. | ред. код]

Сьогодні існує багато інформаційно-пошукових мов (ІПМ), що різняться за своїм призначенням та принципами побудови. Інформаційно-пошукові мови, що базуються на різноманітних класифікаціях — це ІПМ класифікаційного типу. Вони призначені для індексування документів та інформаційних запитів на основі індексів класифікаційних систем — ББК, УДК, ДКД, ГРНТІ тощо. Для того, щоб якісно здійснити процес індексування, необхідно зрозуміти сутність ІПМ. Індексування здійснюється на основі інформаційно-пошукових мов. ІПМ є основним елементом логіко-семантичного апарата інформаційно-пошукових систем (ІПС). Інформаційно-пошукова мова (ІПМ) — це спеціалізована штучна мова, призначена для передачі змісту і формальних ознак документів, а також інформаційних запитів пошуку потрібних документів. Необхідність створення штучної мови для виразу смислового змісту інформації з метою її пошуку обумовлена тим, що природна мова, тобто мова, за допомогою якої ми спілкуємось, має такі властивості, котрі заперечують її використання для запису та пошуку інформації. До таких властивостей головним чином відноситься неоднозначність та багатозначність термінів природної мови. Труднощі використання природної мови, як ІПМ, обумовлені ще тим, що в ІПС використовуються як вхідні документи не повні тексти, а реферати, анотації, бібліографічні описи, котрі є результатом згортання змісту документів[7].

Вимоги до ІПМ:

  1. Однозначність (тобто, кожен запис ІПМ повинен мати тільки одне змістовне значення, пояснення, однакову форму запису засобами ІПМ);
  2. Достатня семантична сила (тобто, здатність відображати з необхідною повнотою та точністю смисловий зміст документів та запитів визначеної предметної області);
  3. Відкритість (тобто, забезпечення можливості корегувати мову)[8].

Види індексування документів[ред. | ред. код]

Залежно від ІПМ, яка використовується в тому чи іншому пошуковому масиві, документи підлягають обробці за такими видами індексування:

Систематизація — це впорядкування набору інформації (зібраної, обробленої та проаналізованої) за певною структурою. Процес систематизації результатів наукового економічного дослідження полягає у приведенні зібраних і опрацьованих (проаналізованих) даних в послідовний науково-аргументований виклад. Існують такі види систематизації: кодифікація, інкорпорація і консолідація.

Кодифікація — спосіб удосконалення, систематизації нормативних актів, законодавства. Під час кодифікації проводиться: — змістова переробка (усунення розбіжностей і суперечностей, скасування застарілих норм) пов'язаної спільним предметом регулювання, групи юридичних норм та об'єднання їх в єдиному нормативно-правовому акті. Кодифікованими документами вважаються кодекси, статути, положення. В результаті кодифікації видається єдиний, логічно і юридично цільний, нормативно-правовий акт. Кодифікація зазвичай має офіційний характер і проводитися правотворчим органом.

Інкорпорація — це найпростіша форма впорядкування нормативно-правових актів, яка полягає в об'єднанні групи чинних нормативно-правових актів в одному збірнику за певним критерієм (хронологічним, тематичним тощо) без зміни їхнього змісту[6].

Систематизація забезпечує розмежування та подальше об'єднання не окремих предметів, як це відбувається при класифікації, а їх груп і класів.

Предметизація — це визначення предметної рубрики, яка відповідає змісту, формі та призначенню документа. Предметизаційна мова призначена для індексування документів та інформаційних запитів за допомогою предметних рубрик. В основу предметизаційної мови покладено алфавітний перелік предметних рубрик, що представляють уніфіковані короткі формулювання теми природною мовою[9]. Одним із найважливіших процесів індексування є предметизація документів. Він традиційно складається з декількох операцій:

  • аналіз змісту і форми документа з метою визначення предмету, аспектів його розгляду і виявлення зв'язку між ними;
  • визначення основних змістовних термінів, представлених в тексті, і формулювання з них рубрик, що відображають виявлені зв'язки;
  • уніфікація формулювання рубрик за допомогою словників предметних рубрик;
  • редагування рубрик, тобто перевірка їх відповідності правилам предметизації та нормативним документам, що прийняті бібліотекою або корпорацією[8].

Координатне індексування — це індексування, що передбачає багато аспектне висловлювання основного смислового змісту інформаційного запиту безліччю ключових слів або дескрипторів. Для координатного індексування важливо уміння знаходити інформативне слово — слово або словосполучення в тексті документу або запиту, що несуть істотне смислове навантаження. Ключове слово — інформативне слово, приведене до стандартної лексичної форми і використане для координатного індексування. Дескриптор — лексична одиниця, виражена інформативним словом або кодом і є ім'ям класу синонімічних або близьких за змістом ключових слів. Дескрипторна мова служить для координатного, або як його ще називають, «вільного» індексування документів та запитів за допомогою дескрипторів або ключових слів. В основі дескрипторних ІПМ лежить алфавітний перелік лексичних одиниць. Вони дозволяють досить детально та багатоаспектно розкривати зміст документів. Дескриптори та ключові слова легко доповнюються, поновлюються, оскільки в алфавітний перелік можна включити будь-яку лексичну одиницю, необхідну для індексування. Крім того в автоматизовану технологію широко ввійшли до вжитку мова бібліографічного опису, об'єктноознакові та фактографічні пошукові мови. У практиці бібліотек використовується два методи координатного індексування документів:

  • вільне індексування, яке передбачає заміну, при необхідності, інформативних слів тексту відповідно до рекомендацій спеціального словника;
  • контрольоване індексування — інформативні слова тексту заміняються дескрипторами, приведеними у визначеному інформаційно-пошуковому тезаурусі або дескрипторному словнику.

Вільне індексування по зручності використання і доступності перевершує індексування з контролем лексики. Але автоматизація процесів обробки, пошуку документів. більше орієнтована на роботу зі строго формалізованою інформацією, де всі пошукові ознаки і поняття представляються в однаковій формі. Об'єктами індексування в бібліотеках можуть виступати різні види документів. Об'єкт індексування встановлюється на етапі складання бібліографічного запису (БЗ) документу, що дозволяє його ідентифікувати, розкрити його склад і зміст з метою його бібліографічного пошуку. Відповідно до вимог стандартів у методику координатного індексування входять наступні взаємозалежні етапи:

  1. Аналіз і визначення змісту документа як об'єкта індексування;
  2. Виявлення і добір смислових понять природною мовою;
  3. Вибір термінів індексування для позначення смислових понять з урахуванням специфіки бібліотеки, інформаційних потреб читачів;
  4. Формування пошукового образу документа[10].

Методика індексування документів[ред. | ред. код]

Правила Процес індексування включає наступні правила:

  • повно і точно передавати зміст документа;
  • ключові слова повинні відображати зміст по тексту, розділам, передмові, анотації документа.

Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду «комплектування — програмне забезпечення — індексування інформації — процес проведення пошуку».

Для індексування документів застосовуються поля «Номери, індекси, коди», поля приміток та поля предметного доступу. Кожний документ розглядається з таких аспектів:

  1. Тема (основна рубрика);
  2. Персоналія (організація, захід, уніфікована назва);
  3. Територія (географічні назва, географічні підрозділи);
  4. Хронологія (хронологічний період);
  5. Професія.

Також визначаються:

  1. Читацьке призначення. Без чіткого читацького призначення рекомендаційний покажчик не може бути повноцінним. Від такого призначення залежить відбір літератури для покажчика, методи її рекомендації.
  2. Жанр[3].

Процес індексування можна представити у вигляді наступних операцій. Переглядаючи документ, визначають його основну тему, а також порушені в ньому другорядні питання, що можуть становити інтерес для конкретної групи користувачів. Потім складається уявна анотація на документ, яка включає ключові слова, що характеризують його зміст. Далі ключові слова замінюються лексичними одиницями інформаційно-пошукових мов (ІПМ): класифікаційними індексами та предметними рубриками. У результаті ми отримуємо образ документа інформаційно-пошуковою мовою[2].

Показники якості індексування[ред. | ред. код]

Якість індексування визначається двома показниками:

  1. глибиною;
  2. детальністю.

Глибина індексування характеризує повноту розкриття змісту документа в привласненому йому пошуковому виді. Глибину індексування можна приблизно оцінити числом слів ІПМ, включених індикатором до пошукового образу. Детальне індексування характеризує точне відображення змісту документа в пошуковому виді. Точність відображення визначається смисловою близькістю ключових слів, включених до уявної анотації, слів ІПН, що утворили пошуковий образ[1].

Примітки[ред. | ред. код]

  1. а б Власова Г. В. Індексування як процес аналітико-синтетичної переробки Інформації [Текст] : навч.посіб. / Г. В. Власова. — К., 2006. — С. 172.
  2. а б Сукиасян Э. Р. Школа индексирования [Текст]: практ. пособие. / Э. Р. Сукиасян. — М., 2005. — 143 с.
  3. а б Кушнаренко Н. М., Удалова В. А. Наукова обробка документів [Текст] : підручник. — 4-те вид. перероб. і доп. — К. : Знання, 2006. —334с.
  4. Кушнаренко Н. М Наукова обробка документів [Текст] : Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.
  5. Кушнаренко Н. Н. Документоведение [Текст] : Учебник / Наталия Николаевна Кушнаренко. — 7-е изд., стер. — К.: Знання, 2006. — 459 с.
  6. а б Зупарова Л. Б Аналитико-синтетическая переработка информации [Текст] / Л. Б. Зупарова, Т. А. Зайцева; под ред. Ю. Н. Столярова. — М.:ФАИР, 2007. — 400 с. — ISBN 978-5-8183-1248-4.
  7. Автоматизовані інформаційно-пошукові мови [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://ubooks.com.ua/books/00092/inx13.php [Архівовано 3 грудня 2013 у Wayback Machine.]
  8. а б Пошукові системи [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chaynikam.info/ukr/poiskovie_systemi.html [Архівовано 1 травня 2012 у Wayback Machine.]
  9. Предметизація документів [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chl.kiev.ua/default.aspx?id=5782 [Архівовано 3 грудня 2013 у Wayback Machine.]
  10. Сукиасян Э. Р. Координатное индексирование : выбор терминов индексирования и формирование поискового образа документа[Текст] / Э. Р. Сукиасян // Библиотека. — 2005. — № 3. — С. 42.

Література[ред. | ред. код]

  1. Власова Г. В. Індексування як процес аналітико-синтетичної переробки Інформації [Текст] : навч.посіб. / Г. В. Власова. — К.,

2006. — С. 172.

  1. Сукиасян Э. Р. Школа индексирования [Текст]: практ. пособие. / Э. Р. Сукиасян. — М., 2005. — 143 с.
  2. Сукиасян Э. Р. Координатное индексирование : выбор терминов индексирования и формирование поискового образа документа[Текст] / Э. Р. Сукиасян // Библиотека. — 2005. — № 3. — С. 42.
  3. Кушнаренко Н. М., Удалова В. А. Наукова обробка документів [Текст] : підручник. — 4-те вид. перероб. і доп. — К. : Знання, 2006. —334с.
  4. Кушнаренко Н. М Наукова обробка документів [Текст] : Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.
  5. Кушнаренко Н. Н. Документоведение [Текст] : Учебник / Наталия Николаевна Кушнаренко. — 7-е изд., стер. — К.: Знання, 2006. — 459 с.
  6. Зупарова Л. Б Аналитико-синтетическая переработка информации [Текст] / Л. Б. Зупарова, Т. А. Зайцева; под ред. Ю. Н. Столярова. — М.:ФАИР, 2007. — 400 с. — ISBN 978-5-8183-1248-4.
  7. Предметизація документів [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chl.kiev.ua/default.aspx?id=5782 [Архівовано 3 грудня 2013 у Wayback Machine.]
  8. Автоматизовані інформаційно-пошукові мови [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://ubooks.com.ua/books/00092/inx13.php [Архівовано 3 грудня 2013 у Wayback Machine.]
  9. Пошукові системи [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chaynikam.info/ukr/poiskovie_systemi.html [Архівовано 1 травня 2012 у Wayback Machine.]