Автоматизоване реферування

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 10:42, 29 вересня 2020, створена Алексей Скрипник (обговорення | внесок) (создал перенаправление)
Перейти до навігації Перейти до пошуку

Автоматизоване реферування або квазіреферування — це виявлення в тексті первинного документа фрагментів, що містять заздалегідь заявлені змістові аспекти. Найвищого розвитку формалізація методів реферування набула з автоматизацією цього виду аналітико-синтетичної обробки документів. Необхідність реферування щораз більших обсягів документів і при цьому зменшення суб'єктивізму в наданні інформації зумовили впровадження в реферування електронних технологій.

Методи автоматизованого реферування

Методи автоматизованого реферування базуються на можливості виявлення в тексті первинного документа фрагментів, що містять заздалегідь заявлені змістові аспекти, і на формуванні з них рефератів-екстрактів. Фрагменти тексту первинного документа вибирають за формальними ознаками, а саме за частотою вживання слів, обраних як змістові критерії. На жаль, таких підхід не завжди гарантує відбір з тексту найважливіших відомостей, тому такі реферати виконують переважно пошукову і комунікативну функції. Щоб відрізнити автоматичні реферати від інтелектуальних, перші часто називають квазірефератами, а процес автоматизованого реферування квазіреферуванням. Методи автоматизованого реферування поділяються на:

  1. статистичні.
  2. позиційні.
  3. індикативні.

Характеристика методів автоматизованого реферування

Суть статистичних методів, що засновані на статистичному аналізі текстів, — це методики російських вчених В. Аграєва, Б. Бородіна та В. Пурто. Перші двоє запропонували методику, згідно з якою вибрані з тексту речення виявляються пов'язаними між собою. Найбільш зв'язаними, а тому такими, що мають бути включені до реферату, вважаються речення, які містять найбільшу кількість однаково значущих слів. В. Пурто розробив метод оцінки та відбору речень за кількістю інформації, яку вони містять. У цьому випадку тексти підлягають статистичному аналізу для виявлення частоти вживання слів. Словами, що найчастіше вживаються у науково-технічній літературі, є терміни. Дослідник стверджує: чим важливіший термін, тим частіше він зустрічається у тексті, а відібрані речення міститимуть максимальну кількість цих термінів. Обсяг одержаного в такий спосіб реферату складає, як правило, не більше трьох речень, незалежно від обсягу первинного документа — полягає у відборі значущих речень відповідно до частоти вживання слів і розташування їх у речені. Відбираючи речення до реферату, для кожного з них визначають значущість або змістову вагу. Чим більше слів, що часто трапляються в одному реченні, тим суттєвішу інформацію воно містить і тому має бути включене до реферату. Різні модифікації цього методу відрізняються підходом до відбору слів, що підлягають статистичному аналізу. Обсяг одержаного в такий спосіб реферату становить, як правило, не більше трьох речень, незалежно від обсягу первинного документа. Простота аналізу тексту першоджерела й однорідність отриманих рефератів забезпечили поширення статистичних методів автоматизованого реферування в багатьох країнах і їхню подальшу оптимізацію. Тобто у разі використання статистичного методу реферування обсяг і якість рефератів повністю залежать від статистичних характеристик тексту, тому речення, що містять найважливішу інформацію (наприклад, висновки у наукових статтях) можуть бути взагалі не виділені та не ввійти до реферату. Проте визначені недоліки певною мірою компенсуються завдяки простоті аналізу й однорідності рефератів, які готуються за допомогою ЕОМ.

Позиційні методи вдосконалюють відбір найбільш значущих речень з текстів первинних документів з використанням складного математичного апарату.. Відбір здійснюється на засадах чотирьох взаємопов'язаних методів: натяку, ключових слів, заголовка, локалізації. Сутність методу натяку полягає у використанні під час відбору речень списку слів, в якому заздалегідь виділено слова з позитивною та негативною змістовою вагою, а також «нульові» (нейтральні) слова. При відборі враховуються тільки слова, що передають позитивну й негативну оцінку.

При використанні методу ключових слів розглядаються слова, відібрані за частотним принципом та за цією ознакою визначені ключовими, що є аналогічним до запропонованого Г. Луном підходу.

У методі заголовка головна роль відводиться словнику термінів, відібраних із заголовка та підзаголовків, які мають більшу «вагу», ніж слова з інших речень тексту. До реферату відбираються речення, де трапляються терміни, котрі наявні у словнику. Метод локалізації ґрунтується на припущенні, що найсуттєвіша інформація концентрується на самому початку або наприкінці певного уривка чи параграфа тексту.

Зіставлення всіх чотирьох методів показало, що метод ключових слів забезпечує повноту відбиття змісту первинного документа на 15-40 %, метод заголовка — на 30-40 %, а спільне використання методів натяку, заголовка та локалізації — на 30-60 %. Подальшого розвитку цей підхід набув під час розробки індикативних методів реферування, порівняно з якими статистичні та позиційні методи відіграють допоміжну роль.

Індикативні методи дають змогу на основі синтаксичного аналізу формалізувати виклад основного змісту первинного документа в рефераті телеграфного стилю. Синтаксичному аналізу може підлягати як увесь текст, так і його окремі фрагменти, що містять типові маркери. Показником для виділення значущих елементів правлять розділові знаки в середині речення. Обсяг одержаних рефератів становить у середньому до 35 % обсягу першоджерела [1, с.270-272].

Методика формалізованого реферування

Названі методи автоматизованого реферування постійно розвиваються й удосконалюються, але розробляють й інші. Так, на початку 80-х років було запропоновано методику формалізованого реферування з використанням маркерів для текстів з електроніки. За цією методикою процес автоматичного реферування зведено до двох основних операцій:

  • власне екстрагування, тобто розпізнання в тексті первинного документа маркірованих речень і подача їх на друкарський пристрій;
  • постредагування, під час якого усувають логічні й змістові зв'язки між фразами.

Позитивною рисою цієї методики вважають можливість робити постредагування не лише для фахівців певної галузі знання, а й для інших осіб, що володіють навичками редагування.

Важливо також, що така методика при певному доопрацюванні дає змогу користувачу самостійно визначити потрібні йому аспекти змісту, здійснюючи так зване індивідуальне реферування, та за потреби одержувати відповідні реферативні огляди первинних документів [2].

Система автоматичного реферування

Розробка і перспективи використання методів автоматизованого реферування тісно пов'язані з проблемами оцінювання якості машинних квазірефератів. Якість їх визначають на основі виявлення текстових збігів у рефератах, які підготувала людина, і автоматичних, а також шляхом порівняння результатів пошуку за текстами інтелектуальних і квазірефератів.

Одним з класичних завдань комп'ютерної лінгвістики є побудова систем автоматичного реферування наукових, технічних, політичних, ділових текстів. Актуальність цього завдання значно зростає у зв'язку з появою на інформаційному ринку повнотекстових баз даних. Ці бази містять у вигляді документів не реферати, а тексти наукових статей. Якщо ж ідеться про іншомовні бази, то треба, очевидно, прагнути до побудови систем, які інтегрують 3 основні функції: пошук, переклад і реферування. Розробка системи автоматичного реферування є можливою на основі експериментально-семантичного дослідження міжфразової структури тексту, з наступною реалізацією ІС, що володіють спроможністю гіперсинтаксичного «розуміння» текстів [3, с. 45-50].

Система квазіреферування

Опрацювання системи автоматичного реферування має чималий практичний інтерес. Це викликано не тільки регулярним збільшенням обсягу документальних потоків, але й таким важливим чинником, як запровадження в дію промислово-орієнтованих автоматизованих систем науково-технічної інформації з автоматичним індексуванням і систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним із ключових процесів аналітично-синтетичної переробки текстів, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справді ефективним тільки в тому випадку, якщо виконуються такі п'ять вимог: — система має формувати реферат із речень вхідного тексту (можливо, з деякими скороченнями за рахунок порівняно малоінформативних сегментів — цитат, відсилок тощо), а не породжувати його на підставі смислового аналізу текстів. Іншими словами, система повинна повністю наслідувати термінологію та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рівень «розуміння» тексту, — системи квазіреферування; — реферати, що формуються системою, мають містити не тільки «сигнальну» інформацію про документ, але й дозволяти прослідкувати хід думок автора, тобто система повинна породжувати саме реферати, а не анотації; — міра скорочення тексту, яка називається звичайно коефіцієнтом редукції і під якою розуміють відношення кількості речень у вхідному тексті до кількості їх у рефераті, має бути достатньо високою (не менше 4-5); — швидкість автоматичного реферування повинна бути значно вищою за швидкість ручного; — система має легко переналагоджуватися на обробку текстів різних мов [4, с. 90-105].

Принципи реалізації системи квазіреферування

Розглянемо принципи, що розроблені під керівництвом автора системи квазіреферування. Отже, на першому етапі реалізації принцип дії системи полягає у формуванні квазіреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЄС ЕОМ включає головну програму й сім процедур. Головна програма виконує такі функції: — читання тексту, що реферується; — розміщення словників в оперативній пам'яті; — аналіз тексту по реченнях: виділення слів, пошук в Ск і перевірку збігу лексичної одиниці, що аналізується, з одним із конекторів; — у разі збігу — звернення до процедур, обчислення значення логічної функції по результатах роботи процедур, прийняття рішення про істиність конектора і визначення типу речення відповідно до типу конектора; — прийняття рішення про включення чи невключення речення до квазіреферату; — друк квазіреферату на принтері. По мірі роботи головної програми формується таблиця речень, що є основним результатом цієї програми. Рядок таблиці відповідає одному реченню. На час звернення до процедури всі рядки, котрі мають відношення до попередніх за порядком слідування реченням, цілком заповнені. Рядок, котрий відноситься до речення, під час аналізу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблиці має таку структуру: — номер речення; — кількість символів у реченні; — тип речення; — автосемантичне чи синсемантичне; — номер речення, з яким дане знаходиться в синтаксичному зв'язку; — номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналізованого слова, початку таблиці речень, початку Ск, початку Св, а також до порядкових номерів речення, аналізованого слова в реченні, першого символу слова відносно початку речення, до зміщення початку запису Ск, до значень параметрів, зазначених в описах Ск. Як бачимо,програмне забезпечення системи не залежить від мови тексту, що обробляється. Для реферування текстів на іншій мові достатньо організувати словник конекторів і допоміжний словник на цій мові. Система реалізована на мові Асемблер під управлінням ДОС і ОС ЄС ЕОМ. Документ надходить до системи у вигляді текстового файлу, в якому допускається виділення за допомогою спеціальних службових символів заголовків документів і окремих його підрозділів, а також елементів бібліографічного опису. Вся виділена таким чином інформація включається системою у квазіреферат [5]. Результатом роботи системи є друкована копія квазіреферату, сформованого з автосемантичних речень тексту з вказівкою їх порядкових номерів у вхідному тексті. Якщо при цьому коефіцієнт редукції вхідного тексту виявляється менше 4, то у квазіреферат не вводяться ізольовані автосемантичні речення: з послідовності автосемантичних речень у квазіреферат вводяться тільки перші. Передбачений також режим, у якому до квазіреферату потрапляють не тільки автосемантичні речення, але й вказівка на тип вилучених синсемантичних. Це дозволить у майбутньому організувати діалог користувача з ЕОМ, запрошуючи у системи субтексти, котрі мають інтерес для абонента.

Джерела

  1. Информационный процесс. Обработка информации [Електронний ресурс]. — Електронні дані. — Media Limited,2012. — Режим доступу: World Wide Web. — URL http://www.bestreferat.ru/referat-73913.html.
  2. Герд A.C. Терминология -унификация или стандартизация [Текст] / А. С. Герд.— М.: ВИНИТИ.— 1984.
  3. Берзон В., Брайловский А. Классификация коннекторов и диалоговые системы автоматического реферирования [Текст] / В. Берзон, А.Брайловский.- НТИ.-Сер.2.-№ 2.- 1979.
  4. Основні методи автоматизованого реферування [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL :http://uadocs.exdat.com/docs/index-140602.html
  5. Куделько З. Вісник: Проблеми української термінології. Автоматичне реферування текстів [Текст] / З. Куделько.— Львів: Національний університет «Львівська політехніка».— № 453.— розділ 2.— 2002.- 554 с.
  6. Инструкция для референтов реферативного журнала ВИНИТИ [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL :http://rudocs.exdat.com/docs/index-255097.html.
  7. Авдеева A. Организация реферата в формат на основе метода поаспектного реферирования [Текст] / А.Авдеева. — НТИ.- Cep.1.- 1974.- № 10.-С.29-34.
  8. Гиндин С .Семиотика и информатика. Методы автоматического фрагментирования текста, опирающиеся на характеристики внутреннего состава фрагментов [Текст] / С. Гиндин. — М.:ВИНИТИ.— 1977. — вып.9. — С.35-82.
  9. Берзон В., Зубов A. Романское и германское языкознание. О семантической классификации параметров связности текста [Текст] / В. Берзон, А. Зубов. — вып.1. — Минск : 1977. — С.185-197.
  10. Совершенствование лингвистических и структурных характеристик информационных документов АИС и РЖ [Електронний ресурс]. — Електронні дані. — Media Limited,2012. — Режим доступу: World Wide Web. — URL http://www.dissercat.com/content/sovershenstvovanie-lingvisticheskikh-i-strukturnykh-kharakteristik-informatsionnykh-dokument.
  11. Кушнаренко Н. Наукова обробка документів [Текст]: Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.